V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
maloneleo88
V2EX  ›  Python

《灵异事件》两个 IP 地址 requests 同一个页面得到的数据不同?

  •  
  •   maloneleo88 · 2021-02-27 14:00:23 +08:00 · 3596 次点击
    这是一个创建于 1147 天前的主题,其中的信息可能已经有所发展或是发生改变。
    odds_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:85.0) Gecko/20100101 Firefox/85.0',
    'Referer': 'http://zq.win007.com/analysis/1973057cn.htm', 'Connection': 'close'}
    res_odds = requests.get(url='http://zq.win007.com/analysis/odds/1973057.htm',headers=odds_headers,proxies={"http":'120.232.150.100:80'})
    sleep(1)
    res_odds.encoding = 'utf-8'
    res_odds = res_odds.text
    odds = re.search(r';(.*?) id', res_odds, re.S).group(1)
    odds = re.sub(r'/', '.', odds)
    odds = re.findall('(.*?),', odds)

    我就贴一个地址吧,其实每个请求来的都不一样。用上面这个代理 ip get 到的数据 和我本地 get 到的有些许不同。
    几户每个页面都有不同,具体不同在数值。 什么原因? 太神奇了????
    18 条回复    2021-02-28 09:21:30 +08:00
    maloneleo88
        1
    maloneleo88  
    OP
       2021-02-27 14:06:34 +08:00
    代理服务器拿到的
    2.5.3 2.5.3
    2.5.3 3
    2.5.3 2.5.3
    2.5.3 3
    2.5.3 2.5.3
    3 2.5.3
    2.5.3 2.5.3
    2.5.3 3
    3 2.5.3
    2.5.3 2.5.3
    2.5.3 2.5.3
    2.5.3 2.5.3
    2.5 2.5
    2.5 2.5

    本地拿到的
    2.5 2.5
    2.5 2.5
    2.5 2.5
    2.5 2.5.3
    2.5 2.5
    2.5.3 2.5
    2.5 2.5
    2.5 2.5
    2.5.3 2.5
    2.5 2.5
    2.5 2.5
    2.5 2.5
    2.5 2.5
    2.5 2.5


    print(odds[12],odds[26])
    print(odds[54],odds[68])
    print(odds[96],odds[110])
    print(odds[138],odds[152])
    print(odds[180],odds[194])
    print(odds[222],odds[236])
    print(odds[264],odds[278])
    print(odds[306],odds[320])
    print(odds[348],odds[362])
    print(odds[390],odds[404])
    print(odds[474],odds[488])
    print(odds[516],odds[530])
    print(odds[558],odds[572])
    print(odds[600],odds[614])
    哪位老哥复制一下看看,是不是不同? 为什么会出现这种情况?
    datou
        2
    datou  
       2021-02-27 14:07:30 +08:00
    珍爱生命,远离菠菜
    dorothyREN
        3
    dorothyREN  
       2021-02-27 14:49:47 +08:00
    @datou #2 搏一搏,单车变摩托
    maloneleo88
        4
    maloneleo88  
    OP
       2021-02-27 14:55:43 +08:00 via Android
    三岁小孩都懂的道理你再复述干嘛
    @datou
    eason1874
        5
    eason1874  
       2021-02-27 14:56:34 +08:00
    可能是千人千面,对不同韭菜采取不同策略。

    这是什么工作?入职扣护照,离职打断腿的那种?
    mercury233
        6
    mercury233  
       2021-02-27 15:21:27 +08:00
    虽然网页地址是.htm ,但一般都是伪静态,本质是动态页面
    根据用户 IP 判断地区返回不同的内容是基本操作
    maloneleo88
        7
    maloneleo88  
    OP
       2021-02-27 15:41:26 +08:00 via Android   ❤️ 2
    就是自学爬虫,抓数据,拿这个练手。

    嗯,千人千面,有一种人就叫爱 bb,全地球都看不惯。

    真愁,每次都有扯闲篇的🤣

    有时间刷抖音还能赚几毛不是~

    我研究足彩行不?你看不惯你去把体彩端了,不用在这扯好嘛? 没威力

    要不有空思考一下人生,世界原本真实的样子?

    我一直赞同,人类的所有的主观意识都是外界灌输而慢慢形成的。也就是说人类生来根本不存在主观意识,你所有的认知都是对外来信息的被动接受而已。
    那,更可怕的来了。人类都认为自己是有主观意识的,然后所有的是非正邪观念都是建立在这个虚假主观意识上的。然后自以为是真实。


    再想想,你眼中的美女是真的美吗?还是因为自始自终都是某种信息一直在强化你的意识,大眼睛,苗条,瓜子脸这种才是美女。然后促使你被动认同。


    再比如,如果你从小就吃💩,你还觉得💩难吃吗?或是只是有种信息告诉你💩不能吃。假如有一种你不喜欢吃的食物,试着找找原因,是不是因为你从小生存环境就很少接触这种气味的东西? 比如茴香。

    每个人都一样,像个机器被动的接受外界信息,慢慢产生认同感,形成了一个虚假的审美观,价值观。之所以有差异是因为接受的信息有差异,我曾经有个国外女友,我发现人类的骨子里是一样的,根本就是白纸一张。只是接受的外界信息不同,慢慢形成了假性认知。

    现在就是不想对任何事评头论足,自己都不一定是真的“自己”,又有什么权利去 bb 其他的呢? 🙂
    maloneleo88
        8
    maloneleo88  
    OP
       2021-02-27 15:51:12 +08:00 via Android
    @mercury233 那这个操作就太骚了,他为什么要对不同的 IP 用户返回不同的信息?
    这个是盘口的公开信息,也就是说应该所有人看到的都是相同的。就像晚 7 点打开中央 1 所有人都会看到 cctv-1 一样。

    耐人寻味,是技术原因还是有不可告人的秘密。🤔
    learningman
        9
    learningman  
       2021-02-27 15:55:50 +08:00   ❤️ 9
    楼主原来就是 10 天前那个问问题别人不答就破口大骂的啊
    学了 10 天还在这 re 呢,本事不大脾气不小,后面看到的心里麻烦预警下,我先 block 了
    mercury233
        10
    mercury233  
       2021-02-27 16:01:11 +08:00
    @maloneleo88 大概为了反爬虫,没有人喜欢自己整理(或者爬来)的数据被爬走变成别人的。返回假数据是常见的反爬手段。你这个代理 IP 是在公开的代理列表里的,网站主动找代理 IP 拉黑或者已经被别人用这个 IP 爬过了吧。
    msaionyc
        11
    msaionyc  
       2021-02-27 16:04:47 +08:00   ❤️ 4
    您现实生活中也是这样子的吗
    DefoliationM
        12
    DefoliationM  
       2021-02-27 16:21:49 +08:00
    您现实生活中也是这样子的吗
    GM
        13
    GM  
       2021-02-27 16:24:58 +08:00
    @maloneleo88 那,你又在 bb 什么呢?
    TimePPT
        14
    TimePPT  
       2021-02-27 16:46:56 +08:00 via Android
    maloneleo88
        15
    maloneleo88  
    OP
       2021-02-27 18:00:04 +08:00 via Android
    @mercury233 好的明白了,
    maloneleo88
        16
    maloneleo88  
    OP
       2021-02-27 18:17:53 +08:00 via iPhone
    第一遍是回击,也是善意提醒。
    第二遍无所谓了。将来嘴贱吃亏的又不是我。🤷
    dandankele
        17
    dandankele  
       2021-02-27 20:08:51 +08:00
    @maloneleo88 如同 10 楼说的,一些大厂做风控反爬虫的方案中有一项就是制造假数据并返回,而且作为防爬方来说,不让采集者知道自己已经知道对方是爬虫也是一种技巧。。而不是简单的返回 403 告诉对方。这既是防守也是一种进攻。。对采集者来说也挺恨的。既然楼主得到的这样的结果,说明楼主的采集行为早就被识破了。。
    maloneleo88
        18
    maloneleo88  
    OP
       2021-02-28 09:21:30 +08:00 via iPhone
    @dandankele
    @mercury233

    谢谢了,我明白了。换了代理 IP 就好了。

    以前买过一种 L2TP 代理,自带客户端的那种,直接切换本机 IP,能和 python 结合起来使用吗? 手填 ip 太麻烦了,ip 池子意义也不大,失效的过多,还要频繁更换。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2724 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 05:37 · PVG 13:37 · LAX 22:37 · JFK 01:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.