V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
disonlee
V2EX  ›  Python

求教 python 采集挂了 Incapsula 的页面问题

  •  
  •   disonlee · 2016-06-11 13:17:41 +08:00 · 4800 次点击
    这是一个创建于 2877 天前的主题,其中的信息可能已经有所发展或是发生改变。

    各位好,最近想采集一个网站,采用的是 urllib2 和 beautifulsoup 。然后发现这个网站挂了 Incapsula 这个 CDN ,和 Cloudflare 一样,访问主页 aaa.com 之后会在后面加入 aaa.com/?key302=80ebbaed9d&expire302=1465622987&keyjs=80ebbaed9d&expirejs=1465622987 这样的字符串。用 urllib.request 方法就会报 302 错误,请教这种情况下如何解决? 十分感谢!

    9 条回复    2016-07-18 13:30:41 +08:00
    kenX
        1
    kenX  
       2016-06-11 15:16:07 +08:00 via iPhone   ❤️ 1
    PhantomJS
    ioven
        2
    ioven  
       2016-06-11 16:37:02 +08:00   ❤️ 1
    requests 允许跳转
    disonlee
        3
    disonlee  
    OP
       2016-06-11 16:45:38 +08:00 via iPhone
    @ioven 是允许跳转,我不太清楚这个 cdn 后面加的字符串什么策略, headers 也都伪装了,还是提示 too many loops
    xiaozhizhu1997
        4
    xiaozhizhu1997  
       2016-06-11 18:51:37 +08:00 via Android   ❤️ 1
    @disonlee 加 key 是一种防御 L7(CC)攻击的方式。
    ioven
        5
    ioven  
       2016-06-11 22:49:39 +08:00   ❤️ 1
    @disonlee 应该与 CDN 无关,浏览器尝试打开,获取所有 headers 字段用于伪装,实在不行可以登陆后爬去
    disonlee
        6
    disonlee  
    OP
       2016-06-11 23:33:58 +08:00
    @ioven 十分感谢指点 我去试试
    wujunze
        7
    wujunze  
       2016-06-12 10:10:19 +08:00
    PhantomJS 这个是神器
    maxsec
        8
    maxsec  
       2016-06-12 16:31:03 +08:00
    建议 livid 版规中禁止讨论爬虫抓取此类负能量的功能问题
    Verydiao
        9
    Verydiao  
       2016-07-18 13:30:41 +08:00
    @maxsec 爬虫并不直接等于负能量,看怎么用吧,你看刀子可以用来切水果也可以用来杀人,关键还是看用的人,爬虫有其存在的必要性。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2736 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 11:26 · PVG 19:26 · LAX 04:26 · JFK 07:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.