首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
华为云
V2EX  ›  Python

[爬虫]看一下这个网站难爬吗?

  •  
  •   magicfam · 133 天前 · 2103 次点击
    这是一个创建于 133 天前的主题,其中的信息可能已经有所发展或是发生改变。

    http://search.anccnet.com/searchResult2.aspx 就平时自己在浏览点击差不多 10 次(相隔比较短时间内)就已经 401 了. 自己用 scrapy 爬取的时候,30 页,差不多 300 多条数据的爬取,只能获取到二十条数据. 想问这种网站爬取的话思路是怎样, 目前通过验证,用的一些免费代理的 ip 池

    9 回复  |  直到 2018-07-05 11:37:50 +08:00
        1
    Le4fun   133 天前
    验证码过了么
        2
    crawl3r   133 天前
    @Le4fun 验证码太 tm 简单了,只要检测到一定数量连续的白色区域就破解了
        3
    crab   133 天前
    要稳定,租一台动态 adsl 拨号的 vps 换 IP 爬吧。
        4
    tingyunsay   133 天前
    @crab 老哥推荐个靠谱的厂商,买过的有问题,拨号那会儿偶尔断网,感觉是厂商服务不稳定导致的....
        5
    magicfam   133 天前
    @Le4fun 算是过了吧. 列表可以爬到的.就是爬不了几条.新手心态爆炸
        6
    magicfam   133 天前
    @crawl3r 我还没会那种,我的方法是里面 js 发送的一个 check_ok.再用更新头部的 cookie...这样就算是通过验证,不知道这个会有影响不.. 还是想大伙如果爬这个网站会有怎样的思路
        7
    magicfam   133 天前
    现在用 scrapy.也不知道什么问题.爬着爬着就没了...也没报错
        8
    nccer   133 天前
    有个叫阿布云的 HTTP 代理商蛮好用的。
        9
    beforeuwait   132 天前
    同 8 楼
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2476 人在线   最高记录 3821   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 21ms · UTC 11:05 · PVG 19:05 · LAX 03:05 · JFK 06:05
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1