[爬虫]看一下这个网站难爬吗?

2018 年 7 月 4 日

magicfam

http://search.anccnet.com/searchResult2.aspx 就平时自己在浏览点击差不多 10 次(相隔比较短时间内)就已经 401 了. 自己用 scrapy 爬取的时候,30 页,差不多 300 多条数据的爬取,只能获取到二十条数据. 想问这种网站爬取的话思路是怎样, 目前通过验证,用的一些免费代理的 ip 池

5146 次点击

所在节点

Python

10 条回复

Le4fun

2018 年 7 月 4 日

验证码过了么

crawl3r

2018 年 7 月 4 日

@Le4fun 验证码太 tm 简单了，只要检测到一定数量连续的白色区域就破解了

crab

2018 年 7 月 4 日

要稳定，租一台动态 adsl 拨号的 vps 换 IP 爬吧。

tingyunsay

2018 年 7 月 4 日

@crab 老哥推荐个靠谱的厂商，买过的有问题，拨号那会儿偶尔断网，感觉是厂商服务不稳定导致的....

magicfam

2018 年 7 月 4 日

@Le4fun 算是过了吧. 列表可以爬到的.就是爬不了几条.新手心态爆炸

magicfam

2018 年 7 月 4 日

@crawl3r 我还没会那种,我的方法是里面 js 发送的一个 check_ok.再用更新头部的 cookie...这样就算是通过验证,不知道这个会有影响不.. 还是想大伙如果爬这个网站会有怎样的思路

magicfam

2018 年 7 月 4 日

现在用 scrapy.也不知道什么问题.爬着爬着就没了...也没报错

nccer

2018 年 7 月 4 日

有个叫阿布云的 HTTP 代理商蛮好用的。

beforeuwait

2018 年 7 月 5 日

同 8 楼

sml2h3

2018 年 12 月 20 日

https://github.com/sml2h3/luosimao_cracker
不谢，螺丝帽点击验证码代码层的破解，不用总是复制 cookies

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/468083

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.