对于需要验证的爬虫问题

2015-07-14 10:57:20 +08:00
 aragakiiyui

最近写一个爬虫,根据输入的关键字抓取某电商网站的搜索结果。实际应用时估摸着请求了5、6次,然后便直接跳转到登录页面,需要登录才能进行抓取,所以就只能登录再抓了。
可是我很好奇,这种验证机制背后的原理是什么?!有大神能够解答一番嘛,不甚感激!

5227 次点击
所在节点    Python
31 条回复
est
2015-07-14 16:45:17 +08:00
@paw 没用。比如用js插入一段css加载了一个background的图片,爬虫没加载,直接封ip。

@aragakiiyui 其实对付这种只有一个办法:买ip。淘宝批发代理ip很便宜,1元钱1w个的样子。
imn1
2015-07-14 17:18:57 +08:00
@est
封 ip 这个有点太狠了,估计不会,因为图片、css、js没加载是常有的,估计最多会302到一个错误页面
frankzeng
2015-07-14 18:17:28 +08:00
@aragakiiyui 这种事急不来的,延长时间,慢慢爬。
t2xingzhe
2015-07-14 18:17:47 +08:00
记得爬豆瓣的时候也会出现验证你是否是机器人,大概有每分钟访问次数判断
realpg
2015-07-14 20:00:59 +08:00
我业余就是搞各种黑科技的。

反自动化、自动化识别是其中最好玩的,你在跟一大帮其他顶尖程序员战斗。

不用淘宝,就我自己都有一大把模型去判断你到底是什么东西,淘宝受限于规模过大,还不好部署一些奇葩的黑科技东西,自己弄就好多了。

识别非人类用户,半非人类用户的方法太多了,随便组合组合,随机的,再结合访问次数,就够杀掉你了。

最基础的,你用一个固定IP的服务器去抓东西,这都不用专业的反自动化引擎,基本的IP判断结合特征就把你识别透了。
paw
2015-07-15 09:31:39 +08:00
@est 验证元素加载也简单,win下就webbrowser,用python就 PhantomJS
当然这样会很慢。。。
aragakiiyui
2015-07-15 09:44:24 +08:00
@paw 这个都知道啊,问题是,你用chrom手动F5刷新都能被跳转。。。不信你试试,一淘网。。
aragakiiyui
2015-07-15 09:48:12 +08:00
@realpg 那除了换ip没有别的方式了?!
aragakiiyui
2015-07-15 09:49:36 +08:00
@t2xingzhe 豆瓣有次数限制的,而且也提供了API。
realpg
2015-07-15 09:54:01 +08:00
@aragakiiyui 怎能换IP这么简单?
你试图去爬淘宝,你的技术储备够么?淘宝是明确的禁止其他搜索引擎抓取的大网站,有专门的反抓取技术部门
上一份要爬淘宝的业务,技术顾问职位给我开的价是在职干三个月给120K,我都没干
既然去抓淘宝,那都是巨挣钱的项目,不是撸cb就是撸iic,哪个缺钱……找专家吧
est
2015-07-15 10:05:32 +08:00
@paw phantomjs 被研究得不要太透彻。。现在反爬虫思路是机器的墒比人类活动低的多。。。铁了心要反爬虫是无解的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/205548

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX