正抓取谷歌学术( not intensive),什么姿势可以躲过谷歌的封锁?在用 selenium, sys sleep 为 1s,但还是无情被封。难道需要随机的 sys sleep 时间和随机的 click 动作吗?大家有什么思路没?

2016-04-26 11:33:08 +08:00
 talentliuyang
5261 次点击
所在节点    问与答
9 条回复
gamexg
2016-04-26 12:18:56 +08:00
挂代理,经常更换自己的 ip 。
或者 扫 google ip ,循环更换对方的 ip 。
msg7086
2016-04-26 12:42:26 +08:00
(首先,你要比 Google 的工程师更聪明。
htfy96
2016-04-26 12:48:51 +08:00
Google scholar 太难爬了 用代理池可能会好一点
qqmishi
2016-04-26 13:09:46 +08:00
其实我一直想试试用 GAE 爬谷歌看会不会封自己,,,
fengxing
2016-04-26 15:40:09 +08:00
@qqmishi 我感觉 google 不会封自己的出口 IP 吧,但是应该会封号?
mcone
2016-04-26 16:16:19 +08:00
别想了,还 1s ……真人操作+账号登陆,有时候点的快一点都会被判为机器人,更何况你本来就是机器。。。。。。

要么想办法比 google 那群人更聪明,要么换一个爬。。。。
Landarky
2016-04-26 23:02:49 +08:00
Google 防机器爬虫也是有点牛逼的
yech1990
2016-04-27 00:59:33 +08:00
Google scholars 本身限制太严格,就是普通搜索稍微频繁一点都会被验证。 试过用 python 自动查询几十篇,立马就被封 IP 了。 爬虫的话,我觉得是十分不现实的。


倒是可以爬爬百度学术的,我觉得百度学术就是完全爬的 Google 的内容。毕竟流氓的技术水平高
talentliuyang
2016-04-27 10:03:05 +08:00
@yech1990 好的,我试试百度学术。

@Landarky @fengxing @gamexg @htfy96 @mcone @msg7086 @qqmishi 感谢大家的回复,我放弃爬谷歌学术了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/274447

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX