爬取 x 宝的商品信息,休息一下弹窗怎么解决?

2021-02-27 08:45:32 +08:00
 iscurry

需求: 根据商品 sku 获取商品的 一些属性和评论

目前: 使用 python 的 selenium 模拟登录,然后通过 request 请求重定向,xpath 分析数据

问题: 每一次 request 后睡眠 1s,但是发送 20 次后就会出现休息一下的界面,即使手动划过去也不行, 有没有什么好的办法?或者其他的方法?

8547 次点击
所在节点    Python
49 条回复
Thymolblue
2021-02-27 19:04:54 +08:00
想请教一下使用 selenium chrome drive 有没有什么办法在后台输入 hotkeys 而不受桌面窗口影响
applehater
2021-02-27 19:33:56 +08:00
小新破坏计算机信息的名头
linuxcat
2021-02-27 19:34:55 +08:00
tb 连正常访问都拦,更别说爬虫了
zictos
2021-02-27 19:38:48 +08:00
动态 ip vps + 切换 UA + 切换浏览器指纹 + 隐身模式或者清除浏览器缓存和 cookies
lmmortal
2021-02-27 19:46:13 +08:00
@Dvel 因为这个原因 web 端我换百度了

@love 我也多次遇见,画到头了全绿然后说出现问题让刷新重滑 滑完下边是两个绿条,还是不让进页面
westerndream
2021-02-27 20:48:38 +08:00
正常浏览都出现休息一下怎么解决
thursday
2021-02-27 20:52:45 +08:00
@alexbigbigworld 你用的是哪个 应用了。我也有类似需求
jousca
2021-02-27 21:08:06 +08:00
正常浏览在上面找东西都会弹出验证滑块,还别说你搞爬虫。

垃圾网站早晚要挂。
meinjoy
2021-02-27 22:11:05 +08:00
@alexbigbigworld 请问在哪能卖?
alexbigbigworld
2021-02-27 22:27:23 +08:00
@meinjoy 服务市场里找集市宝
muzuiget
2021-02-28 01:23:51 +08:00
正常浏览都会弹,有时候货比三家确实会频繁刷新同一页,都会弹,垃圾。
zckevin
2021-02-28 09:03:27 +08:00
iscurry
2021-02-28 11:26:32 +08:00
@zckevin 请问这个该怎么用?
iscurry
2021-02-28 11:26:54 +08:00
@leega0 分布式的目的是什么?
iscurry
2021-02-28 11:27:21 +08:00
@zictos selenium 怎样弄动态 ip
zictos
2021-02-28 12:13:00 +08:00
@iscurry #35 动态 vps 可以通过通过程序自动切换系统 ip 的,windows 系统可以通过 cmd 命令( python 通过 os.system()调用)。系统 ip 变了,selenium 自然也变 ip 了。可以在 python 中每隔指定时间切换一下 ip,
cnscorpions
2021-02-28 13:48:38 +08:00
web 的反爬太厉害了,可以考虑下 app 的吧😂
inwar
2021-02-28 14:25:36 +08:00
人用都几次弹一次窗。。
newmlp
2021-02-28 14:58:19 +08:00
正常人谁会准时 1S 刷一次这么准,淘宝风控又不是傻逼
Rache1
2021-02-28 16:20:46 +08:00
我觉得淘宝最狗的就是,不登录都不能搜索。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/756671

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX