现在大家爬虫爬淘宝都是用什么办法能全站大量爬取啊?给个思路吧?能用手机 app 端爬取吗?

2019-06-22 13:12:10 +08:00
 z1421012325

目前在搞电商爬虫,
京东还行,还是能爬取的,一台机使用 scrapy 开个四个假的分布式窗口(配置差,不敢开太多,怕一觉起来电脑卡死),ip 被 ban 也不是很严重,除了一些页面需要使用 selenium 抓取之外(图书页面要下滑加载 js),其他的页面都可以直接抓取,不过如果中间掺杂需要 selenium 的页面会很慢,12 小时总共能爬 8w 页面(因为 scrapy 回调函数),一台机器能爬 3w 数据算多的了..


但是淘宝就恶心到我了........ 反爬很严重,用 selenium 爬几下就 gg, cookies 之后也用不了,除非用新的,再说我也没有那么多账号弄 cookies

根据用户行为来判断是否爬虫的吗?

还是查找原始 ip 来 ban 掉 ip?高匿 ip 不行吗?

那么能使用 app 加 mitmdump 拦截抓取数据保存,还是通过 pc 端加自制脚本(非 selenium)模拟用户点击+mitmweb 拦截数据?

17661 次点击
所在节点    Python
49 条回复
akira
2019-06-22 16:34:22 +08:00
有海量 ip/账号 肯定可以爬
z1421012325
2019-06-22 17:27:00 +08:00
@akira ip 倒是没啥问题,问题是账号,再说了如果被发现是爬虫,那么这个账号短时间内不能使用了,还有貌似每天都会让你登陆一次获取 cookies..
www6688w
2019-06-22 17:35:08 +08:00
用谷歌插件模拟真实用户采集试试呢?
compiler
2019-06-22 17:37:12 +08:00
我理解淘宝有反爬团队,干不过就加入,哈哈哈
turi
2019-06-22 18:24:29 +08:00
淘宝有自动拨号 vps,每次 连上都是不同 ip.
hgjian
2019-06-22 18:39:01 +08:00
@turi 能提供一下搜索关键词吗?没找到啊
turi
2019-06-22 19:02:54 +08:00
@hgjian ip 混播
试试这个,去年还有拨号的 vps,今年就清理干净了。
turi
2019-06-22 19:04:47 +08:00
@hgjian

这个关键词,还有的
adsl ip
z1421012325
2019-06-22 19:06:50 +08:00
@www6688w 真实模式也没用啊,根据用户习惯分析就能轻松反爬,毕竟一个人不可能一天之内浏览这么多页面的
lonelygo
2019-06-22 19:13:40 +08:00
#24 @compiler 好办法,打入敌人内部。
weiqk
2019-06-22 20:00:08 +08:00
你们要爬什么我帮你们爬,一分钱一个商品可好?
minami
2019-06-22 20:25:18 +08:00
淘宝那个反爬策略,我一正常用户都觉得恶心,多开几个商品页面就开始弹东西了
jiejiss
2019-06-22 20:30:46 +08:00
把下滑、点击之类的,自己先实际操作七八遍,让程序 100%记录,然后重放出来
包括等待页面加载的时候鼠标的移动,或者是拖动浏览器的右侧滚动条,也要录
每两次操作之间的间隔建议也是基数+随机数
jiejiss
2019-06-22 20:31:09 +08:00
或者干脆接入打码平台
zdb1115
2019-06-22 21:24:51 +08:00
31 楼的可以爬一个品类的吗?
opengps
2019-06-22 21:44:54 +08:00
爬虫本不应该是被提倡的,毕竟原创成分太少,影响真原创方的负载能力。
DaWWW
2019-06-22 22:34:15 +08:00
动态 ip,控制访问速度,淘宝反爬很正常啊
dewi
2019-06-22 23:54:45 +08:00
TB 的话可以试试淘客的 api,或者直接爬大淘客上的,但是这个方法仅适用于有返利的宝贝,无返利的宝贝目前无解。。。
lovesky
2019-06-23 00:00:35 +08:00
selenium 是能被检测到的,你们要爬什么我帮你们爬,一分钱一个商品可好?
hgjian
2019-06-23 00:20:23 +08:00
@turi 感谢提供

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/576429

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX