现在大家爬虫爬淘宝都是用什么办法能全站大量爬取啊?给个思路吧?能用手机 app 端爬取吗?

2019-06-22 13:12:10 +08:00
 z1421012325

目前在搞电商爬虫,
京东还行,还是能爬取的,一台机使用 scrapy 开个四个假的分布式窗口(配置差,不敢开太多,怕一觉起来电脑卡死),ip 被 ban 也不是很严重,除了一些页面需要使用 selenium 抓取之外(图书页面要下滑加载 js),其他的页面都可以直接抓取,不过如果中间掺杂需要 selenium 的页面会很慢,12 小时总共能爬 8w 页面(因为 scrapy 回调函数),一台机器能爬 3w 数据算多的了..


但是淘宝就恶心到我了........ 反爬很严重,用 selenium 爬几下就 gg, cookies 之后也用不了,除非用新的,再说我也没有那么多账号弄 cookies

根据用户行为来判断是否爬虫的吗?

还是查找原始 ip 来 ban 掉 ip?高匿 ip 不行吗?

那么能使用 app 加 mitmdump 拦截抓取数据保存,还是通过 pc 端加自制脚本(非 selenium)模拟用户点击+mitmweb 拦截数据?

17641 次点击
所在节点    Python
49 条回复
VDimos
2019-06-22 13:24:16 +08:00
为啥说的不让你爬错了一样,于情于理不让你爬都没问题
shanlan
2019-06-22 13:26:15 +08:00
未经同意,擅自爬取数据违法。
o00o
2019-06-22 13:27:41 +08:00
PC 端连正常用户都受影响了,更何况爬虫了
z1421012325
2019-06-22 13:27:49 +08:00
@VDimos 我也知道啊,但是学习不商用,而且也不是要全部爬取,只要能运行成功一天就好了
z1421012325
2019-06-22 13:29:29 +08:00
@o00o app 端有没有试过?,我这边弄不了,机器开虚拟机配置不行,淘宝都打不开...
daquandiao2
2019-06-22 13:29:56 +08:00
你最后不都想到两种办法了 怎么不试试
z1421012325
2019-06-22 13:30:31 +08:00
而且我不一定全站爬取,只要热门商品前面的就行,大概是每个商品爬个 5 60 页就爬下一个
z1421012325
2019-06-22 13:31:02 +08:00
@shanlan 学习不商用,试试爬爬,加强技能
q397064399
2019-06-22 13:32:47 +08:00
@shanlan #2 敞开大门做生意,换个姿势就不让插了? 真的是搞笑,哪天说不定我浏览器打开一下淘宝,就被定义为爬虫把我给抓走了,口袋罪何患无辞
z1421012325
2019-06-22 13:33:07 +08:00
@daquandiao2 都算是构想,第一种我机器配置不行,在模拟器中开淘宝直接卡死,第二种还在想怎么弄,这不来 v2 上看看大家有什么思路不?
Baboonowen
2019-06-22 13:33:33 +08:00
虽然我也写爬虫,但我不会觉得人家不让你爬错了……
z1421012325
2019-06-22 13:40:30 +08:00
@Baboonowen 也对,但是爬虫就是要反反爬吧
sobigfish
2019-06-22 13:57:53 +08:00
讨厌这些害的我正常浏览都要登录的 爬虫,但同时觉得,电商网站就应该明码实价,提供 API 给出价格都是应该的
zxcslove
2019-06-22 14:04:15 +08:00
@q397064399 根子就是不想公开竞争,弄羊毛忽悠用户,不好忽悠的用户都去死
zxcslove
2019-06-22 14:11:31 +08:00
@shanlan 相当于规定销售商品应当明码标价的情况下,未按商场指定方式看价格违法
Jirajine
2019-06-22 14:17:08 +08:00
mitm 可以试试吧,用大量客户端+自动操作脚本。我就是用这玩意配合自动操作脚本爬取一些 flash 内容(逆向 ActionScript 太痛苦)
cabing
2019-06-22 14:48:20 +08:00
我以前觉得还行吧~~,分析页面 js,ip 可以买个代理啥的。

以前公司有个店铺卖书的,买个工具需要花钱,为了省钱,就爬过自己店铺的数据,然后再整理和分析。。
vzev
2019-06-22 15:22:54 +08:00
"但是淘宝就恶心到我了" 淘宝肯定也在想你恶心到它了,哈哈!
kppwp
2019-06-22 15:22:55 +08:00
是通过用户行为分析的,一般还是用大量 ip 代理去解决问题。
mrcn
2019-06-22 16:10:25 +08:00
淘宝天猫…我正常用户都用不了…

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/576429

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX