请教下用 scrapy 如何抓 1688 上的商品数据呢?

2019-08-24 11:20:54 +08:00
 MrMike

网上查的,貌似代码都是 18 年的了,都说用抓包工具先找到一个 json 文件,里面有商品的信息,但是我用抓包工具看了,没有找到这样的网址。 页面上显示出来的商品价格,详情之类的数据,好像都是用 ajax 加载出来的。

各位大佬们,给点思路或方向。谢谢。

2856 次点击
所在节点    Python
15 条回复
lhx2008
2019-08-24 11:25:09 +08:00
建议你直接放弃就好了,或者花钱找人帮你搞。
MrMike
2019-08-24 11:31:13 +08:00
@lhx2008 朋友会么,多少钱可以?
skyeycirno
2019-08-24 11:33:45 +08:00
你可以放弃了,淘宝,阿里巴巴,京东这类的反爬都做到极致了,没你想的那么简单就能爬下来的
MrMike
2019-08-24 11:35:17 +08:00
@skyeycirno 谢谢。
alaikis
2019-08-24 11:41:43 +08:00
直接解决 JS,里面直接 JSON 就可以,最好的方法是采购手机版,手机版反爬没那么严重,另外,可以申请采购接品,直接拉取也可以。
alaikis
2019-08-24 11:43:30 +08:00
你把 www 改成 m 就是详情页的手机版,分页的话,只采购地址是比较简单的
sherlockwhitebb
2019-08-24 11:44:08 +08:00
直接上 selenium 吧
sherlockwhitebb
2019-08-24 11:44:50 +08:00
预算多少
MrMike
2019-08-24 11:47:12 +08:00
@alaikis 是申请采购接口么?
yaoye555
2019-08-24 11:49:44 +08:00
已突破 1688 任何维度不登录情况下的异步请求现已应用于公司大范围产品线, 有意可咨询
alaikis
2019-08-24 11:51:05 +08:00
不需要接口呀,就在 JS 里面,直接正则解析一下就好,我们原来 1688 上亿的采集都是这样操作的,直接 selenium 加谷歌浏览器就 OK 了
alaikis
2019-08-24 11:51:40 +08:00
记得加一下代理 IP,一家换两三个就可以了,就是不知道你们的采集量
LZSZ
2019-08-24 11:57:06 +08:00
正常浏览都经常出验证。
MrMike
2019-08-24 11:58:22 +08:00
@alaikis 哦。谢谢哈。
yangqinger
2020-03-16 11:37:08 +08:00
@alaikis 你们现在还是这样操作的吗?详情页现在好像要求登录的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/594702

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX