抓取淘宝的商品信息需要大量的淘宝账号吗？

账号会很容易被封吗？如果是的话从哪里购买大批小号？

iiduce

2019-01-26 18:27:07 +08:00

哪有这么麻烦。淘宝开放平台申请 api 即可。

okface

2019-01-26 18:42:15 +08:00

@iiduce 这个 api 肯定是有限制的吧，现在难道都不需要抓取了？

okface

2019-01-26 18:48:17 +08:00

@iiduce 好吧我看了一下收费不便宜啊～

Veigar

2019-01-26 18:59:49 +08:00

技术圈很多人不知道的一个事实是，以中国现行的法律标准，几乎所有爬虫工程师全都违法…

Vegetable

2019-01-26 19:04:26 +08:00

@Veigar 我怎么认为所有的爬虫工程师都知道自己做的事不合法呢…

ioven

2019-01-26 19:23:57 +08:00

小区搭建一个无密码的高强度 wifi，然后嗅探 cookies，然后。。。

据说某大佬就是这种操作

zr8657

2019-01-26 19:39:50 +08:00

@ioven 感觉挺厉害，淘宝的 cookie 又多又杂。

如果不需要商品销量和库存的话还是挺简单，只有商品列表要登录，详情不需要登录，不过最近好像评论接口需要登录了。

fstab

2019-01-26 20:00:00 +08:00

@kimown 非法入侵计算机信息系统罪。
这个口袋可以装很多。

farverfull

2019-01-26 20:40:42 +08:00

https 不是要在手机上装证书才行么？
@ioven

rekulas

2019-01-26 20:52:24 +08:00

@flyz 这吹的就有点过了，除非是想搞某个人会安排这个罪名，按法律来的话正常的爬虫应该是合法的，毕竟网站都把数据放到公网上了，法律对公共场所隐私是缺乏保护的

wuchujie

2019-01-26 22:52:18 +08:00

@farverfull https 嗅探。。自建 WiFi 自建 dns 服务器

tiaod

2019-01-26 22:54:06 +08:00

@rekulas 但是只要网站有反爬技术，哪怕最简单最弱智的那种，你写个爬虫用技术手段绕过了，就是非法入侵计算机信息系统罪

kernel

2019-01-26 22:55:46 +08:00

@wuchujie 自建啥也做不到，除非能侵入对方电脑装个证书

molvqingtai

2019-01-27 02:03:52 +08:00

@rekulas 只要没遵守 Robots 协议就算

AslanFong

2019-01-27 08:09:34 +08:00

前公司广告平台做过淘宝商品详情的爬虫，需要商家自己填写淘宝的商品 ID，然后我们再特定的爬。没爬过商品列表，感觉这个业务不符合实际。

ioven

2019-01-27 08:10:06 +08:00

@lhx2008
@farverfull
貌似中间使用一些灰产技术，没细研究

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/530873

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.