网页信息获取是爬虫还是 Selenium，还有图片分类库求推

2023-12-03 12:09:38 +08:00

ZZ74

举个栗子
淘宝商品列表页面，获取名称和图片，以及每个商品详情后的其他一些信息。
想问下爬虫框架和 Selenium 哪个更合适，不容易触发风控。

另外想根据名称描述和图片自动分类，有没有开源或者免费的
基于开源的 tensorflow 自己训练 AI 的话耗费太大感觉小题大做了。

1373 次点击

所在节点

5 条回复

incubus

2023-12-03 13:21:36 +08:00

这也想白嫖？

ZZ74

2023-12-03 14:45:37 +08:00

@incubus
第一个是技术选型问题
第二个是问一下，不确定有没有。白嫖谈不上吧

r6cb

2023-12-03 17:09:30 +08:00

还是早点放弃吧，正常用户去浏览都经常要人机认证。

ZZ74

2023-12-03 17:36:39 +08:00

@r6cb
不是淘宝啊我只是举个例子另外不是高频访问。我放到服务器上慢慢跑

aureole999

2023-12-04 13:47:45 +08:00

看你要访问的是什么网站了。有的不怎么管的你用什么都行。
不容易触发的应该还是 Selenium 或者 Puppeteer 加 Stealth 插件。

第二个 chatgpt api 之类的也许能做到？

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.