网页信息获取是爬虫还是 Selenium，还有图片分类库求推

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 844 天前的主题，其中的信息可能已经有所发展或是发生改变。

举个栗子
淘宝商品列表页面，获取名称和图片，以及每个商品详情后的其他一些信息。
想问下爬虫框架和 Selenium 哪个更合适，不容易触发风控。

另外想根据名称描述和图片自动分类，有没有开源或者免费的
基于开源的 tensorflow 自己训练 AI 的话耗费太大感觉小题大做了。

5 条回复 • 2023-12-04 13:47:45 +08:00

incubus

2023 年 12 月 3 日

这也想白嫖？

ZZ74

2023 年 12 月 3 日

@incubus
第一个是技术选型问题
第二个是问一下，不确定有没有。白嫖谈不上吧

r6cb

2023 年 12 月 3 日

还是早点放弃吧，正常用户去浏览都经常要人机认证。

ZZ74

2023 年 12 月 3 日

@r6cb
不是淘宝啊我只是举个例子另外不是高频访问。我放到服务器上慢慢跑

aureole999

2023 年 12 月 4 日

看你要访问的是什么网站了。有的不怎么管的你用什么都行。
不容易触发的应该还是 Selenium 或者 Puppeteer 加 Stealth 插件。

第二个 chatgpt api 之类的也许能做到？