爬虫现在有啥黑科技抓取法吗

ration

2025 年 3 月 31 日

可以尝试一下这个 https://github.com/browser-use/browser-use

Dora112233

2025 年 3 月 31 日

crawlee+camoufox 值得学一下

Dora112233

2025 年 3 月 31 日

可以写通用规则写个 json ，然后解析 json 生成代码，打包成 docker 镜像，用 k8s/k3s 运行

googxuran

2025 年 3 月 31 日

@ration 用过这个感觉不太行啊，程序员还是 selemium 比较趁手。

wentx

2025 年 3 月 31 日

无头浏览器把整个 document 捞出来... 但是也可能被封 IP

jerrywaffle

2025 年 3 月 31 日

seleniumbase 可以单个 element 截图，隐秘模式

macaodoll

2025 年 3 月 31 日

简单的网站,可以直接用大模型生成,内部规范化的脚本,已经测试过了,

macaodoll

2025 年 3 月 31 日

另外调用浏览器的话 Java 推荐 jxbrowser(商业软件,但是就算最新的也可以破解),python 的话 DrissionPage

chengxiao

2025 年 3 月 31 日

爬虫的瓶颈不是账号和 ip 么?

andyskaura

2025 年 3 月 31 日

是不是想要类似这种东西？ https://cursor.directory/mcp/puppeteer

NoOneNoBody

2025 年 3 月 31 日

AI 的 web api 本身也是爬虫

现在能用上 AI 的可能是，自动判别网页需要获取的部分，以及爬去后的自动分类整理
后者严格说也不是爬虫的工作，而是后续工作，因为爬取工作是相同的，但如何分类则是不同的需求，同一批爬取结果也可能有很多不同的分类方法

整站 dump|siterip 然后 AI 提取？

adgfr32

2025 年 3 月 31 日

如果你说的 AI 是指大模型的话，爬虫的瓶颈在于 ip 指纹，账号，过验证码。这三个大模型都解决不了。

coderluan

2025 年 3 月 31 日

https://github.com/ScrapeGraphAI/Scrapegraph-ai

刚出来的时候我试过，不太好用，现在什么状态不太清楚。

thingingWoods

2025 年 3 月 31 日

众包才是爬虫的出路

pureGirl

2025 年 3 月 31 日

@z1829909 想用来抓那种没有门槛的网站，而且不需要挨个解析

pureGirl

2025 年 3 月 31 日

@thingingWoods 有推荐的接单平台吗

KING754

2025 年 3 月 31 日

这两天 selemium 抢个优惠券...各种问题.
确实感觉 IP 代理,才是最大的问题.

你动不动,就不能测了呀...........

YJi

2025 年 3 月 31 日

要抓什么数据？互联网文本数据我这有接口（包括抖快微小

WarlockMan

2025 年 4 月 1 日

爬虫没有黑科技，反而是反爬这边因为有钱有资本借助人工智能不断升级，datadom 反爬公司现在客户越来越多

jqk

2025 年 6 月 13 日

@YJi 老哥能不能留个联系方式有需求

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1122191

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.