2025 年如果还想做一些爬虫相关的任务,还是首选 scrapy 吗?

249 天前
 rainbowmorel

现在的反爬技术,已经让一些没有安全相关的工作者无法进行。scrapy 这类框架貌似还是使用 http 协议相关的操作。不知道现在各位大佬都在用什么让自己可以有更多的摸鱼时间的工具!

萌新求助

2075 次点击
所在节点    问与答
9 条回复
march1993
249 天前
我感觉 scrapy 只是个玩具,chromedp 之类的依靠 Chrome DevTools Protocol 的才是正经爬虫方案
Ketteiron
249 天前
2025 年了,除了无头的方案都可以退休了。国内还好,一堆网站跟不设防差不多,你可以继续用上古爬虫,国外全上了 CF/AWS ,过 js 挑战以及伪造 tls 指纹是最基本的,掂量下非无头能不能实现,就算实现了难度和时间花费不是一个量级的。
crab
249 天前
mumbler
249 天前
首选 browser use
lasuar
249 天前
大家都没有心思再去分析复杂的接口了,基本都是上无头。scrapy 已经廉颇老矣了。
rainbowmorel
245 天前
@mumbler 这个会不会有点慢
rainbowmorel
245 天前
@march1993 11111
QHKZ
244 天前
试试一些自动化测试框架吧,比如谷歌浏览器的 puppeteer ,前端的 playwright 框架。这些东西比 scrapy 要强不少,动态网站也能爬,还能模拟输入重放,能不能过反爬不好说。
rainbowmorel
229 天前
@crab 啊原来还有这个东西 666 我一直以为只能用无头浏览器的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1129280

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX