现在大型的爬虫项目用的是什么框架, scrapy 过时了吗

2025 年 11 月 25 日
 pureGirl
3259 次点击
所在节点    程序员
14 条回复
bwnjnOEI
2025 年 11 月 25 日
面对动态页面和抗反爬稍微复杂点的就不行了吧
简单的网站依然可以用啊
donaldturinglee
2025 年 11 月 25 日
scrapy 一直就不是单着用的吧?没过时,但是你可以学一下 playwright
sgld
2025 年 11 月 25 日
试试 DrissionPage ?
zonde306
2025 年 11 月 25 日
简单就 scrapy ,复杂就不用框架,直接操作浏览器

例如
camoufox
patchwright
azzzzzz
2025 年 11 月 26 日
未来还是直接模拟浏览器的吧
IIce
2025 年 11 月 26 日
毕业之后就没用过 scrapy 了,有自研的,也有 feapder, 还有一些就是一个 requests 脚本,可能项目不够大吧
1018ji
2025 年 11 月 26 日
浏览器还能抓啥,APP 走起
Toowhite7
2025 年 11 月 26 日
Selenium or playwright
tim2017
2025 年 11 月 26 日
之前用过简数的代爬,收费还可以,以前免费提供大量知名网站的模版,现在都限制了。

我公司网站靠爬虫每天上百 IP ,几年没更新了。
国内互联网 V2EX 这种开放性的 web 原创数据越来越少了,都是私域平台。
Honghe
2025 年 11 月 26 日
@tim2017 嗯,web 成荒漠了
llsquaer
2025 年 11 月 26 日
一个项目一个 py 还要啥 scrapy ..
securityCoding
2025 年 11 月 26 日
chrome cdp?
gopo
2025 年 11 月 26 日
1. 逆向协议(网页优先,APP 其次)
2. 自研浏览器、模拟器(主要过指纹还有方便自定义)
3. 简单网站(静态和动态的区别)随便搞
xjiang1982154112
2025 年 12 月 17 日
考虑真实性模拟,最简单的是 playwright ,甚至可以直接拿一个 mac mini ,操作真实浏览器(非无头);方便程度超出你的想象~~
一般场景用 scrapy 够了
你说的大型,如果是指数据量巨大,那其实爬虫不是重点,手搓 python 脚本都不是问题,问题是 IP 池等各种"反-反爬"处理。
如果指的是网站类型超多(几百几千,甚至几万种),要吗人肉堆脚本,要吗用 AI (安利一下我们的东西:猫头鹰 AI:mtywatch.com
如果指的是"突破"难度很大,那么你重点研究的是法律风险

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1175013

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX