JavaScript 爬虫方案有推荐的吗?

2021-10-19 13:08:01 +08:00
 dcsuibian

目前在模仿一个别的网站练手,模拟数据比较困难,就想着爬点下来。(纯练手,非商业用途)

之前用的 Scrapy,挺好用的,但是自己本身已经对 js 、ts 比较熟悉了,而且不太喜欢 python 。

所以就想问问有么有什么 JavaScript 的替代方案之类的?比如相关的框架之类的?支持 ts 更好

3090 次点击
所在节点    JavaScript
10 条回复
veike
2021-10-19 13:11:25 +08:00
puppeteer ?
gavingeng
2021-10-19 13:25:22 +08:00
微软的 playwright,团队就是原先的 puppeteer,于 2019 跳到 ms
unclemcz
2021-10-19 13:50:11 +08:00
crawler
rust
2021-10-19 14:03:07 +08:00
直接走 CDP 协议
mxT52CRuqR6o5
2021-10-19 14:07:29 +08:00
(axios/got/其他 http 请求库)+cheerio
puppeteer/playwright
ypzhou
2021-10-19 14:09:34 +08:00
puppeteer
gam2046
2021-10-19 14:31:59 +08:00
不知当讲不当讲,cloudflare workers 去爬其他用了 cf 的网站,直接穿透 waf 。看起来是 cf 对自己的 IP 做了白名单处理。免费日 10 万次调用也是非常的良心。
zhuzongxing
2021-10-19 15:15:41 +08:00
我是用的比较土的方法,axios 加 cheerio
xiangyuecn
2021-10-19 15:28:10 +08:00
直接用 XMLHttpRequest 快的一逼,手撸。。,,,主要是因为别的工具也不会,写其他代码没有 js 简单😂
dcsuibian
2021-10-19 16:00:01 +08:00
感谢各位的回复
自己也去调研了下,目前我的观点是靠 axios 、cheerio,以后可能会用 playwright
axios 用过很多次了,cheerio 处理 dom 。
puppeteer 、playwright 拓宽了我的知识面,非常有兴趣但暂时用不到(目前只抓静态页面)。以后要用的话倾向于 playwright,主要看中跨平台和微软出品( TypeScript )
node-crawler 听人说似乎停止维护了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/808847

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX