爬虫：本人初级程序员，找个高人教/帮我写几个爬虫，有偿

2017-12-27 03:13:52 +08:00

ericgui

本人初级程序员，技术有点水

现在用 nodejs 写个小网站，需要用到爬虫，奈何水平不行，搞不定。

其实这个数据量很小，每个网站就一个网页，但问题是，这些网页的数据都全是 ajax 请求或者各种交互加载的，那我就搞不定了。切盼高人教我。

有兴趣的高人可以联系我 QQ 6-9-3-6-9-1-1-7-9

因为我也是程序员，会按照市场价来，不压价。

只有一个要求：用 nodejs 写。

4974 次点击

所在节点

程序员

17 条回复

hackxing

2017-12-27 08:46:38 +08:00

楼主给力推荐一个基于 webkit 内核的无头浏览器 phantomjs，自己动手吧。

joshua7v

2017-12-27 08:53:34 +08:00

puppeteer nightmare chromeless

aino

2017-12-27 09:15:23 +08:00

我选择用浏览器插件实现，入侵式爬取

RainFinder

2017-12-27 09:38:43 +08:00

楼上说的很对，使用浏览器模拟访问，等完全加载完了就可以爬了

Nioty

2017-12-27 09:52:37 +08:00

@hackxing 也可以用 Chrome Headless

anasplrt34

2017-12-27 09:57:18 +08:00

用 nodejs 啊这东西真不适合爬信息异步转同步折腾死你 ww

billows

2017-12-27 09:58:15 +08:00

@RainFinder
@aino

这种入侵式爬取，会要求用户安装插件才行吧？

keepfun

2017-12-27 10:02:21 +08:00

casperjs 你值得拥有。

Arrowing

2017-12-27 10:31:29 +08:00

用 puppeteer 吧，phantomjs 的升级版

vipper

2017-12-27 11:05:49 +08:00

可以用 Python 爬吗

ivechan

2017-12-27 12:51:39 +08:00

ajax 请求的一般更好爬, 这种都有 api, 数据格式更好, 直接拿出 chrome f12
看 ajax 访问的 api 是什么就 ok

myself659

2017-12-27 13:19:52 +08:00

@Arrowing puppeteer 看上去不错

oyosc

2017-12-27 14:18:54 +08:00

app 直接抓包找到你所需要的接口，然后用正则爬取你所需要的数据

2017-12-27 14:27:39 +08:00

@ivechan #11 对,api 返回的数据最干净

599316527

2017-12-27 14:42:54 +08:00

@Nioty hhh 正好刚刚撸了一个 https://github.com/599316527/NakeYouku

599316527

2017-12-27 14:43:31 +08:00

@anasplrt34 Promise, await/async 写起来爽着呢

599316527

2017-12-27 14:45:33 +08:00

Chrome 调试工具里看网络请求，然后自己拼参数就行了，顶多带上 cookie, useragent，没做反爬的这样就能抓了。做了反爬的用 chrome headless 方便些，自己分析反爬的策略有点累。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/417880

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.