爬虫:本人初级程序员,找个高人教/帮我写几个爬虫,有偿

2017-12-27 03:13:52 +08:00
 ericgui

本人初级程序员,技术有点水

现在用 nodejs 写个小网站,需要用到爬虫,奈何水平不行,搞不定。

其实这个数据量很小,每个网站就一个网页,但问题是,这些网页的数据都全是 ajax 请求或者各种交互加载的,那我就搞不定了。切盼高人教我。

有兴趣的高人可以联系我 QQ 6-9-3-6-9-1-1-7-9

因为我也是程序员,会按照市场价来,不压价。

只有一个要求:用 nodejs 写。

4604 次点击
所在节点    程序员
17 条回复
hackxing
2017-12-27 08:46:38 +08:00
楼主给力推荐一个基于 webkit 内核的无头浏览器 phantomjs,自己动手吧。
joshua7v
2017-12-27 08:53:34 +08:00
puppeteer nightmare chromeless
aino
2017-12-27 09:15:23 +08:00
我选择用浏览器插件实现,入侵式爬取
RainFinder
2017-12-27 09:38:43 +08:00
楼上说的很对,使用浏览器模拟访问,等完全加载完了就可以爬了
Nioty
2017-12-27 09:52:37 +08:00
@hackxing 也可以用 Chrome Headless
anasplrt34
2017-12-27 09:57:18 +08:00
用 nodejs 啊 这东西真不适合爬信息 异步转同步折腾死你 ww
billows
2017-12-27 09:58:15 +08:00
@RainFinder
@aino

这种入侵式爬取,会要求用户安装插件才行吧?
fenglangjuxu
2017-12-27 10:02:21 +08:00
casperjs 你值得拥有。
Arrowing
2017-12-27 10:31:29 +08:00
用 puppeteer 吧,phantomjs 的升级版
vipper
2017-12-27 11:05:49 +08:00
可以用 Python 爬吗
ivechan
2017-12-27 12:51:39 +08:00
ajax 请求的一般更好爬, 这种都有 api, 数据格式更好, 直接拿出 chrome f12
看 ajax 访问的 api 是什么就 ok
myself659
2017-12-27 13:19:52 +08:00
@Arrowing puppeteer 看上去不错
oyosc
2017-12-27 14:18:54 +08:00
app 直接抓包找到你所需要的接口,然后用正则爬取你所需要的数据
Telegram
2017-12-27 14:27:39 +08:00
@ivechan #11 对,api 返回的数据最干净
599316527
2017-12-27 14:42:54 +08:00
@Nioty hhh 正好刚刚撸了一个 https://github.com/599316527/NakeYouku
599316527
2017-12-27 14:43:31 +08:00
@anasplrt34 Promise, await/async 写起来爽着呢
599316527
2017-12-27 14:45:33 +08:00
Chrome 调试工具里看网络请求,然后自己拼参数就行了,顶多带上 cookie, useragent,没做反爬的这样就能抓了。做了反爬的用 chrome headless 方便些,自己分析反爬的策略有点累。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/417880

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX