[招募] 萌否业余项目——网页爬虫,招募 node.js 开发者

2013-08-10 11:35:58 +08:00
 Ariagle
几个月前曾在 V2EX 发过类似的招募帖 http://www.v2ex.com/t/62611 ,里面有关于我们的介绍,这里就不再多写了。

上次招到了一个可♂爱的开发者,不过还是不够。最近我稍微有了点点时间,希望能够尽快将萌否 Beta4 推上线,所以还要再找个同好帮忙推进后端的开发。

现在要做的功能是:网页爬虫。更进一步,是指 ACG 媒体网站的爬虫。
我们后台已经运行有一些爬虫了,这些爬虫也是针对具体网站来写的。现在,我们要针对媒体网站来抓取信息。后续还会扩大收录范围。
由于各种原因,我们使用 node.js 来完成这类后端任务。因此我们希望你在 node.js 方面有一定的经验。
同时,我也认为同是 ACGer 才能更好地融入我们团队。

还是要注明的是,我们这个是业余项目。欢迎有兴趣、有余力、有时间的同好加入~

联系方式:
Email: ariagle [at] moefou.org
QQ: 910437475
Twitter: @Ariagle

(・ω< )★
9968 次点击
所在节点    Node.js
43 条回复
huazhouji
2013-08-10 22:04:40 +08:00
@kenneth 高手啊,一个人管那么多站,牛逼
lewisc402
2013-08-11 00:06:54 +08:00
@kenneth 问个问题:假设我想用爬虫访问 a.html,结果服务器会重定向到 redirect.html?url=a.html,而redirect.html中是一些javascript代码,用来写cookie,那么我该怎么办才能访问到原网页呢? 一般有哪几种方案可以解决这个问题??
binux
2013-08-11 11:40:13 +08:00
@kenneth 分布式,异步,并发,队列,数据管道,数据持久化 都不是难点
难点在于页面数据结构化,人工不算
chengyuhui
2013-08-12 00:21:15 +08:00
@binux 一般的站点用jsdom甚至更简单的一些HTML Parser就能搞定
最蛋疼的就是那些各种AJAX的Web App.....
binux
2013-08-12 00:56:50 +08:00
@chengyuhui 我指的是,对不同的网站“自动”提取结构化数据
clowwindy
2013-08-12 01:32:08 +08:00
@kenneth 链接发现是怎么做的?
isayr
2013-08-12 05:01:45 +08:00
@clowwindy @kenneth 同问 链接发现是怎么做的?
F0ur
2013-08-12 11:54:03 +08:00
搬凳子听讲课。。平时爬虫接触的真心不多
emohacker
2013-08-24 23:49:03 +08:00
用node最简单的地方在于web上html内容抓回来之后可以把内容当dom操作,server端用jQuery操作dom获取指定内容,极大降低了门槛,不会传统爬虫技术的童鞋也可以无痛写定向爬虫了。
请问楼主选择node是否处于这方面的考虑?
Ariagle
2013-08-24 23:58:34 +08:00
@emohacker 是的,若原本就懂类JQuery的选择器操作,那会有天然的优势。另外就是相对诸如Python等其他后端语言,我们对JS更熟一些。
xieren58
2013-08-25 09:54:07 +08:00
用上node的cheerio,我和我的小伙伴们都惊呆了 ~~
gdzdb
2013-08-29 15:08:04 +08:00
我也来推荐一个node的爬虫模块:https://github.com/cgiffard/node-simplecrawler
ling0322
2013-08-29 15:26:43 +08:00
咱报个名呢> <
jinwyp
2013-08-30 11:33:08 +08:00
没人用phamtomjs? 和node phamtom
martinbruce
2013-08-30 15:13:06 +08:00
@kenneth 这方面的高手啊! 求携带,最近一直在研究crawler
kenneth
2013-08-30 15:20:29 +08:00
@martinbruce 欢迎来我网站和我交流mvmap.com,或者直接加我QQ:50009371
kenneth
2013-08-30 18:03:25 +08:00
@clowwindy
@isayr
影大指的的爬虫的链接发现?这要看是盲爬,还是定向爬了。定向爬是用正则写规则,盲爬就是深度优先和广度优先,还有控制爬取的深度。
clowwindy
2013-08-30 22:14:03 +08:00
@kenneth 非定向抓取去重是个难题,我们以前的搜索项目也遇到了,没有很好的解决。比如爬淘宝,如何发现商品,如果顺着链接忙爬,会陷入各种搜索过滤条件的组合之中。这些搜索条件大部分是搜不出结果的。搜出结果的,结果条目也大量重复。我们虽然尝试用一些模型去学习和预测,但效果很差。最后只能单纯限制抓取深度。
binux
2013-08-30 22:18:02 +08:00
@clowwindy
1、去除无效参数
2、泛滥控制
3、翻页索引识别
4、链接发现能力挖掘
等等等等。。
TimePower
2013-08-31 20:17:51 +08:00
你们服务器被墙了~?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/78641

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX