[招募] 萌否业余项目——网页爬虫，招募 node.js 开发者

几个月前曾在 V2EX 发过类似的招募帖 http://www.v2ex.com/t/62611 ，里面有关于我们的介绍，这里就不再多写了。

上次招到了一个可♂爱的开发者，不过还是不够。最近我稍微有了点点时间，希望能够尽快将萌否 Beta4 推上线，所以还要再找个同好帮忙推进后端的开发。

现在要做的功能是：网页爬虫。更进一步，是指 ACG 媒体网站的爬虫。
我们后台已经运行有一些爬虫了，这些爬虫也是针对具体网站来写的。现在，我们要针对媒体网站来抓取信息。后续还会扩大收录范围。
由于各种原因，我们使用 node.js 来完成这类后端任务。因此我们希望你在 node.js 方面有一定的经验。
同时，我也认为同是 ACGer 才能更好地融入我们团队。

还是要注明的是，我们这个是业余项目。欢迎有兴趣、有余力、有时间的同好加入～

联系方式：
Email: ariagle [at] moefou.org
QQ: 910437475
Twitter: @Ariagle

(・ω< )★

lewisc402

2013-08-11 00:06:54 +08:00

@kenneth 问个问题：假设我想用爬虫访问 a.html，结果服务器会重定向到 redirect.html?url=a.html，而redirect.html中是一些javascript代码，用来写cookie，那么我该怎么办才能访问到原网页呢？一般有哪几种方案可以解决这个问题？？

emohacker

2013-08-24 23:49:03 +08:00

用node最简单的地方在于web上html内容抓回来之后可以把内容当dom操作，server端用jQuery操作dom获取指定内容，极大降低了门槛，不会传统爬虫技术的童鞋也可以无痛写定向爬虫了。
请问楼主选择node是否处于这方面的考虑？

Ariagle

2013-08-24 23:58:34 +08:00

@emohacker 是的，若原本就懂类JQuery的选择器操作，那会有天然的优势。另外就是相对诸如Python等其他后端语言，我们对JS更熟一些。

kenneth

2013-08-30 18:03:25 +08:00

@clowwindy
@isayr
影大指的的爬虫的链接发现？这要看是盲爬，还是定向爬了。定向爬是用正则写规则，盲爬就是深度优先和广度优先，还有控制爬取的深度。

clowwindy

2013-08-30 22:14:03 +08:00

@kenneth 非定向抓取去重是个难题，我们以前的搜索项目也遇到了，没有很好的解决。比如爬淘宝，如何发现商品，如果顺着链接忙爬，会陷入各种搜索过滤条件的组合之中。这些搜索条件大部分是搜不出结果的。搜出结果的，结果条目也大量重复。我们虽然尝试用一些模型去学习和预测，但效果很差。最后只能单纯限制抓取深度。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/78641

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.