[招募] 萌否业余项目——网页爬虫，招募 node.js 开发者

几个月前曾在 V2EX 发过类似的招募帖 http://www.v2ex.com/t/62611 ，里面有关于我们的介绍，这里就不再多写了。

上次招到了一个可♂爱的开发者，不过还是不够。最近我稍微有了点点时间，希望能够尽快将萌否 Beta4 推上线，所以还要再找个同好帮忙推进后端的开发。

现在要做的功能是：网页爬虫。更进一步，是指 ACG 媒体网站的爬虫。
我们后台已经运行有一些爬虫了，这些爬虫也是针对具体网站来写的。现在，我们要针对媒体网站来抓取信息。后续还会扩大收录范围。
由于各种原因，我们使用 node.js 来完成这类后端任务。因此我们希望你在 node.js 方面有一定的经验。
同时，我也认为同是 ACGer 才能更好地融入我们团队。

还是要注明的是，我们这个是业余项目。欢迎有兴趣、有余力、有时间的同好加入～

联系方式：
Email: ariagle [at] moefou.org
QQ: 910437475
Twitter: @Ariagle

(・ω< )★

Ariagle

2013-08-10 11:54:41 +08:00

@jasya 这是要上生产环境的，要是你觉得不太难，也可以当作是练手= =

@kenneth 谢谢～不过现在还是想写套适用于我们自己实际情况的代码，你的方案是否属于通用型爬虫？

kenneth

2013-08-10 12:06:59 +08:00

@Ariagle 爬的同时，可以帮你把图片生成各种尺寸，按路径规则保存，等比例缩略+水印。爬虫全自动，无人值守，自动更新。mvmap就是全自动更新，不需要维护的。

kenneth

2013-08-10 13:55:51 +08:00

@gullon 我会各种各样的爬虫，各种各样的语言的爬虫方案。Scrapy只是一个方案，mvmap用的不是这个方案。爬虫的难点在于，分布式，异步，并发，队列，数据管道，数据持久化等，考虑的点有很多。但是灵活的用。

gullon

2013-08-10 21:48:02 +08:00

@kenneth 多谢指教。
但分布式，异步，并发，队列，数据管道，数据持久化等基本上已经是搜索引擎蜘蛛的要求了吧？对普通的数据采集需要考虑这么多因素么？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/78641

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.