[招募] 萌否业余项目——网页爬虫,招募 node.js 开发者

2013-08-10 11:35:58 +08:00
 Ariagle
几个月前曾在 V2EX 发过类似的招募帖 http://www.v2ex.com/t/62611 ,里面有关于我们的介绍,这里就不再多写了。

上次招到了一个可♂爱的开发者,不过还是不够。最近我稍微有了点点时间,希望能够尽快将萌否 Beta4 推上线,所以还要再找个同好帮忙推进后端的开发。

现在要做的功能是:网页爬虫。更进一步,是指 ACG 媒体网站的爬虫。
我们后台已经运行有一些爬虫了,这些爬虫也是针对具体网站来写的。现在,我们要针对媒体网站来抓取信息。后续还会扩大收录范围。
由于各种原因,我们使用 node.js 来完成这类后端任务。因此我们希望你在 node.js 方面有一定的经验。
同时,我也认为同是 ACGer 才能更好地融入我们团队。

还是要注明的是,我们这个是业余项目。欢迎有兴趣、有余力、有时间的同好加入~

联系方式:
Email: ariagle [at] moefou.org
QQ: 910437475
Twitter: @Ariagle

(・ω< )★
9958 次点击
所在节点    Node.js
43 条回复
jasya
2013-08-10 11:42:37 +08:00
_(:3」∠)_来写写练练手可以吗
kenneth
2013-08-10 11:46:52 +08:00
@Ariagle 我可以提供全套的抓取解决方案,范例:www.mvmap.com
chengyuhui
2013-08-10 11:50:51 +08:00
喵w
davepkxxx
2013-08-10 11:53:30 +08:00
惊现圆长
Ariagle
2013-08-10 11:54:41 +08:00
@jasya 这是要上生产环境的,要是你觉得不太难,也可以当作是练手= =

@kenneth 谢谢~不过现在还是想写套适用于我们自己实际情况的代码,你的方案是否属于通用型爬虫?
kenneth
2013-08-10 11:57:20 +08:00
@Ariagle 没有我爬不了的网站,只需要告诉我,你要爬那些网站,那些结构化数据即可,我提供服务器直接入你数据库都可以。
Ariagle
2013-08-10 12:01:09 +08:00
@kenneth 厉害,听着像是商业服务的程度了 Σ( ° △ °|||)︴
kenneth
2013-08-10 12:06:59 +08:00
@Ariagle 爬的同时,可以帮你把图片生成各种尺寸,按路径规则保存,等比例缩略+水印。爬虫全自动,无人值守,自动更新。mvmap就是全自动更新,不需要维护的。
Ariagle
2013-08-10 12:13:29 +08:00
@kenneth 是用什么写的呢?从长远来说,还是部署到自己服务器上比较好。
kenneth
2013-08-10 12:17:27 +08:00
@Ariagle 爬虫Python开发效率高,运行效率也不错。可以帮你部署到你的服务器,配置定时任务,全自动抓取。
jasya
2013-08-10 12:17:34 +08:00
来了个高端人士...匿了..(´・ω・`)
kenneth
2013-08-10 12:19:30 +08:00
@Ariagle 如果你用亚马逊AWS,可以帮你配置爬虫集群,快速闪电抓取,以最短的时间,完成海量数据抓取。
jasya
2013-08-10 12:30:31 +08:00
@kenneth 突然有个问题,大哥能抓新浪微博全站吗,求解决方案
Ariagle
2013-08-10 12:42:19 +08:00
@kenneth 我们这边没什么人熟 python ,以后维护起来不方便……
gullon
2013-08-10 13:38:40 +08:00
@kenneth 用的是scrapy?
我想请我一下,有什么适合爬虫待着的vps推荐呢?
kenneth
2013-08-10 13:55:51 +08:00
@gullon 我会各种各样的爬虫,各种各样的语言的爬虫方案。Scrapy只是一个方案,mvmap用的不是这个方案。爬虫的难点在于,分布式,异步,并发,队列,数据管道,数据持久化等,考虑的点有很多。但是灵活的用。
fetchcoin
2013-08-10 14:02:32 +08:00
不就一定向采集吗?为啥不用火车头,耗费人力物力自己写?
kenneth
2013-08-10 14:04:58 +08:00
@fetchcoin 我要管理100万的域,5万的论坛,10万的博客,这么多规则,你用火车头,你觉得行吗?
fetchcoin
2013-08-10 14:06:59 +08:00
@kenneth 你自己定向采集,结构化数据,不也需要对每个点配置规则吗,别说智能结构化数据
gullon
2013-08-10 21:48:02 +08:00
@kenneth 多谢指教。
但分布式,异步,并发,队列,数据管道,数据持久化等基本上已经是搜索引擎蜘蛛的要求了吧?对普通的数据采集需要考虑这么多因素么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/78641

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX