鸟巢网页数据采集系统 V2.2

2016-04-11 10:01:31 +08:00
 sohoer

做个简单易用通用型采集器不容易,这个项目已经花了 6 年时间,还没完还将继续。

3 年前第一次发布

http://v2ex.com/t/65371#reply149

第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。

三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),

项目地址

https://github.com/speed/newcrawler

目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)

鸟巢采集器

http://www.newcrawler.com

测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)

username:test 
password:test

演示视频

http://video.newcrawler.com/newcrawler_v2.2.mp4

http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg

13156 次点击
所在节点    分享发现
103 条回复
rubyvector
2016-04-11 10:28:49 +08:00
楼主强人哦.界面细腻,功能强大到难以想像.不知道处理有 IP 限制的页面是否有解决方案
mazyi
2016-04-11 10:31:50 +08:00
cool
shiny
2016-04-11 10:35:15 +08:00
以前也考虑过写类似东西,但思路不及楼主。看得出花费了大量心血。
stiekel
2016-04-11 10:41:07 +08:00
有毅力,一个项目能够坚持这么多年,赞!
yanyuan2046
2016-04-11 10:42:39 +08:00
牛逼,能用 6 年做一件事的都是牛人
server
2016-04-11 10:51:03 +08:00
牛人,毅力!!
whahuzhihao
2016-04-11 10:58:30 +08:00
好棒!楼主好毅力
pypy
2016-04-11 10:59:00 +08:00
好厉害!学习楼主这种精神!
sohoer
2016-04-11 11:11:27 +08:00
@rubyvector 可以实现基于代理池的网页抓取插件,也可以是独立于采集器的多线 ADSL+ROS 解决方案
其实我的终极目标是基于鸟巢采集器做爬虫共享

多谢各位的友情支持
mew7wo
2016-04-11 11:15:32 +08:00
楼主牛人 已安装试用
kukat
2016-04-11 11:18:32 +08:00
有 docker image 吗?
sewyu
2016-04-11 11:22:03 +08:00
吓到了,好强大。。。。 绝对大神
sohoer
2016-04-11 11:24:38 +08:00
@kukat 还没有,之前准备用 BWG 做 DOCKER 弄了好久发现不支持,后续会加上

不有安装脚本也还方便吧


@mew7wo 有任何意见,建议请给我留言,重构太多目前应该还有不少 BUG
feather12315
2016-04-11 11:25:54 +08:00
@sohoer 爬虫共享赞一个。
sylviayoung
2016-04-11 11:30:01 +08:00
佩服楼主持之以恒的精神!
leehon
2016-04-11 11:30:05 +08:00
6 年有点太长,一直是楼主一个人开发吗
alongdj
2016-04-11 11:33:57 +08:00
楼主好毅力…
inoricho
2016-04-11 11:34:08 +08:00
楼主大触!
wuyadong
2016-04-11 11:54:01 +08:00
楼主,吊~!
zeac
2016-04-11 11:56:12 +08:00
佩服~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/270075

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX