鸟巢网页数据采集系统 V2.2

2016-04-11 10:01:31 +08:00
 sohoer

做个简单易用通用型采集器不容易,这个项目已经花了 6 年时间,还没完还将继续。

3 年前第一次发布

http://v2ex.com/t/65371#reply149

第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。

三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),

项目地址

https://github.com/speed/newcrawler

目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)

鸟巢采集器

http://www.newcrawler.com

测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)

username:test 
password:test

演示视频

http://video.newcrawler.com/newcrawler_v2.2.mp4

http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg

13276 次点击
所在节点    分享发现
103 条回复
sohoer
2016-04-11 13:43:52 +08:00
上一次发布有人说访问太慢,
所以我自己实现了分布式同步,目前有三个节点, aliyun 、 gae 、 linode
被墙的资源如 GAE 请使用 linode(海外节点)访问
frankmdong
2016-04-11 14:05:12 +08:00
好毅力 已 star
xiaogouxo
2016-04-11 14:13:22 +08:00
楼主太刁了。已 star
walkershow
2016-04-11 14:25:06 +08:00
楼主牛逼啊!
sohoer
2016-04-11 14:34:29 +08:00
@leehon 一直都是一个人开发

有时候想想都觉得自己很强大,坚持这么久做一件事情
无数次编译,数不清的重构,每一次重构都很痛苦
刚开始程序员生涯的时候做过很多垃圾站,也用过不少采集器
后面知道 GAE 免费,于是想用很多的 GAE APP 来搭一个免费的爬虫网络(违反 TOS )
基于 GAE 开发后发现 PAAS 平台限制太多,后来加上了标准的 JAVA 环境支持
目前同时支持 GAE 与标准 JAVA 环境,开发上也增加不少难度,
谁让我想吃免费的蛋糕呢!

最后大家都能有免费蛋糕吃
xingshu
2016-04-11 14:36:52 +08:00
能留个邮箱么,有点其他需求,希望能通过邮箱沟通。🤗
sohoer
2016-04-11 14:40:30 +08:00
@xingshu k78@qq.com
xingshu
2016-04-11 15:11:46 +08:00
@sohoer 已发,谢谢。
fengxiang
2016-04-11 15:15:29 +08:00
手动点赞,楼主能坚持真的很厉害。不像某些项目,一堆 bug 还到处宣扬。
gimp
2016-04-11 15:36:48 +08:00
佩服楼主的毅力和能力,点赞!
mcwanderer
2016-04-11 16:13:45 +08:00
膜拜
badcode
2016-04-11 16:15:17 +08:00
看哭了,我确定是回这贴的
sohoer
2016-04-11 16:26:50 +08:00
@badcode 你确定吗?
DesignerSkyline
2016-04-11 16:36:35 +08:00
给你点赞啦!希望以后也继续更新
Flygoat
2016-04-11 16:40:01 +08:00
垃圾站助手?
sohoer
2016-04-11 16:43:00 +08:00
@Flygoat 现在不做垃圾站了,像这样的 http://www.shishibi.com(半成品)
binux
2016-04-11 17:51:56 +08:00
选项太多了,来试试 import.io
sohoer
2016-04-11 17:59:57 +08:00
@binux 大神来了啊!

试用过 import.io 好卡,他也有不少可配置项,并且这种可视化配置并不能做到通用
其实我那两个导出图标都还是从他们家搬来的
ven
2016-04-11 18:03:57 +08:00
太强大了!赞!
sohoer
2016-04-11 18:04:26 +08:00
@binux

哦你说的应该是那个无需配置的功能,那个复杂点的页面就解析不出来,不确定性太多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/270075

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX