做了两年多的一个项目,第一次邀请测试,希望对您有用

2013-04-09 13:35:34 +08:00
 sohoer
之前没想过把他做成产品只是按照自己的实际需求做,断断续续用业余时间做了快两年,为了完成这个项目在去年12月断然离职到现在全职做了4个月,
现在总算是可以晒出来给大家用用了。

他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。

鸟巢采集器访问地址:
http://www.newcrawler.com/

鸟巢采集器能做些什么:
采集数据、博客迁移、友情链接检查、定向采集实现垂直搜索 等等。

鸟巢采集器相比其它采集器的优势:
1、平台无关,可以在任何系统上运行如:Linux、Windows ...
2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
3、Raspberry Pi 也是支持的。
4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
6、使用WEB的管理方式,可以在任何终端上操作。
总之最大的优势是WEB版平台无关,其它核心功能也都有。


目前唯一一个在用鸟巢采集器抓取数据的网站:
http://www.shishibi.com/

如果您只想看看效果请使用下面的账号密码登录
test
test

如果您想试用请留下邮箱,我将给您发送邀请码

PS: 正式版发布后会考虑收费但肯定会至少有1个月的试用期,试用期过后后端应用还是可以正常使用的,只是不可以通过WEB端进行可视化管理,对于邀请注册的用户在正式版发布后至少可以多免费使用1年。
提前声明英文版还没找专业人士翻译目前是直接GOOGLE的。
鸟巢采集器还有一个爬虫分享计划,试想一下每抓取一个页面换一个IP是不是很爽呢,只是目前尚未启动 ^^
14952 次点击
所在节点    分享创造
149 条回复
andybest
2013-04-09 16:44:50 +08:00
应用安装第一次安装没有成功,
现在现在再点就是“请升级您的账户”了。
sohoer
2013-04-09 16:48:09 +08:00
@andybest
要想用GAE、APPFOG的免费空间是麻烦点,需要自己手动部署,为了方便部署我提供了一个GAE的发布工具。
也可以部署在本地那样也需要做端口映射让外网可以访问

@lj0014 刚刚有人使用了GAE在线安装,这个功能其实已经做好了,只是需要我提供服务器来发布你的GAE应用,只是目前还没有提供这台服务器。所以我暂时把它这功能关了,

现在需要您在本地发布,我有提供一个GAE发布工具,按照Readme.txt中步骤应该可以发布成功
sohoer
2013-04-09 16:48:55 +08:00
@andybest 原来是你,不好意思我刚刚把这功能关了
andybest
2013-04-09 16:51:03 +08:00
@sohoer 至少提供一个默认的“采集器”吧
说实话作为一个WEB项目让人安装程序有点不应该

另外有测试成功的吗?发布个教程呗。。。
sohoer
2013-04-09 16:51:29 +08:00
@Mrlee
@sevenday
@markmx

已发送,注意查收,谢谢支持!
sohoer
2013-04-09 16:52:55 +08:00
@andybest
"Google App Engine 发布工具" 用这个工具无法发布GAE应用吗? 这个工具我测试过的呀!
lj0014
2013-04-09 16:53:30 +08:00
@sohoer 我就是刚用了GAE在线安装
andybest
2013-04-09 16:54:57 +08:00
@sohoer 恩,我觉得你这个页面框架做的不错,比如异常堆栈的输出/显示方法,安装过程信息的同步输出这些,所以觉得东西做的应该值得看
sohoer
2013-04-09 16:56:37 +08:00
@lj0014
@andybest
你们下载"Google App Engine 发布工具"这个工具发布吧!
sohoer
2013-04-09 16:57:05 +08:00
@andybest 全是HTML+ajax
sohoer
2013-04-09 16:57:35 +08:00
@andybest 目前是部署在GAE上的
sohoer
2013-04-09 16:59:38 +08:00
@andybest 我一定会努力把功能都做好的,谢谢你
wingoo
2013-04-09 17:07:07 +08:00
地址打不开了?
csx162
2013-04-09 17:10:46 +08:00
支持一下,以前都用火车,想试试这个,求邀请
sohoer
2013-04-09 17:11:34 +08:00
@wingoo 看来WEB端部署在GAE不是长久之计
sohoer
2013-04-09 17:12:56 +08:00
@csx162
67a64bbf656901c5
l0wkey
2013-04-09 17:14:36 +08:00
zzm110112@163.
xiiing
2013-04-09 17:17:00 +08:00
可不可以导出腾讯微博?
sohoer
2013-04-09 17:19:18 +08:00
@xiiing 能给个微博地址吗,我试抓一下
inroading
2013-04-09 17:27:25 +08:00
挂上VPN就可以打开了
求邀请 inroading#gmail.com

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/65371

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX