做了两年多的一个项目,第一次邀请测试,希望对您有用

2013-04-09 13:35:34 +08:00
 sohoer
之前没想过把他做成产品只是按照自己的实际需求做,断断续续用业余时间做了快两年,为了完成这个项目在去年12月断然离职到现在全职做了4个月,
现在总算是可以晒出来给大家用用了。

他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。

鸟巢采集器访问地址:
http://www.newcrawler.com/

鸟巢采集器能做些什么:
采集数据、博客迁移、友情链接检查、定向采集实现垂直搜索 等等。

鸟巢采集器相比其它采集器的优势:
1、平台无关,可以在任何系统上运行如:Linux、Windows ...
2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
3、Raspberry Pi 也是支持的。
4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
6、使用WEB的管理方式,可以在任何终端上操作。
总之最大的优势是WEB版平台无关,其它核心功能也都有。


目前唯一一个在用鸟巢采集器抓取数据的网站:
http://www.shishibi.com/

如果您只想看看效果请使用下面的账号密码登录
test
test

如果您想试用请留下邮箱,我将给您发送邀请码

PS: 正式版发布后会考虑收费但肯定会至少有1个月的试用期,试用期过后后端应用还是可以正常使用的,只是不可以通过WEB端进行可视化管理,对于邀请注册的用户在正式版发布后至少可以多免费使用1年。
提前声明英文版还没找专业人士翻译目前是直接GOOGLE的。
鸟巢采集器还有一个爬虫分享计划,试想一下每抓取一个页面换一个IP是不是很爽呢,只是目前尚未启动 ^^
14994 次点击
所在节点    分享创造
149 条回复
sohoer
2013-04-09 17:31:50 +08:00
@xiiing
刚刚看了下腾讯微博的数据,不是ajax的,只要不是ajax的100%是可抓取的,ajax的会有些不确定性,得看javascript解析引擎

@l0wkey
@inroading
已发送,注意查收,谢谢支持!
drupal
2013-04-09 17:45:54 +08:00
希望能够测试drupal#sina.cn
romotc
2013-04-09 17:51:40 +08:00
希望能够测试一下 romotc#@#gmail .dot. com
kamehamehon
2013-04-09 18:08:15 +08:00
@sohoer 求一个联系方式
workaholic
2013-04-09 18:10:59 +08:00
关注你很久了哥们, ^_^ , v2sker # gmail.com
sohoer
2013-04-09 18:13:21 +08:00
@kamehamehon
其实收了邀请码的都可以联系到我的


@drupal
@romotc
@workaholic
已发送,注意查收,谢谢支持!
workaholic
2013-04-09 18:26:35 +08:00
@sohoer 不能添加爬虫池,提示"错误:需要升级您的账户"
durrrr
2013-04-09 18:30:54 +08:00
求邀请
ihaku4#gmail.com
sohoer
2013-04-09 18:32:19 +08:00
@workaholic 爬虫池还没有开放,添加一个采集器应用就可以爬数据了.
AnyOfYou
2013-04-09 18:44:30 +08:00
看上去很棒!
anyofyou(AT)gmail.com
nan0kai
2013-04-09 19:12:11 +08:00
@sohoer
感觉潜力相当大。求邀请码帮你测试试用下
nan0kai@163.com
谢谢
binux
2013-04-09 19:48:19 +08:00
@sohoer 当然是通用的了,你需要为每个站加规则,而我通过代码表达规则
sohoer
2013-04-09 19:56:33 +08:00
@binux 好吧是不是可以把他当成一个DOS 一个WIN的区别
sohoer
2013-04-09 19:58:33 +08:00
@binux 不过确实还不够简单,到时我会考虑将一些不常用的选项做为高级选项隐藏起来
thedevil5032
2013-04-09 19:59:20 +08:00
@binux 可以弱弱地问问你的截图里是个什么软件吗?
binux
2013-04-09 20:00:46 +08:00
@sohoer 用代码更灵活,任何页面都可以爬,任何情况都能适配,要新功能import就可以
甚至可以在框架内实现一套你的导出规则,当然要有一点代码基础。。不过用的是python还好。。
jeansfish
2013-04-09 20:00:55 +08:00
jeansfish#####outlook.com
来一个看看
binux
2013-04-09 20:01:11 +08:00
@thedevil5032 我们自己开发的爬虫引擎
kaifazhe
2013-04-09 20:05:17 +08:00
admin#html5点cn

发一个,谢谢
sohoer
2013-04-09 20:10:01 +08:00
@binux 其实我的也很灵活的,有抓取插件,javascript的支持就是通过插件实现的,其实越灵活变相的就越复杂,我发现我这工具目前都无法面向一般的大众用户的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/65371

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX