大家好,我写了一个爬.......啊!别打我....不是爬虫....是爬虫调度器

2017-05-21 18:35:56 +08:00
 EmdeBoas

自己写了一个可以把单机 java 爬虫比较快捷的整合成分布式爬虫的框架

框架会为爬虫的工作节点自动分发任务,完成去重功能,而且有比较高的稳定性(牺牲了一些效率),单点故障和集群崩溃都不必担心,关键持久化的步骤都是原子性的,不会丢失数据~

这个框架不关心你使用的是什么爬虫框架,也就说爬虫的业务逻辑跟他无关,是松耦合的,所以适用性是比较好的

项目是基于 zookeeper+hdfs+netty 上的,也就说只要有 zookeeper 和 hadoop 环境就能很快速的部署啦
自己也做了简单的单机测试和集群测试( 7 虚拟机 hadoop 的 HA 集群,逃)
虽然现在功能还不是特别强大,但是整体的框架已经搭好了,未来的规划我也已经做好了,我会努力让它变得强大起来的~

提供了 shell 交互的功能也有 java 的 api,也基于 tomcat 和 AmdinLTE 写了一个网页监控的 demo
后面会推出 python 和 go 的接口~
项目地址在这里~ WebVeins
文档后面我会很细致的去写,把自己踩过的坑和想法都写进去,如果你想学习而且刚刚接触 zookeeper 说不定会有一点点帮助 (逃)

因为暑假以后要准备找工作了,所以想宣传一下自己的这个项目,望大家能支持一下,感激不尽!!

4035 次点击
所在节点    Java
8 条回复
qcloud
2017-05-21 18:59:53 +08:00
贼 6
AsherG
2017-05-21 19:00:28 +08:00
那还是要打啊
viko16
2017-05-21 20:08:44 +08:00
哈哈,本来是单机打你,现在是集群一齐来打你了 2333
voocel
2017-05-21 20:12:29 +08:00
不是爬虫更要打
leeg810312
2017-05-21 20:56:16 +08:00
666
ihuotui
2017-05-21 20:59:59 +08:00
哈哈
luckyscript
2017-05-22 09:04:02 +08:00
居然是我电的,666
knight322
2017-05-22 09:05:51 +08:00
啪!!!呀,打错了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/362803

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX