开源 JAVA 爬虫,WebCollector,具有可扩展内核和爬虫基本类库,提供了一个界面。欢迎吐槽。

2014-07-21 10:52:26 +08:00
 briefcopy
开源爬虫内核WebCollector教程(CSDN连载):
http://blog.csdn.net/ajaxhu/article/details/38010737

WebCollector的github官网:
https://github.com/CrawlScript/WebCollector

爬虫界面截图:
http://img.blog.csdn.net/20140721101005843?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvQUpBWEh1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast
5733 次点击
所在节点    程序员
5 条回复
gongweixin
2014-07-21 12:03:10 +08:00
粗略的扫了一眼,不能爬特定文件?比如图片,歌曲一类的,只能爬页面?
briefcopy
2014-07-21 12:52:40 +08:00
@gongweixin 什么都能爬,里面默认的那个demo,如果你爬合肥工业大学官网,里面所有的flv、图片、CSS、JS都会搞下来的。
briefcopy
2014-07-21 13:30:20 +08:00
@gongweixin 请问您是想要什么样的需求?
gongweixin
2014-07-23 12:06:08 +08:00
我的意思是只爬图片,歌曲,别的都不要. 只爬特定文件.
briefcopy
2014-07-27 12:23:59 +08:00
@gongweixin 没有问题,设定一下正则就OK

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/123688

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX