爬虫实践基于 webmagic,目标用 5 分钟就可以爬一个网站(你懂的)

2017-01-12 17:20:29 +08:00
 ihuotui
爬虫实践基于 webmagic ,提供一个例子用于层次化主题帖子和二级帖子及内容。

webmagic 介绍 https://www.oschina.net/p/webmagic

5 分钟实现爬 oschina 帖子 https://git.oschina.net/ihuotui/webmagic-sample

目标

1 遍历主题列表

2 读取主题详情页,获取目标文件或者图片或者内容

3 (可选)读取主题详情页下一页,获取目标文件或者图片

4 (可选)下载目标文件

说明,使用 redis 作为进度保存。

基于以上目标

1 写了一个抽象类 AbstractPageAndSubPageProcessor 作为遍历抽象,子类集成后,实现一些逻辑就可以运行。

2 使用 DownloadUrlFileThread 来下载具体文件。

3 测试方法运行 test 目录的 AbstractPageTest
4447 次点击
所在节点    程序员
9 条回复
spice630
2017-01-12 18:09:51 +08:00
臃肿的 java 推荐你学下 golang
https://github.com/songtianyi/laosj
ihuotui
2017-01-12 19:04:56 +08:00
@spice630 差不多,工作主要语言是 java 所以只能用 java 写了。
jurant
2017-01-12 19:22:12 +08:00
唉 java 看一半就没学了.
luban
2017-01-12 19:26:20 +08:00
webmagic 设计还是很好的
zgqq
2017-01-12 19:55:04 +08:00
@spice630 写过一个跟你这个很像的,也是抓黄图的,也是用 golang 写的,然后又跳坑了,用回 java
spice630
2017-01-12 21:18:26 +08:00
@zgqq 为啥啊兄弟,我那个是轻量级的,还有重量级的幽灵蛛,不过我没用过 不好评价。
golang 好维护。
zingl
2017-01-12 23:53:56 +08:00
5 分钟可以开始爬一个网站
zgqq
2017-01-13 00:04:53 +08:00
@spice630 国内还是 java 用得多,另外 golang 的异常处理让我感觉不习惯
ihuotui
2017-01-13 00:49:42 +08:00
@zingl 嘿嘿

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/334183

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX