关于JAVA爬虫页面内容的处理

2013-06-06 22:18:30 +08:00

Linxing

期末要做一个JAVA爬虫，已经可以抓取html文件了，但是我希望可以抓去页面的文章标题和内容就好了，请教下要怎么处理比较好，难道一定要自己写正则表达式？

6259 次点击

所在节点

Java

15 条回复

saggit

2013-06-06 22:38:09 +08:00

jsoup可以看下

Linxing

2013-06-06 23:49:54 +08:00

@saggit 恩，爬链接已经用jsoup了，但是对于某些网站的html标签还是处理的不是很好，

zoran

2013-06-07 11:06:26 +08:00

可以参考这个 https://github.com/zhuoran/crawler4j

tititake

2013-06-07 11:38:07 +08:00

用过这个 http://nekohtml.sourceforge.net/ 不知道是不是最方便的。

TheMan

2013-06-07 11:55:15 +08:00

嗯，正则写的话有些麻烦，可以看这个例子，不错

TheMan

2013-06-07 11:57:06 +08:00

可以看下这个例子：http://usejava.iteye.com/blog/724177
ps:正则表达式熟练掌握了的话，好处多多

jjlovegrape

2013-06-07 12:38:14 +08:00

LZ可以考虑用Node + jsdom插件 + jquery,处理Html应该会方便一点。

Linxing

2013-06-08 19:05:25 +08:00

@jjlovegrape jquery不懂啊，jsoup可以做简单的处理，昨晚写完已经把 http://udpwork.com 上面的文章都爬完了，但是感觉处理的不太好，换一个网站就要改蛮多内容的吧，还要努力

Linxing

2013-06-08 19:06:36 +08:00

@tititake 学校网络太渣了，sourceforge进不去..

ttskym

2013-06-09 12:45:34 +08:00

jsoup+正则。http://www.open-open.com/jsoup/

seeker

2013-06-09 13:14:30 +08:00

@jjlovegrape 如果dom有地方由javascript生成的，jsdom就不行了。用phantomjs可以完美解决。

jjlovegrape

2013-06-09 17:41:14 +08:00

@seeker good，感谢分享。taobao好像用Node写过一个页面自动化测试工具，猜测是不是基于类似的？

seeker

2013-06-09 20:30:19 +08:00

@jjlovegrape 不清楚哎。不过phantomjs跟node不是一回事哦。

code4craft

2013-06-09 21:47:36 +08:00

可以使用jsoup，或者htmlcleaner(可用xpath)。一定程度的智能化的也可以做到的，标题可以直接用<title>标签加上后缀去重，内容可以用readability技术（http://en.wikipedia.org/wiki/Readability）。我写过一个爬虫框架，其中有比较粗糙的readability实现(https://github.com/code4craft/webmagic/blob/master/webmagic-core/src/main/java/us/codecraft/webmagic/selector/SmartContentSelector.java)。这里有篇博客，关于如何使用的：http://my.oschina.net/flashsword/blog/136846。感兴趣的可以一起改进一下。

Linxing

2013-06-10 16:17:31 +08:00

@code4craft 谢了！写的不错

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/71527

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.