关于JAVA爬虫页面内容的处理

2013-06-06 22:18:30 +08:00
 Linxing
期末要做一个JAVA爬虫,已经可以抓取html文件了,但是我希望可以抓去页面的文章标题和内容就好了,请教下要怎么处理比较好,难道一定要自己写正则表达式?
5615 次点击
所在节点    Java
15 条回复
saggit
2013-06-06 22:38:09 +08:00
jsoup可以看下
Linxing
2013-06-06 23:49:54 +08:00
@saggit 恩,爬链接已经用jsoup了,但是对于某些网站的html标签还是处理的不是很好,
zoran
2013-06-07 11:06:26 +08:00
tititake
2013-06-07 11:38:07 +08:00
用过这个 http://nekohtml.sourceforge.net/ 不知道是不是最方便的。
TheMan
2013-06-07 11:55:15 +08:00
嗯,正则写的话有些麻烦,可以看这个例子,不错
TheMan
2013-06-07 11:57:06 +08:00
可以看下这个例子:http://usejava.iteye.com/blog/724177
ps:正则表达式熟练掌握了的话,好处多多
jjlovegrape
2013-06-07 12:38:14 +08:00
LZ可以考虑用Node + jsdom插件 + jquery,处理Html应该会方便一点。
Linxing
2013-06-08 19:05:25 +08:00
@jjlovegrape jquery不懂啊,jsoup可以做简单的处理,昨晚写完已经把 http://udpwork.com 上面的文章都爬完了,但是感觉处理的不太好,换一个网站就要改蛮多内容的吧,还要努力
Linxing
2013-06-08 19:06:36 +08:00
@tititake 学校网络太渣了,sourceforge进不去..
ttskym
2013-06-09 12:45:34 +08:00
seeker
2013-06-09 13:14:30 +08:00
@jjlovegrape 如果dom有地方由javascript生成的,jsdom就不行了。用phantomjs可以完美解决。
jjlovegrape
2013-06-09 17:41:14 +08:00
@seeker good,感谢分享。taobao好像用Node写过一个页面自动化测试工具,猜测是不是基于类似的?
seeker
2013-06-09 20:30:19 +08:00
@jjlovegrape 不清楚哎。不过phantomjs跟node不是一回事哦。
code4craft
2013-06-09 21:47:36 +08:00
Linxing
2013-06-10 16:17:31 +08:00
@code4craft 谢了!写的不错

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/71527

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX