大家都是怎么解析抓取到的 HTML 文件的?

2014-09-08 18:38:30 +08:00
 mthli
有的网站没有API接口,如果要想抓取数据的话就必须解析HTML自己提取内容了。

一般来说我会直接遍历,找到特定的标签(或者字符),然后再自己提取内容。如果标签比较多的话就觉得有点烦,毕竟写起来自己也麻烦。所以想问一下有没有什么更好的方法(或者是那种脑洞大开的方法)?
4833 次点击
所在节点    问与答
46 条回复
ZzFoo
2014-09-08 18:48:15 +08:00
用Xpath吧
mhycy
2014-09-08 19:17:45 +08:00
正则表达式
mthli
2014-09-08 19:18:34 +08:00
@ZzFoo 看上去好像很不错的样子。值得一试 :)
mthli
2014-09-08 19:19:02 +08:00
@mhycy 嗯,我原来是打算正则的。
paulw54jrn
2014-09-08 19:24:49 +08:00
xpath, xquery , xslt 都可以~
mthli
2014-09-08 19:25:52 +08:00
@paulw54jrn 嗯嗯,thx~
Automan
2014-09-08 19:28:17 +08:00
有很多HTML DOM parser,用起来比正则方便多了。。
mthli
2014-09-08 19:29:35 +08:00
@Automan 正是如此,主要我也懒得写正则,哈哈。
paulw54jrn
2014-09-08 19:31:22 +08:00
beautifulSoup 挺方便的~
mthli
2014-09-08 19:40:41 +08:00
@paulw54jrn 嗯,收下了。不过我是打算用Java。以后写Python的时候再用。
ghy459
2014-09-08 19:59:50 +08:00
@mthli java 有类似 bs 的 htmlunit。
lcxseima
2014-09-08 20:01:49 +08:00
@mthli java的话jsoup也算一个。都很方便。
ericls
2014-09-08 20:04:33 +08:00
pyquery
scusjs
2014-09-08 20:06:40 +08:00
jsoup
belin520
2014-09-08 20:16:48 +08:00
什么语言好像都有**query之类的库。
tinyhill
2014-09-08 20:26:59 +08:00
node + jquery
mthli
2014-09-08 20:33:22 +08:00
@ghy459 嗯,刚搜到。
neverno
2014-09-08 20:37:55 +08:00
beautifulsoup
baka
2014-09-08 20:47:12 +08:00
在用beautifulsoup之前一直都是粗暴split的
mthli
2014-09-08 20:52:40 +08:00
@baka 啊哈哈哈。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/132332

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX