大家都是怎么解析抓取到的 HTML 文件的？

2014-09-08 18:38:30 +08:00

mthli

有的网站没有API接口，如果要想抓取数据的话就必须解析HTML自己提取内容了。

一般来说我会直接遍历，找到特定的标签（或者字符），然后再自己提取内容。如果标签比较多的话就觉得有点烦，毕竟写起来自己也麻烦。所以想问一下有没有什么更好的方法（或者是那种脑洞大开的方法）？

5239 次点击

所在节点

问与答

46 条回复

ZzFoo

2014-09-08 18:48:15 +08:00

用Xpath吧

mhycy

2014-09-08 19:17:45 +08:00

正则表达式

mthli

2014-09-08 19:18:34 +08:00

@ZzFoo 看上去好像很不错的样子。值得一试 :)

mthli

2014-09-08 19:19:02 +08:00

@mhycy 嗯，我原来是打算正则的。

paulw54jrn

2014-09-08 19:24:49 +08:00

xpath, xquery , xslt 都可以~

mthli

2014-09-08 19:25:52 +08:00

@paulw54jrn 嗯嗯，thx~

Automan

2014-09-08 19:28:17 +08:00

有很多HTML DOM parser，用起来比正则方便多了。。

mthli

2014-09-08 19:29:35 +08:00

@Automan 正是如此，主要我也懒得写正则，哈哈。

paulw54jrn

2014-09-08 19:31:22 +08:00

beautifulSoup 挺方便的~

mthli

2014-09-08 19:40:41 +08:00

@paulw54jrn 嗯，收下了。不过我是打算用Java。以后写Python的时候再用。

ghy459

2014-09-08 19:59:50 +08:00

@mthli java 有类似 bs 的 htmlunit。

lcxseima

2014-09-08 20:01:49 +08:00

@mthli java的话jsoup也算一个。都很方便。

ericls

2014-09-08 20:04:33 +08:00

pyquery

scusjs

2014-09-08 20:06:40 +08:00

jsoup

belin520

2014-09-08 20:16:48 +08:00

什么语言好像都有**query之类的库。

tinyhill

2014-09-08 20:26:59 +08:00

node + jquery

mthli

2014-09-08 20:33:22 +08:00

@ghy459 嗯，刚搜到。

neverno

2014-09-08 20:37:55 +08:00

beautifulsoup

baka

2014-09-08 20:47:12 +08:00

在用beautifulsoup之前一直都是粗暴split的

mthli

2014-09-08 20:52:40 +08:00

@baka 啊哈哈哈。

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/132332

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.