xpath 怎么取出 html 原文？

2019-03-13 17:04:02 +08:00

JCZ2MkKb5S8ZX9pq

<div class="a">
    <a href="123.jpg">sample</a>
</div>

假设有这样一个 html，我要提取 div 中间的 html 原文，如：

<a href="123.jpg">sample</a>

要这段 html 原文，而不是 text 之类的东西，这个该怎么做？
用了 xpath 停久了，第一次碰到这个需求，查了一圈关键字 xpath + html + 各种关键字结果都挺乱的，来 v2 请教一下。

2214 次点击

所在节点

6 条回复

jayong

2019-03-13 18:00:33 +08:00

//div[@class='a']

aaa5838769

2019-03-13 18:26:06 +08:00

//div[@class='a']/a/text() 不知道对不对，很久没用了

aaa5838769

2019-03-13 18:27:06 +08:00

当我上面语句没说- - 没仔细看完、

Nick2VIPUser

2019-03-13 18:31:53 +08:00

etree.tounicode()
etree.tostring()

JCZ2MkKb5S8ZX9pq

2019-03-13 18:58:56 +08:00

@Nick2VIPUser 嗯，后来我自己搜到这个 tostring，还有 tounicode 哦，我试试去。

题目没说完整，的确是 python etree。

Lax

2019-03-13 21:05:13 +08:00

echo '<div class="a">
<a href="123.jpg">sample</a>
</div>' | nokogiri -e 'puts $_.xpath("//div[@class=\"a\"]").inner_html'

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.