请教:Scrapy 抓取 ‘a/text()’中含有 <em></em>标签，如何保留 em 间的文字？

2014-09-25 14:50:22 +08:00

shawngao

参见例子：

HTML:
<a href="http://v2ex.com">网站<em>V2EX</em>是......</a>

Scrapy:
title_array = site.xpath('a/text()').extract()

结果:
["网站","是......"]

谢过先。

10991 次点击

所在节点

5 条回复

yunchenran300

2014-09-25 15:36:09 +08:00

Melodic

2014-09-25 15:41:34 +08:00

a//text()可以。

但是如果前端写的不整齐，那么更好的办法是使用descendant轴来取所有子节点的文字

a/descendant::text()

shawngao

2014-09-25 16:23:50 +08:00

@yunchenran300
@Melodic

新手，非常感谢！

Melodic

2014-09-25 16:41:47 +08:00

@shawngao 哼，原来楼主是搞ios的，只会python的掩面而泣

shawngao

2014-09-25 18:58:56 +08:00

@Melodic 楼主东打一耙，西挥一棍，现在写代码有时语法都错乱了。尤其是Go与Python...

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.