爬虫相关，关于 XPath 的疑问

2022-09-14 18:38:09 +08:00

MrVito

http://eid.csrc.gov.cn/fund/disclose/instance_html_view.do?instanceid=11733222 http://eid.csrc.gov.cn/fund/disclose/instance_html_view.do?instanceid=11733213

在上面这两个链接中我想获取对应的基金名称，我在浏览器里面获取到的 full XPath 如下

/html/body/table/tbody/tr/td[2]/table/tbody/tr[1]/td[1]/div/table[1]/tbody/tr[2]/td/div/div/table/tbody/tr[1]/td[2]/p

但是第二个链接中我能顺利获取到值，第一个获取到的内容为空

为了给大佬省事，对应的代码如下

from ast import main
from fake_useragent import UserAgent
from lxml import etree
import requests

ua = UserAgent()
headers = {"user-agent": ua.random}
url1 = "http://eid.csrc.gov.cn/fund/disclose/instance_html_view.do?instanceid=11733222"
url2 = "http://eid.csrc.gov.cn/fund/disclose/instance_html_view.do?instanceid=11733213"


def get_fund_name(url: str):
    x = requests.get(url, headers = headers)
    selector = etree.HTML(x.content)
    fund_name = selector.xpath('/html/body/table/tbody/tr/td[2]/table/tbody/tr[1]/td[1]/div/table[1]/tbody/tr[2]/td/div/div/table/tbody/tr[1]/td[2]/p/text()')
    return fund_name

print(get_fund_name(url1))
print(get_fund_name(url2))

output 如下

[]
['长信利盈灵活配置混合型证券投资基金']

我仔细对比了这两个网页，实在是找不到原因……

3987 次点击

所在节点

34 条回复

humbass

2022-09-14 21:37:09 +08:00

@wxf666 OP 主贴出来的需求，也用不到无头浏览器，简单的访问就可以了，
@zengxs 对比 python 的 xpath 和 document.querySelector 这样的语法，肯定是后者方便啊。

wxf666

2022-09-14 21:48:47 +08:00

@humbass xpath 不是 Python 的，只是 lxml 库的一个功能。这个库好像不支持 css 风格的查询

换成 BeautifulSoup 库就支持了：xxx.select('#tabItem0')

另外，我还是觉得 xpath 更方便描述 xml html

zengxs

2022-09-14 22:07:56 +08:00

@humbass 呃，xpath 和 css selector 只是两种不同的 html 查询方式而已，和语言无关，python 也可以 css selector 查询，js 也可以 xpath 查询

至于哪个更方便这个也不好说，css selector 语法简单是牺牲了很多功能换来的

bavtoex

2022-09-15 00:16:35 +08:00

@wxf666 +1,美丽汤的 xxx.select('#tabItem0') 很灵活

webcape233

2022-09-15 02:05:22 +08:00

这简单查询观察下写正则可能更快

mscststs

2022-09-15 02:47:57 +08:00

看到 tbody 就要注意了，浏览器会自动在 table 里面自动填充一级 tbody ，这就是为什么你取 Xpath 是一样的，实际上你右键查看源码，就能看出来，第一个链接的 html 没有在源码里面手写 tbody ，而第二个写了。

ADMlN

2022-09-15 05:02:37 +08:00

xpath 改成'/html/body/table/tbody'，第一个为空，第二个有值

brucmao

2022-09-15 09:16:19 +08:00

//p[contains(text(),'基金名称')]/../following-sibling::td/p

页面复制的经常不准确，可以试试 xpath 轴
https://developer.mozilla.org/en-US/docs/Web/XPath

另外可以用浏览器插件 SelectorsHub 辅助

JieGaLee

2022-09-15 09:32:27 +08:00

遇到 tbody 就要去源码里确认一下是不是真的有 tbody 。

hidie

2022-09-15 10:00:33 +08:00

不要写 tbody

fbichijing

2022-09-15 17:03:12 +08:00

一个有 tbody 一个没有，所以找不到。
这么深层数的筛选器加上那么多的位置 index ，简直是独木桥中的独木桥啊。

ijustdo

2022-09-15 18:15:09 +08:00

//div[@id="con_one_1"][1]/descendant::table/descendant::tr[1]/td[2]/p/text()

chunhai

2022-09-19 19:36:35 +08:00

我一般都用正则来取

chunhai

2022-09-19 19:40:23 +08:00

@chunhai
```
<td align="left" colspan="2"><p>基金名称<\/p><\/td>\s*<td align="left" width="60%" colspan="3">\s*<p>(.*)<\/p>
```

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/880056

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX