爬虫相关，关于 XPath 的疑问

dongtingyue

2022-09-14 18:47:23 +08:00

有些 dom 是 js 渲染的

MrVito

2022-09-14 18:49:34 +08:00

@dongtingyue 你可以看下这个网页，应该是纯静态的

Stoney

2022-09-14 18:58:47 +08:00

@MrVito get 里面加个 wait 设置等待时间？有时候是没来得及加载出来吧

humbass

2022-09-14 19:03:54 +08:00

2202 年的爬虫应该用 JS 来实现更强大；比如 Puppeteer

tankren

2022-09-14 19:04:17 +08:00

用 try+except 抛个异常看看，为啥要用绝对路径啊，不是不推荐吗

MrVito

2022-09-14 19:21:55 +08:00

@tankren 相对路径我也取不到……所以就用绝对路径了

MrVito

2022-09-14 19:23:32 +08:00

@Stoney 加了一个 timeout = 10 ，也还是不对……

MrVito

2022-09-14 19:24:18 +08:00

@tankren 也没有抛异常出来……

MrVito

2022-09-14 19:24:38 +08:00

@humbass 对 js 不熟……

zengxs

2022-09-14 19:26:19 +08:00

试试这个

//*[contains(text(), '基金名称')]/../../td[2]/p/text()

MrVito

2022-09-14 19:27:47 +08:00

@zengxs 卧槽，你这个确实可以，这个思路好像也是对的。但是我还是想不明白我那种为啥不行……

zengxs

2022-09-14 19:29:20 +08:00

@MrVito 因为两个页面的 html 内容不一样，你需要找到二者之间相同的特征才行

MrVito

2022-09-14 19:31:56 +08:00

@zengxs 问题是我用的 full xpath ，从浏览器提取出来的这两个页面的都是相同的呀？

zengxs

2022-09-14 19:35:28 +08:00

@MrVito 那可能是这个页面的 html 不规范，导致浏览器和 lxml 解析出来的 dom 不一样

humbass

2022-09-14 20:24:26 +08:00

网页是 JS 写的，爬虫当然是 JS 来写解析 DOM 结构也是天然的！ Python 是过去式了；

```
const jsdom = require('jsdom')
const axios = require('axios')
;(async () => {
const url =
'http://eid.csrc.gov.cn/xbrl/REPORT/HTML/2022/FC190100/CN_50470000_009421_FC190100_20220039/CN_50470000_009421_FC190100_20220039.html'
const response = await axios.get(url)
const result = new jsdom.JSDOM(response.data)
const table = result.window.document.querySelector('#tabItem0')
const title = table.querySelectorAll('p')[1].textContent
console.log('title:', title)
})()

``

zjuster

2022-09-14 20:44:36 +08:00

如果 Xpath 写的绝对路径太多了，可能要比较一下两个页面（虽然链接一致），但在 Dom 结构可能不一致的情况。
写的宽泛一点试试看。

wxf666

2022-09-14 20:49:09 +08:00

@humbass 问一下，看起来都是调包，Python 是有啥明显的坑吗？

humbass

2022-09-14 21:14:13 +08:00

@wxf666 也不是说 Python 有坑，而是网页解析这玩意本身就是 JS 的领域。

zengxs

2022-09-14 21:31:48 +08:00

@humbass 这个是和底层的 html parser 有关，和语言关系不大，jsdom 用的 html parser 和浏览器的也不一样

wxf666

2022-09-14 21:32:15 +08:00

@humbass js 本身也没有啥特别的语言特性，是用于描述 DOM 的吧

你是想说，无头浏览器能方便地，执行一些自己的 js 代码？