Scrapy, xpath 解析求助

2015-04-07 16:31:20 +08:00
 willdatascience
我想爬取某一个网页,一个div下的每一条a,但是第一条是标题,而且和剩下的结构不同,会造成如下错误:
我的想法是爬取的内容应该为:
{“省”:["a","b","c"],“市”:["d","e","f"],“区”:["g","h","i"]},但会变成:
{"省":["a","b","c"],“市”:["d","e","f"],“区”:["地区","g","h"]
应该怎么办,我如何从第二条开始爬取。我本想在定义sites时改为 //div/a[2], 但是不成功。
scrapy新手求助!!!
2886 次点击
所在节点    Python
6 条回复
Septembers
2015-04-07 16:33:48 +08:00
没样本这不是扯淡么?
willdatascience
2015-04-07 16:36:11 +08:00
@Septembers 额。要是能截图我就发html了。。
Septembers
2015-04-07 16:53:40 +08:00
aaaa007cn
2015-04-07 16:55:05 +08:00
//div/a[position()>1]
//div/a/following-sibling::a
zjuster
2015-04-07 17:17:41 +08:00
//div/a[2] 是只抽取第二个a结点,试试/a[position()>1],

常用的xpath配置到w3school看看,都有。
oseau
2015-04-07 17:57:14 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/182147

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX