初用 Huginn,为何部分元素抓取正常,部分元素抓取为空

2020-02-04 17:21:17 +08:00
 xinghen57

刚接触 Huginn,想自制 rss 后全文输出,目前遇到同一网页,部分元素抓取正常,部分抓取结果为空。求教问题在哪里,感谢!!!

URL: http://www.cneb.gov.cn/guoneinews/

目的:抓取文章标题

抓取结果为空的代码:

{
  "expected_update_period_in_days": "2",
  "url": "http://www.cneb.gov.cn/guoneinews/",
  "type": "html",
  "mode": "on_change",
  "extract": {
    "title": {
      "css": "#ullist > li:nth-child(1) > h2 > a",
      "value": "string(.)"
    }
  }
}

运行结果:


同是该页面,正常抓取的代码

{
  "expected_update_period_in_days": "2",
  "url": "http://www.cneb.gov.cn/guoneinews/",
  "type": "html",
  "mode": "on_change",
  "extract": {
    "title": {
      "css": "#SUBD1480918870891184 > div > div.yjxwgnejy_con01 > div.right > h2 > a",
      "value": "string(.)"
    }
  }
}

运行结果:

855 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/642111

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX