电视猫的电视节目单页面抓取不全

2016-01-25 22:25:46 +08:00
 bluestonemds

网址: http://www.tvmao.com/program/CCTV-CCTV2-w1.html
需抓取的元素内容:<ul id="pgrow"></ul>中的全部内容。
抓取工具: php 的 file_get_contents 函数。

问题:只能抓取到<li id="noon">午间节目</li>,后面的内容就没有了。

请问这是什么情况吗?如何解决?感谢。

2788 次点击
所在节点    问与答
4 条回复
bluestonemds
2016-01-25 22:30:06 +08:00
dom 树中有内容,源码中没有。
blueset
2016-01-25 23:34:51 +08:00
这个是通过其他请求的 API 读取出来的。
bluestonemds
2016-01-26 09:30:18 +08:00
那么请问就没有办法了吗?
bdbai
2016-01-26 15:59:18 +08:00
我以为是 **只** 抓取到午间节目呢,废了好大劲抓前面的。后面简单分析了一下,它是在页面加载完成后执行了一个 AJAX 请求(见 IIFE.js ),请求的参数是经过加密的,算法见 encrypt.js 。你把那个算法转换成 PHP 再发请求,应该就能得到结果了。

https://gist.github.com/bdbai/791467fd6d56b5718886

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/253335

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX