一个网站爬下来的 html 代码居然和页面不一样

2015-10-23 17:54:25 +08:00
 tuuuz

这两天在写爬虫 发现一个奇怪的问题
http://sinacn.weibodangan.com/user/5208916795/?max_id=3900715476612486

这个页面进去应该是

对不起,你所查看的微博用户暂时找不到,返回上一页,或者去看看其他微博。 error_code:0

上面这个是正确的

但是我用 php 的 file_get_content 获取的页面则是

用户 4813861174 转发的微博等等

这个是该网站的防爬策略吗?

3710 次点击
所在节点    PHP
4 条回复
domty
2015-10-23 17:57:38 +08:00
你进去看的的是 ajax 生成的
你的爬虫可能只抓取了原始页面
alexinit
2015-10-23 18:00:46 +08:00
爬虫爬得是原始页面,你看到的是解析过的.
ericls
2015-10-24 02:43:52 +08:00
你先看看请求是什么 而不是看 url 是什么
cheng007
2015-10-24 09:48:54 +08:00
你的爬虫不会解析执行 JS ,修改 DOM 数据

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/230545

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX