用 requests 抓取网页代码的时候,出现了一个怪异的现象。(只能获取到尾巴部分)

2016-05-20 08:42:42 +08:00
 daiv

环境先说明一下。 我已经模拟了 cookies + headers 。(和浏览器一摸一样)

用浏览器打开的源代码是: (就是没有<head>和<body>,算是js调用的一个小框框)

<ul class="" 
data-a="0.00"
data-b="222"
data-c="0"> 
<li class="xxx"> <a href="javascript:void(0);" class="removeX">删除</a>&nbsp;test
</button> </a> </li> </ul>

而我用 request 打开却只有

</button> </a> </li> </ul>

最后一点点。

我还用 urllib2 尝试,效果也一模一样

更奇怪的是:

用 requests 或 urllib2 获取的时候 response headers 里面 content-length 和浏览器那是一样的。

获取到的内容长度一样,可惜得到的内容只有尾巴那一点点呀,,,

请大家帮忙支招,谢谢!

3197 次点击
所在节点    问与答
26 条回复
daiv
2016-05-20 11:31:48 +08:00
@fork3rt 我存到数据库中 也不行。 一定要保存成文件? 你的方法是可以保存全部 源文件的。
Cynic222
2016-05-20 11:32:35 +08:00
直接开个 terminal 跑 ipython.
daiv
2016-05-20 11:36:54 +08:00
@Cynic222 我一般 win 环境下用 pycharm ,方便。 生产环境才是 nginx+uwsgi
fork3rt
2016-05-20 11:44:25 +08:00
@daiv 保存数据库的代码贴一下
daiv
2016-05-20 11:47:35 +08:00
@fork3rt 先不说数据库了。 我保存到文件,再读出的时候,还是这么现实。 我现在尝试里面的代码有什么怪异的问题。
fork3rt
2016-05-20 11:52:38 +08:00
@daiv 哈哈 好的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/279923

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX