用 BeautifulSoup 分析百度贴吧的页面,为什么只能提取前 60 多行的数据呢?

2015-07-27 11:33:31 +08:00
 liaipeng
f = urllib.urlopen(url).read()
soup = BeautifulSoup(f, 'html.parser')

如上面的代码,f打印出来看了是完整的页面,有几百行,但是把soup打印出来只有60多行。爬取其他网页的数据整成,就是爬百度贴吧的帖子会出现这种情况,是什么原因呢?
2987 次点击
所在节点    Python
12 条回复
WhiteLament
2015-07-27 11:59:08 +08:00
'html.parser' 换成 'lxml' 试试?
lingo233
2015-07-27 12:01:47 +08:00
我记得贴吧未登录只能看一页的内容。
iyaozhen
2015-07-27 12:02:53 +08:00
2 楼应该是真相。
liaipeng
2015-07-27 12:12:08 +08:00
@WhiteLament
提示这个,对BeautifulSoup模块还不熟悉,第一次接触
Couldn't find a tree builder with the features you requested: lxml.parser. Do you need to install a parser library?
liaipeng
2015-07-27 12:13:20 +08:00
@lingo233 不是的,现在是soup连主楼的内容都没有抓取完整
yappa
2015-07-27 12:16:03 +08:00
html.parser改成lxml,或者html5lib,这两个模块都要先安装
liaipeng
2015-07-27 12:20:29 +08:00
@yappa
好的,我试试
liaipeng
2015-07-27 12:31:18 +08:00
@yappa 可以了!太感谢了。想知道为什么会有这种情况呢?是因为其他网页跟贴吧帖子的什么不同?
WhiteLament
2015-07-27 12:36:55 +08:00
你没安装
pip install lxml
yappa
2015-07-27 12:38:54 +08:00
估计你是从文档里面复制出来的代码,“html.parser”是“html解析器”的意思,你要找到适合的解析器,lxml,html5lib就是所谓的“html.parser"。
WhiteLament
2015-07-27 12:39:11 +08:00
有些页面不够规范,不同解析器兼容不一样,造成结果不同。
我也遇到过,换一个解析器就好了
liaipeng
2015-07-28 15:54:02 +08:00
@WhiteLament
@yappa
感谢两位!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/208593

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX