请教这种网页的部分内容, Python 如何爬? curl&wget 获取的静态 html 获取不到这部分的内容。。。

2019-01-25 15:16:42 +08:00
 qazwsxkevin
我不 duqiu 的,这个页面就遇到以往学习中没遇到过的情况。。
如:
http://www.310win.com/analysis/1659945.htm ,昨晚中国对伊朗的情况:

“对赛往绩”
“中国 近期战绩”
“伊朗 近期战绩”

网页上有其中三个这样的数据表格,关于表格的内容:

1、使用 cur 或者 wget 去获取 http://www.310win.com/analysis/1659945.htm ,默认获取的网页明文,是没有这样设计的三个表格的内容数据的。。。
2、同上,页面静态打开,“对赛往绩”是有“平均欧赔”,“竞赛让球”“竞赛胜平负”等等下拉菜单选项等等东西,默认获取的网页明文,连这些下拉菜单的菜单内容都没有。。。
3、第一个问题:python 如何获取这些内容?
4、第二个问题,如果不确定表格下拉菜单有多少个(也许有可能根据不同的页面,有不同数量的菜单选择),python 如何逐步穷尽选择下拉菜单每一个,获取到每一个菜单选项都出现的内容?
1725 次点击
所在节点    Python
3 条回复
cxtrinityy
2019-01-25 20:02:47 +08:00
1、2、3 是一个问题,你 wget 是下载的 html 初始化页面,你想拉取的是 js 渲染完后的 html,所以你下载和你浏览器里看到的页面内容不同
所以简单说,是你的思路方向错了,你去网上搜一下如何用 python 获取 js 渲染的网页内容就行,overflow 上应该有相关资料
580a388da131
2019-01-25 22:27:53 +08:00
Phantomjs 渲染一次
Ghosin
2019-01-26 11:14:51 +08:00
from selenium import webdriver

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/530599

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX