在 pccharm 安装 requests-html,目前已经装好了 requests-html
在第一次使用的时候,pyppeteer 还是 requests-html 会有个自动下载安装 chromium,
直接自动安装是不成功的,
在报错信息里面看到(因为太困,昨晚没有及时保存报错信息,这里贴不出来)
动手去看看
C:\Users\Administrator\AppData\Local\Programs\Python\Python36\Lib\site-packages\pyppeteer\chromium_downloader.py
看到:
DEFAULT_DOWNLOAD_HOST = 'https://storage.googleapis.com'
这个就有高墙,直接去不了,根据网上建议,给 chromium_downloader.py 里的 urllib3 加梯
我这么做的:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'
}
proxy = urllib3.ProxyManager('http://192.168.89.31:7070', headers=headers)#自己的虫洞地址
# with urllib.PoolManager() as http:#这是原句
with urllib3.PoolManager() as proxy:#改成这个
# Get data from url.
# set preload_content=False means using stream later.
# data = http.request('GET', url, preload_content=False)#这是原句
data = proxy.request('GET', url, preload_content=False)#改成这个使用虫洞
然后又报了个 http ssl 的错误,再根据网上的建议,把
DEFAULT_DOWNLOAD_HOST = 'https://storage.googleapis.com'
改成普通 http:
DEFAULT_DOWNLOAD_HOST = 'http://storage.googleapis.com'
,然后下载进度条出来了,等了好久,似乎终于下载完了,chromium_downloader.py 就报了个错,大概说这个 rar/zip 文件是错误的,
瞬间就觉得心很累了,我没有更好的梯子,而且我刚才在公司试了一下,连进度条都不出来,一直卡在那里,看来是梯子质量不行也有关系
但是我直接拼接地址,用同一把梯子,用浏览器下载 https://storage.googleapis.com//chromium-browser-snapshots/Win_x64/575458/chrome-win32.zip
是完全没问题的,在 urllib3 里使用代理就很慢很慢了。。。
有不折腾的办法继续么? 最后想法是成功使用上 requests-html...
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.