大神们请研究下这个页面里实际的 PDF 如何下载下来?

2020-02-02 01:30:21 +08:00
 ssdde

https://lib-nuanxin.wqxuetang.com/read/pdf/3208401

9263 次点击
所在节点    程序员
75 条回复
lisachensyd
2020-02-03 01:47:57 +08:00
@ssdde 不用指望我,3 楼已经有大佬给出 python 脚本了,还有楼上那个指路的大神那篇文章已经讲的很详细了
christin
2020-02-03 11:17:10 +08:00
@Buges 套娃?
lisachensyd
2020-02-03 13:17:39 +08:00
@ytf4425 首先感谢大神的指路,教程很详细,我基本都看懂了,就是现在用 api client 测试的时候能返回一个图片,看二进制文件头是 PNG,但是大小只有 10kb 左右,保存到本地打不开图片,我已经在这个请求的 headers 中加入了 referer, 不知道哪里出了错
ytf4425
2020-02-03 14:14:12 +08:00
@lisachensyd 如果是文件损坏我没有遇到过。。
ssdde
2020-02-03 15:39:41 +08:00
CNHSK
2020-02-03 18:29:50 +08:00
@ssdde 你怎么什么都想爬,自己想办法不是才有意思吗
ssdde
2020-02-03 20:02:25 +08:00
@CNHSK 我这不是通过提问的方式来想办法,学习钻研吗
lisachensyd
2020-02-03 20:49:06 +08:00
@ytf4425 不知道为什么用 REST api 客户端测试就拿不到正确的图片,用 Python 写入二进制就可以了,不管怎么样感谢大神了!
Buges
2020-02-04 01:04:53 +08:00
@ssdde #65 看了一下,服务端返回了加密的 pdf,请求 /content/authorize 返回文件 url,在 0.f4c9028886a7b391c0df.1574068669001.js 里搜 impower()下断点解密。你先看完那本 js 再弄这个,正好学以致用。
yamedie
2020-02-04 11:40:16 +08:00
我博客有 chrome 控制台批处理下载详解
歪个楼, 百毒搜 wenquan, 第一个联想词在开车 : D
ssdde
2020-02-04 14:44:11 +08:00
@Buges 哭哦,看完搞懂不知道什么时候了,网站都关闭开放了。可以直接教教怎么下载未加密的原始 pdf 吗大神
ssdde
2020-02-04 15:53:08 +08:00
@yamedie 大神,看了你的博客,下载的是高清图片。69 楼提到的可以下载未加密的原始 PDF,有办法搞吗
CNHSK
2020-02-04 16:06:24 +08:00
@ssdde 不用爬了,已经开始调整了
ssdde
2020-02-04 17:17:52 +08:00
@CNHSK 这就是不早点爬的下场,悲剧啊
ssdde
2020-02-09 00:07:21 +08:00
@Buges 大佬,好像没找到你说的这个 js

0.f4c9028886a7b391c0df.1574068669001.js

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/641529

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX