issuu.com 不样下载,怎么办?答案:利用 google cache 提取文本内容

2016-09-13 06:07:53 +08:00
 voidtools

比如 https://www.google.com.bo/search?num=100&newwindow=1&hl=es-419&site=webhp&btnG=Buscar&q=%E2%80%9Chttps%3A%2F%2Fissuu.com%2Fjuventudempresa%2Fdocs%2Fguia_2015-digital-pages%E2%80%9D&oq=&gs_l=

ps : issuu 发布杂志时,可以设置是否允许下载。就算不行,也可以火狐插件 httpfox 抓包,抓到每一页对应的 swf 文件,用"C:\Program Files\Archivarius 3000\Archivarius3000.exe"倒是可以检索 swf 的文本内容。

这个巴西人也做了个下载工具,可以下载某账号上传的所有 http://www.robsonmartins.com/inform/issuu/,

不过下载的 pdf 都是图片不可检索版。 ocr 的话,太费事了。偶然发现 google 大法 cache 了所有页面的文本层,太惊艳了!

1657 次点击
所在节点    问与答
1 条回复
SpicyCat
2016-09-13 10:28:50 +08:00
不样下载。。。哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/305832

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX