100 元求一个能保存飞书页面为图文版本的方案

242 天前
 bjzhush

需求:寻找一个能将飞书文章页面保存为离线的图文版 HTML 的方案

详情:这个问题已经困扰我很久了,因为工作原因,很多资料都在飞书上,但是不是我写的,有些写的好的想备份一份放 obsidian ,但是飞书好像做了反爬或者其他的一些工作,无法保存完整页面,我不是做前端的,没有深入分析过

已测试 SingleFile 及 savePageWe 扩展,只能保存到首屏的内容,GoFullPage 扩展可以截图全屏,但我不想要图片和 PDF 版本的,想要 HTML 版本的

截止时间:2023 年 10 月 1 日前有效,采纳此贴中回复的第一个有效方案,需免费方案

测试链接: https://uwdpzjnryu8.feishu.cn/docx/JGUpdkP0XoOwR0xvp9Xc2ME5ndh

1704 次点击
所在节点    程序员
28 条回复
codeself
242 天前
在浏览器里手动 ctrl+p 导出为 pdf 试试?
zyy4548
242 天前
Vimal
242 天前
测试链接可正常复制。全文粘贴到 obsidian ,图片还自带飞书图床链接,不占空间。
若一定要 html 格式,ob 第三方插件 pandoc 可导出为 html ,或 typora 打开导出 html 格式

若主要是解决飞书文档无法复制粘贴到 obsidian ,那还有其他方案。不确定最终需求。
Vimal
242 天前
解除飞书复制和右键限制。
先安装油猴 Tampermonkey ,再安装这个脚本:
https://greasyfork.org/zh-CN/scripts/473784-%E6%94%B9%E8%BF%9B%E9%A3%9E%E4%B9%A6%E4%BD%93%E9%AA%8C
Myprajna
242 天前
设计师常用的图片采集工具,Ealge ( 128 元终生 1 人),Billfish (免费)。
都提供了免费的整个网页的滚动截图工具。
可以看他们的文档,装个插件试一下。
https://eagle.cool/extensions
https://www.billfish.cn/help/chajiancaiji
Myprajna
242 天前
再用 ABBYY OCR 识别,最准确的 OCR 识别软件了。
bjzhush
242 天前
@Myprajna 大哥,请审题,截图我自己就搞定了。截图比起 HTML 有几个问题,第一不方便索引搜索,第二文件过大,第三链接没法点击
bjzhush
242 天前
@Vimal 我试了确实可以复制,但 HTML 的格式并不能比较兼容的转为 MD ,而且很多链接实际上有二三十页,这样复制、粘贴、再导出 HTML 、再导入笔记,效率太低了,几乎不现实
bjzhush
242 天前
@zyy4548
官方文档:因为它的下载方式是把选择的全部文档打包成压缩包后才会在浏览器返回给你,如果这个等待的过程中途断网或者电脑卡顿要重启,那你就白等那么长时间了。

第一这个导出的应该是自己写的,第二每次都打包所有文档,也不太现实。。
Lhcfl
242 天前
试试保存为 mhtml
ivan_wl
242 天前
飞书文档不是自带导出为 word 格式么,再用 word 另存为 html 啊
bjzhush
242 天前
@ivan_wl 有很多文档是设置了权限不让另存为的
bjzhush
242 天前
@ivan_wl 试了,不行,只有首屏有内容
vvhy
242 天前
浏览器地址栏输入 javascript:innerHeight=9e9 回车,再划到最后让它加载完,然后用 SingleFile 保存
ivan_wl
242 天前
bjzhush
241 天前
@ivan_wl 谢谢你,这个文档我自己也可以存,但是很多文档设置了权限不让保存,所以还是需要插件之类的工具来自己离线保存
bjzhush
241 天前
@vvhy 测试了下,有些文档可以保存成功,有些文档还是只有首屏或者完全空白
Vimal
241 天前
@bjzhush #8 用 ob 的话,油猴插件能不限篇幅复制粘贴过去,且带 md 格式+图片过去已经很优秀了。飞书团队也不是吃干饭的,防复制、右键、打印、保存各种防。找了对比多种方法,暂时没见过无权限还能直接保存的,复制已经是上优解。
甚至其他收费下载工具也了解过,也是只支持复制文字(图片单独复制),粘贴到自己新开的飞书文档,按需导出格式。不说了
TheSpecialOne
241 天前
@bjzhush 我刚测试了我离职时候的方法,evernote web cliper ,记住不是 印象笔记 的 web cliper ,这样能够截取整个页面,也不会触发公司的安全策略。
这个方法比截图好多了
a90120411
241 天前
简单看了下代码,这个页面在普通模式下是懒加载,而且有视口剔除,一般方法肯定是不好使的。有两个方法可以试一下:
1 、HTML 页面里面有个很大的 JS 对象,里面是所有的文本和图片数据,规则很好理解,自己解析一下可以拼出文档。但我没在这个数据结构里面,看到文本样式的声明,可能拼出来会丢失样式。

2 、(推荐)进这个文档的演示模式,然后再开幻灯片模式,可以直接拿到所有的 DOM 结构,我试了一下可以提取全文和图片。部分样式保留了,但丢失了一些特殊样式,需要从原始文档里面提取一下 css 文件挂上。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/972421

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX