有没有精通 PDF 的大佬, PDF 教材,有没有办法,自动识别或者提取教材内容里的各级标题,生成书签或者生成思维导图,这样学习起来,整体化、结构化、树状图思维,提高效率!

2020-08-29 16:44:54 +08:00
 JYL888
PDF 教材没有书签,都是正文,我想让他自动识别或提取教材内容里的各个级别的标题,然后生成书签或者一键生成思维导图,省的我一个一个的去设置书签,四百多页,很麻烦!

书籍逻辑是:
第一章。。。 这种标题设为 1 级
第一节 。。。 这种标题设为 2 级
一、。。。 这种标题设为 3 级
(一)。。。 这种标题设为 4 级
1. 。。。 这种标题设为 5 级
1 )。。。 这种标题设为 6 级
1 )。。。 这种标题设为 7 级


这些编号后面的内容,都是黑体字,我想让书籍,自动识别,自动生成书签或者大纲,或者提取出来,或者像思维导图一样,

书籍的目录只到 3 级, 不够细化,我想细化到最低一级,这样子,就可以对书籍的整个结构,一目了然!!!!


![QQ 截图 20200829162143.png]( )
![171258hqmqtjzn5h8jnqtx.png]( )
3375 次点击
所在节点    问与答
34 条回复
JYL888
2020-08-29 21:36:47 +08:00
@jin7 #19 我这个比较复杂,不是淘宝上那种几块钱能搞的定的
green15
2020-08-29 21:37:43 +08:00
自动生成目录,我见过;原理类似一些小说阅读器一样。一般是通用格式转化成 PDF 的正版电子书。至于图片扫描版的盗版 PDF,最起码把 OCR 搞好吧。
生成思维导图……异想天开
jin7
2020-08-29 21:38:55 +08:00
@JYL888 #21 你这个又不复杂 再说你那个目录网上书店都有 复制粘贴
JYL888
2020-08-29 21:39:31 +08:00
@green15 #22 OCR 过的,支持文字搜索的
JYL888
2020-08-29 21:40:51 +08:00
@jin7 #23 前面的目录只细分到 一、这级标题,我要到 1) 最低级的标题
ffxrqyzby
2020-08-29 22:23:59 +08:00
你可以试试 margin note
我都是先用 margin note 生成标题, 然后在里面做笔记, 做关联
Cielsky
2020-08-29 22:38:19 +08:00
OCR 把标题列出来,手动指定页数,有个软件可以把标题直接插到 PDF 里的,😓名字给忘了,叫什么 toPDF
jay0726
2020-08-30 07:15:08 +08:00
好像是之前从其他帖子看到的,还没试过
https://krasjet.com/voice/pdf.tocgen/
JYL888
2020-08-30 11:01:37 +08:00
@jay0726 应该就是这种思路了,但是好像没有网上好像没有成品软件
SingeeKing
2020-08-30 14:47:40 +08:00
JwhSir
2020-08-30 15:35:24 +08:00
PdgCntEditor——不完全满足你的要求,是一个手动添加书签的工具,但是相对比较方便了
K1W1
2020-08-30 19:41:37 +08:00
跟我想法一样,通过标题生成思维导图,但是我用了另一种更简单思路,通过抓豆瓣页面,豆瓣书籍的详情中,大多数都是有目录的(注意并不是都有),然后调用 xmind 的 sdk 生成。文章在这
https://mp.weixin.qq.com/s/3ywHc9CgWdf_s7e6llqGAA
krjt
2020-08-30 23:53:55 +08:00
@JYL888 ?我的 pdf.tocgen 就是面向用户的,虽然完全是命令行操作。模仿第一节的 overview 里的指令基本就可以了。安装指令见第二节。
krjt
2020-08-30 23:59:49 +08:00
@JYL888 如果没有编程经验的话,首先安装 Python 3 [1] 以及 pip [2],之后在命令行输入

pip install -U pdf.tocgen

接下来按照 #28 或者 #30 里的指令输入就可以了。

[1]: https://www.python.org/downloads/windows/
[2]: https://pip.pypa.io/en/stable/installing/

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/702429

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX