想提取英文书籍 pdf、mobi 和 epub 中的目录（table of contents）的结构和内容有什么好的方法或现成的工具吗？

2019-05-10 10:39:20 +08:00

zeroze

想提取目录内容请问有什么好的方法？工具？
求大佬明示？

1776 次点击

所在节点

5 条回复

colewp

2019-05-10 12:27:41 +08:00

iText 或者 Apache PDFBox，之前毕设做过类似项目

dsg001

2019-05-10 12:31:54 +08:00

以前用 python 写过，zipfile 打开 epub，lxml 解析 toc.ncx

zeroze

2019-05-10 12:51:53 +08:00

@dsg001 准确度大致怎么样啊？有什么坑吗？

dsg001

2019-05-10 13:04:51 +08:00

@zeroze 符合标准的 epub 无坑，偶尔有加密的无法读取，用 calibre 去除就行。

zeroze

2019-07-15 16:36:14 +08:00

自己研究了下，比较好的方法貌似是使用 mupdf 自带工具 mutool，具体操作有 stackoverflow 的帖子，自行搜索下
另外有坑 mutool 提取出来还需要洗
编码是 utf16 的

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.