求助,如何将 pdf 根据一级标题进行切分

2024-08-23 15:48:51 +08:00
 wuDportgas

pdf 的格式很多很杂,有的标题是居中的,有的是左对齐的,如何将这些繁杂的 pdf 进行切割? (尝试过使用 itext5 ,但是对左对齐的标题格式不太好处理。)

1501 次点击
所在节点    程序员
6 条回复
functionABC
2024-08-23 16:03:39 +08:00
要切割成啥样子呀?
justNoBody
2024-08-23 17:59:06 +08:00
能不能发一个具体的材料,然后你想办法脱敏一下,我挺感兴趣的。
SoloKing
2024-08-23 19:18:15 +08:00
借楼,我也有需求,PDF 或者 Word 的内容提取出来之后,按章节段落切分,有什么好的方法吗?
mythabc
2024-08-23 19:32:41 +08:00
1. 版式识别
2. 多模态大模型
wuDportgas
2024-08-26 15:25:34 +08:00
@functionABC 根据一级标题去做切分
wuDportgas
2024-08-26 16:34:45 +08:00
@mythabc ocr 速度比较慢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1067269

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX