复制 pdf 内的文本,突然无法复制段落与段落之间的换行符

106 天前
 SeleiXi
PDF 内显示的文本:
text

text

会复制成:
text
text


一小时前的时候复制还没事,不知道这个要调什么设置才能改回去?

另外想问下大佬们想把 pdf 里面的文字转文本,而保留段落之间的隔行都是怎么实现的?我用的 OCR 工具以及直接复制貌似都会默认把隔行给去掉。
879 次点击
所在节点    Windows
2 条回复
ddzzhen
106 天前
福昕和 abbyy 的收费版可以,保留原格式哪怕不需要 ocr 的文档都挺难的
DsuineGP
106 天前
版式还原很难做的, 因为涉及到图文表格形状混排等多种情况
之前看到 https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7/ppstructure/pdf2word 这项目, 可以试试

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1011617

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX