word 转 text 的有比较完美的方案吗

2018-08-11 16:18:58 +08:00
 tomheng

需求是这样的,转成有一定格式的 text (保留换行,空格等)

docx 转 text 基本搞定,因为 docx 其实是一个 zip,里面是文本格式的 xml,然后用了 html 转 text 的方式,转出来可以接受。

但是 doc 转 text 开始用的 antiword 但是有些文件转不了,想问下大家有什么好的方案吗?

4054 次点击
所在节点    程序员
27 条回复
longyujin9
2018-08-11 16:23:32 +08:00
doc 转 docx (逃
ghhardy
2018-08-11 16:24:55 +08:00
试试 python 第三方模块吧,我用过处理 excel 表格的,word 好像也有
hundan
2018-08-11 16:31:08 +08:00
直接另存为?
lihongjie0209
2018-08-11 16:33:18 +08:00
Java 可以用 tika, Python 就不知道了. 从某种程度上来说, Java 的生态确实比 Python 好
dsp2138
2018-08-11 16:47:14 +08:00
word:Ctrl+A
notebook:Ctrl+V
搞定,效率很高
tomheng
2018-08-11 17:02:26 +08:00
@dsp2138 要用程序转的,网站的一个功能模块
tomheng
2018-08-11 17:04:46 +08:00
@lihongjie0209 我先研究下,谢谢
tomheng
2018-08-11 17:05:18 +08:00
@longyujin9 也是一种思路 :)
zjsxwc
2018-08-11 17:18:49 +08:00
这种东西 C#干起来很轻松,不知道 linux 下的 dotnet core 可不可以
zjsxwc
2018-08-11 17:25:00 +08:00
stringtheory
2018-08-11 17:30:00 +08:00
可以试试 pandoc
MonoLogueChi
2018-08-11 17:53:24 +08:00
修正一下,docx 是 rar 压缩包
lushilu001
2018-08-11 18:21:43 +08:00
catdoc
hundan
2018-08-11 19:12:41 +08:00
@MonoLogueChi 再修正一下,是 zip。
rar 文件头以 Rar 开头 zip 为 pk,docx 文件头是 pk,这是其一,其二,rar 算法为私有。拓展名改为 rar 之后能打开是因为压缩软件自己识别了压缩算法,不能作为根据。建议你自己了解清楚再来修正别人。
drackzy
2018-08-11 19:17:35 +08:00
unoconv
cnkiller
2018-08-11 21:05:22 +08:00
我给楼主说一下吧。com 方式另存为 txt,效果最好
envylee
2018-08-11 21:11:12 +08:00
@dsp2138 兄弟说得很有道理哈哈哈哈
iwtbauh
2018-08-11 22:00:40 +08:00
soffice --headless --convert-to txt filename.doc
gnaggnoyil
2018-08-12 00:39:05 +08:00
@tomheng 说的就是通过.COM 直接使用 Word 提供的 utility,不过前提是电脑里已经装了 Word.
程序和程序之间的分工又不是只有跨进程文本转递这一种.
gamecmt
2018-08-12 05:56:54 +08:00
windows 下可以用 pywin32com。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/478883

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX