RT,求教正确姿势。有人用过类似的库吗?实际操作效果如何呢?乱码的情况会不会出现呢?
|      1pupboss      2015-04-30 11:01:04 +08:00 我是来搞笑的别打我😂 import os os.rename('test.pdf', 'test.doc') | 
|  |      2andyhenry      2015-04-30 11:05:49 +08:00 pdf是很难转成其他格式的,和用什么语言无关。即使强制转,和单纯用鼠标复制粘贴也差不多,不能保留任何格式。 | 
|  |      4nowcoder      2015-04-30 12:07:50 +08:00 不好转。 | 
|  |      5staticor      2015-04-30 14:09:11 +08:00 pypandoc 试试? | 
|      6em70      2015-04-30 14:23:32 +08:00 via Android Python不是万能的 给你个思路,不要纯Python实现,试试去找一个PDF转doc的命令行,python调用命令行来解决。 | 
|      7xyzasd01      2015-04-30 18:02:25 +08:00 命令行: “pdftohtml 文件名” 然后用word打开html就可以了。 如果要默认word打开,你把.html改成.doc就可以了。 | 
|      8xyzasd01      2015-04-30 18:03:39 +08:00 | 
|      9xyzasd01      2015-04-30 18:06:51 +08:00 如果要单纯的去读word。很难,非常难。 java有tika的库,但是有些读不了,比如猎聘网下载的简历。 php有phpword,但是只能读取word2007及以上。就是.docx的。 我的项目遇到的问题: 读取word,有的是html,有些是真正的word,有些是base64。。。。。。有无数种。。。。需要无数种的方法来读。。html的最简单,base64的要截取一部分,然后unbase64会还原成html。。。。我擦擦 | 
|  |      11jedihy      2015-04-30 18:26:50 +08:00 via iPhone @xxer 本质区别是pdf排版类似于用的矢量绘图的方法。word则是文字的编排。这两种方式是不能完美转换的。 | 
|      1214      2015-04-30 18:37:03 +08:00 import os  os.system('libreoffice --headless --convert-to docx my.pdf') |