pdf 转成 word 用 python 实现

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3837 天前的主题，其中的信息可能已经有所发展或是发生改变。

RT，求教正确姿势。有人用过类似的库吗？实际操作效果如何呢？乱码的情况会不会出现呢？

求教

Python

操作

13 条回复 • 2015-05-05 18:11:59 +08:00

pupboss

2015-04-30 11:01:04 +08:00

我是来搞笑的别打我😂

import os

os.rename('test.pdf', 'test.doc')

andyhenry

2015-04-30 11:05:49 +08:00

pdf是很难转成其他格式的，和用什么语言无关。即使强制转，和单纯用鼠标复制粘贴也差不多，不能保留任何格式。

nxbtch

2015-04-30 11:12:00 +08:00

@pupboss 666

nowcoder

2015-04-30 12:07:50 +08:00

不好转。

staticor

2015-04-30 14:09:11 +08:00

pypandoc 试试?

em70

2015-04-30 14:23:32 +08:00 via Android

Python不是万能的

给你个思路，不要纯Python实现，试试去找一个PDF转doc的命令行，python调用命令行来解决。

xyzasd01

2015-04-30 18:02:25 +08:00

命令行：
“pdftohtml 文件名”

然后用word打开html就可以了。

如果要默认word打开，你把.html改成.doc就可以了。

xyzasd01

2015-04-30 18:03:39 +08:00

@xyzasd01

补充一下。pdftohtml的命令是要安装yum install poppler-utils

然后你pdftohtml，pdftotext之类的一大堆都可以用了。。

祝好～

xyzasd01

2015-04-30 18:06:51 +08:00

如果要单纯的去读word。很难，非常难。

java有tika的库，但是有些读不了，比如猎聘网下载的简历。

php有phpword，但是只能读取word2007及以上。就是.docx的。

我的项目遇到的问题：

读取word，有的是html，有些是真正的word，有些是base64。。。。。。有无数种。。。。需要无数种的方法来读。。html的最简单，base64的要截取一部分，然后unbase64会还原成html。。。。我擦擦

xxer

2015-04-30 18:18:57 +08:00

@xyzasd01 也就是说pdf转成word都会存在诸如乱码的问题，不论什么语言，是吗

jedihy

2015-04-30 18:26:50 +08:00 via iPhone

@xxer 本质区别是pdf排版类似于用的矢量绘图的方法。word则是文字的编排。这两种方式是不能完美转换的。

2015-04-30 18:37:03 +08:00

import os
os.system('libreoffice --headless --convert-to docx my.pdf')

xyzasd01

2015-05-05 18:11:59 +08:00

@xxer 不是说一定乱码，只是可能会发生，word太杂了，什么都有。不标准