好像发现 没有 文件转换 这类的库啊?

119 天前
 jamel
几乎市面上的 html 互转 pdf ,html 互转 word 的工具都要收费,都想打算自己做一个了。
python 好像有一个,java 有一个 转 pdf 的,但是没有转 word 的。
估计只能做一个了。。。难搞
1848 次点击
所在节点    程序员
18 条回复
murmur
119 天前
html 转 pdf 用无头浏览器打印就行了

html 转 word 效果会很差 不建议使用 还是直接转 pdf 吧

word 转 html 也是 得用在线 office 预览

pdf 转 html 这个得 ocr 识别 收费没毛病

基于你的需求除了 html 转 pdf 估计都做不出来
xtreme1
119 天前
你比 knuth 还牛逼
xiaogang530
119 天前
之前做过 docx 转 html 的需求 恶心死了 关键字替换组件更恶心
xiaogang530
119 天前
@xiaogang530 用 Java 在后台硬拼接的 然后上传到 fastdfs
kilasuelika
119 天前
pandoc 不能满足要求吗
zydxn
119 天前
你自己做一个试试呗,别说转换了,导出 word 做的就很恶心,大多都是基于 FTL ( xml 格式)去做占位符和替换。
cnoder
119 天前
coyove
119 天前
html 转 pdf 还好,html 转 word 的需求点在哪,我们学校 60 岁的老教授都知道装个万能复制的插件了
siweipancc
119 天前
直接调 C 库啊,你还在折腾什么?一大堆开源的工具,非得自己实现个四不像?
charlestang
119 天前
不是有什么 pandoc 么?支持狂多格式互转。另外以前我做过 html 转 pdf ,有一个叫 wkhtmltopdf 的库,挺好用,转得效果不错的。还能转图片。
Mithril
119 天前
唯一能正常支持几乎所有源文件效果的转换格式的,就是 HTML 转 PDF 。
严格来说这都不能叫格式转换,而是“渲染”和“打印”。把 HTML 加 CSS 通过渲染得出结果,然后按照打印的方式将渲染结果输出到 PDF 里。
你可以用 puppeteer 等工具做到这一点,比如前面说的 wkhtmltopdf ,实际原理都是一样的,要么套了 Chrome 或者 CEF ,要么直接 WebKit 。都是用浏览器来做的,这样才能做到完美转换和渲染样式。

其他方法和格式转换都属于“勉强能用”。只有 PDF 这种可以通过虚拟打印机来做最终输出的格式,才能作为能适配大多数格式的转换目标。

所以你看大多格式都能转成 PDF ,但 PDF 再转回去就有各种问题了。
Aixtuz
119 天前
之前用过 Pandoc ,对格式要求不苛刻的话,感觉还行。
weijancc
119 天前
node 有一个 html 转 word 的, 效果还可以, https://github.com/privateOmega/html-to-docx
Skifary
119 天前
因为文件转换特别是 pdf 几乎是没有通用转换方法的,只能根据特定的格式做解析去解决特定的需求
abersheeran
119 天前
因为别人不想免费开发这种对于很多人都是刚需的东西。
duzhuo
118 天前
pandoc 咯
jamel
118 天前
@duzhuo pandoc 是不是收费的?
dode
118 天前
今年搞了 html 转 word 的功能,可以实现文字、图片、表格的全部转换

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1007787

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX