V2EX › gladlyknow 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

2 天前

回复了 LeviMarvin 创建的主题 › 程序员 › PDF 编辑技术很难吗？

各位 V 友，

翻译 PDF 最痛苦的不是翻译本身，而是“格式崩溃”和“不可干预”。市面上大多数翻译工具都是上传 PDF 直接出一份不可修改的译文，遇到公式、表格错位或者 AI 抽风翻译错词，用户基本无计可施。

为了解决这个问题，我做了一个在线 PDF 翻译工具：onlinepdftranslator.com

🛠️ 技术栈与思路
我没有采用传统的“直出”方案，而是引入了 Markdown 作为中间层：

解析层：利用结构化 Vision-Language 模型将 PDF/图片解析为带格式的 JSON ，自动识别标题、段落、表格。

存储层：所有解析出的图片资源自动落盘到 Cloudflare R2 ，解决百度云域名限制及访问速度问题。

翻译层：接入顶级 LLM （支持普通/专业翻译双模式），对结构化文本进行分段翻译。

编辑层（核心）：前端集成 Milkdown 渲染。我选型 Milkdown 是看中了它的插件化能力和对表格、公式的友好支持。用户可以直接在“所见即所得”的 Markdown 编辑器里进行微调。

渲染层：基于 Cloudflare Browser Rendering API ，通过 headless Chrome 实例将最终的 HTML/CSS 打印成高保真 PDF ，规避了 jsPDF 等前端库处理中文和分页时的各种坑。

✨ 工具亮点
全栈 Serverless：前后端一体化部署在 Cloudflare Workers 上，响应速度极快。

Markdown 控制权：支持直接导出 MD 文件，或者在编辑器里调整好格式后再导出 PDF/Doc/Excel 。

表格 & 公式友好：针对学术论文和技术文档，支持 LaTeX 实时渲染和复杂的表格编辑插件。

多种导出：除了常规 PDF ，还可以基于原始 JSON 的表格节点，直接生成带样式的 Excel 结构，不丢失单元格属性。

🚀 访问地址
onlinepdftranslator.com

目前项目处于持续迭代中，非常欢迎各位 V 友试用并提出技术建议。特别是关于在 Workers 环境下处理大规模二进制文件导出、以及 Milkdown 插件定制方面的经验，欢迎交流！