各位 V 友,
翻译 PDF 最痛苦的不是翻译本身,而是“格式崩溃”和“不可干预”。市面上大多数翻译工具都是上传 PDF 直接出一份不可修改的译文,遇到公式、表格错位或者 AI 抽风翻译错词,用户基本无计可施。
为了解决这个问题,我做了一个在线 PDF 翻译工具:
onlinepdftranslator.com🛠️ 技术栈与思路
我没有采用传统的“直出”方案,而是引入了 Markdown 作为中间层:
解析层:利用结构化 Vision-Language 模型将 PDF/图片解析为带格式的 JSON ,自动识别标题、段落、表格。
存储层:所有解析出的图片资源自动落盘到 Cloudflare R2 ,解决百度云域名限制及访问速度问题。
翻译层:接入顶级 LLM (支持普通/专业翻译双模式),对结构化文本进行分段翻译。
编辑层(核心):前端集成 Milkdown 渲染。我选型 Milkdown 是看中了它的插件化能力和对表格、公式的友好支持。用户可以直接在“所见即所得”的 Markdown 编辑器里进行微调。
渲染层:基于 Cloudflare Browser Rendering API ,通过 headless Chrome 实例将最终的 HTML/CSS 打印成高保真 PDF ,规避了 jsPDF 等前端库处理中文和分页时的各种坑。
✨ 工具亮点
全栈 Serverless:前后端一体化部署在 Cloudflare Workers 上,响应速度极快。
Markdown 控制权:支持直接导出 MD 文件,或者在编辑器里调整好格式后再导出 PDF/Doc/Excel 。
表格 & 公式友好:针对学术论文和技术文档,支持 LaTeX 实时渲染和复杂的表格编辑插件。
多种导出:除了常规 PDF ,还可以基于原始 JSON 的表格节点,直接生成带样式的 Excel 结构,不丢失单元格属性。
🚀 访问地址
onlinepdftranslator.com目前项目处于持续迭代中,非常欢迎各位 V 友试用并提出技术建议。特别是关于在 Workers 环境下处理大规模二进制文件导出、以及 Milkdown 插件定制方面的经验,欢迎交流!