gladlyknow's recent timeline updates
gladlyknow

gladlyknow

V2EX member #732080, joined on 2025-01-22 16:18:32 +08:00
gladlyknow's recent replies
2 days ago
Replied to a topic by LeviMarvin 程序员 PDF 编辑技术很难吗?
各位 V 友,

翻译 PDF 最痛苦的不是翻译本身,而是“格式崩溃”和“不可干预”。市面上大多数翻译工具都是上传 PDF 直接出一份不可修改的译文,遇到公式、表格错位或者 AI 抽风翻译错词,用户基本无计可施。

为了解决这个问题,我做了一个在线 PDF 翻译工具:onlinepdftranslator.com

🛠️ 技术栈与思路
我没有采用传统的“直出”方案,而是引入了 Markdown 作为中间层:

解析层:利用结构化 Vision-Language 模型将 PDF/图片解析为带格式的 JSON ,自动识别标题、段落、表格。

存储层:所有解析出的图片资源自动落盘到 Cloudflare R2 ,解决百度云域名限制及访问速度问题。

翻译层:接入顶级 LLM (支持普通/专业翻译双模式),对结构化文本进行分段翻译。

编辑层(核心):前端集成 Milkdown 渲染。我选型 Milkdown 是看中了它的插件化能力和对表格、公式的友好支持。用户可以直接在“所见即所得”的 Markdown 编辑器里进行微调。

渲染层:基于 Cloudflare Browser Rendering API ,通过 headless Chrome 实例将最终的 HTML/CSS 打印成高保真 PDF ,规避了 jsPDF 等前端库处理中文和分页时的各种坑。

✨ 工具亮点
全栈 Serverless:前后端一体化部署在 Cloudflare Workers 上,响应速度极快。

Markdown 控制权:支持直接导出 MD 文件,或者在编辑器里调整好格式后再导出 PDF/Doc/Excel 。

表格 & 公式友好:针对学术论文和技术文档,支持 LaTeX 实时渲染和复杂的表格编辑插件。

多种导出:除了常规 PDF ,还可以基于原始 JSON 的表格节点,直接生成带样式的 Excel 结构,不丢失单元格属性。

🚀 访问地址
onlinepdftranslator.com

目前项目处于持续迭代中,非常欢迎各位 V 友试用并提出技术建议。特别是关于在 Workers 环境下处理大规模二进制文件导出、以及 Milkdown 插件定制方面的经验,欢迎交流!
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5354 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 07:54 · PVG 15:54 · LAX 00:54 · JFK 03:54
♥ Do have faith in what you're doing.