做一个 pdf 对照翻译的功能

143 天前
 sinecw

类似沉浸式翻译,pdfjs 解析 pdf 文件,调用翻译接口生成对照翻译的排版。价格详单独细谈吧。

870 次点击
所在节点    外包
9 条回复
csulyb
143 天前
先把 pdf 和翻译整明白了 再来发需求吧

先不说翻译接口 api 如何处理这种大段落的翻译,pdfjs 加载一个 100M 的 pdf 文件会不会卡死。

pdf 只是版式协议,并不知道语义,自己要处理文字合并和分割,还有翻译前后排版长短不一致,字体问题等都够喝一壶了
其他 pdf 协议内各种版本兼容,随时给你来个失败
zhwq
143 天前
@csulyb 最后来个报价 300 ,最多 500
sinecw
143 天前
@csulyb 我知道难度挺大 主要是排版还原上 需要做算法处理 来判断段落和样式的还原 所以我才在这里发帖 这个东西没有更详细的需求 标题已经写的够清晰了 我自己写过一些代码 能力不足 确实没搞定 您如果有兴趣接这个需求 咱可以详细讨论一下
sinecw
143 天前
@zhwq 大哥 看出来你技术牛了 别加戏了
justR
142 天前
5000 个 w, 我来给你做
sinecw
142 天前
希望感兴趣的技术大牛们能联系~
nesserrary66
141 天前
pdf api 可以获取文本,但图片和表格多半要用 ocr 处理,处理后再封装回 pdf 。
本人正在尝试复刻百度的图片翻译,下面是效果图,初期版本与百度的还是有差距
sltkzbw
138 天前
@sinecw 分场景吧
1 、PDF 可解析+版式固定,可以抽文字坐标硬写规则
2 、PDF 不可解析+版式固定,自己标点数据训个检测+白嫖个识别,再硬写规则
3 、任意版式,这个比较难,我了解都是针对特定版式优化的,可能得等到 OCR 的 GPT4 出来了
rickmotiyu1
135 天前
如果是固定的标准的 pdf 格式可以做

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1003431

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX