YuzuMarker 漫画汉化自动化 进展

2021-11-04 23:01:52 +08:00
 JeffersonQin

前段时间在 v2 发了个贴 介绍 YuzuMarker 的想法的: https://www.v2ex.com/t/811445

项目 repo: https://github.com/JeffersonQin/YuzuMarker

更新一下进展:

大家如果有兴趣的话欢迎提想法和建议!( x

2864 次点击
所在节点    分享创造
17 条回复
hanyuluo
2021-11-05 17:51:57 +08:00
JeffersonQin
2021-11-05 20:51:46 +08:00
@hanyuluo 这篇 paper 我读过的(
sigl0p
2021-11-09 11:26:53 +08:00
我记得前两年在 B 站看过个视频,就是演示的漫画自动汉化,好像不是你这个。
sigl0p
2021-11-09 11:38:14 +08:00
UI 部分我觉得可以考虑用 VUE 做,现在用,NET 跨平台做感觉坑会很大。

用 GIT 存漫画图源我感觉也是个大坑,汉化工程大了、或者改动多了的时候需要多少硬盘空间来存 GIT 啊
sigl0p
2021-11-09 12:03:30 +08:00
@hanyuluo #1 试了一下里面的训练集

```
"text_ja": "レーネ...",
"text_en": "lene...",
"text_zh": "蕾娜..."
```


开始表演
JeffersonQin
2021-11-09 14:04:06 +08:00
@sigl0p 首先感谢回复(
1. 关于 UI ,我其实压根不想写 UI (暴论)(然后就挑了一个姑且比较熟的技术栈(然后关于跨平台,手机其实就是个鸡肋,在手机上我只准备实现最基础的翻译录入)
2. 关于 git 。我规范了一定的文件格式,具体可以看 readme ,现在问题唯一比较大的就是 psd 文件确实会产生冗余,不过考虑到嵌字一般都是最后一步,这么一想其实也就没啥了()(并且可以 squash commit 嘛
3. 关于数据集。我现在申请到了东大的 Manga-109s ,不准备用上面那个。对于翻译,我有两种看法:
JeffersonQin
2021-11-09 14:06:23 +08:00
@sigl0p
( 1 )对于汉化组,必然不会用翻译器,是手动录入
( 2 )可能之后会调用一些现成的翻译的 api (最主要是我懒得做 context 分析)
所以项目的侧重点其实有三点:
(1) 文件的模块化
(2) 文字区域的识别
(3) Impainting
(4) text auto layout
(5) font recognition & matching
sigl0p
2021-11-09 14:36:33 +08:00
> 我其实压根不想写 UI (暴论)

不能这样想,在颜值就是一切的二刺源,UI 就是 战斗力啊,不够漂亮是无法推广出去的[:doge],用 VUE 的好处就是不需要写三套 VIEW ,坏处就是前端技术还是蛮麻烦的,反正我自己是搞不太懂。


自动化翻译可参考:

https://www.bilibili.com/video/BV1P54y1Q7fW/

不过最好不要像她一样,都 2022 年了还没 release 出来 ,可以做个半成品就发布出来接收反馈收集数据
JeffersonQin
2021-11-09 17:38:19 +08:00
@sigl0p 草生()不过现在已经在和组合作了,没有任何智能功能的情况下还是能出一个 beta 版不至于拖很久的(确信)
JeffersonQin
2021-11-09 17:39:47 +08:00
@sigl0p 已经现在的 ui 真的只能算姑且能用 全都是 default style 裸奔 之后有打算找人帮忙稍微设计一下 🤣
paopjian
2021-11-10 16:29:19 +08:00
自动化 ps 特别蛋疼,想用 python 改一下 psd 里面的文本都很难,本来以为挺轻松结果放弃了
JeffersonQin
2021-11-10 18:34:52 +08:00
@paopjian 对的 我一开始和你一样的想法 结构搜了一下 py 的只有一个日本人写的开源库 还不支持图层操作,dotnet 有付费的库,然后可以说得上正解的就是 extendscript 还有 CEP 了
sigl0p
2021-11-11 08:47:12 +08:00
@JeffersonQin #9
有意思,可以拉我入伙么,我一直想做个 b 站里那种全自动化的翻译方案,但是抱不到翻译组的大腿,所以一直鸽一直鸽。

不过你这个基于 git 的存储方案我个人还是觉得不合适。
JeffersonQin
2021-11-11 10:08:38 +08:00
@sigl0p 要一起写的话直接 github 提 pr 就行 以及 git 主要是为了多人协作
Thiece
2021-11-15 11:56:51 +08:00
一般的翻译流程为:
打点 > 取字 > 汉化 > 嵌入
Thiece
2021-11-15 11:59:41 +08:00
按错了发出去了,接楼上的回复

如果是纯离线的话,打点和取字是一起做的。现在看上去是实现了把过去的要汉化的工作变成了校对工作。
所以如果是抛开技术本身的话,可以想想怎么做任务流转。
JeffersonQin
2021-11-15 18:07:19 +08:00
@Thiece 我主要解决的不是翻译问题,是嵌字问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/813156

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX