ACG2vec 系列之 ACGVoc2vec——基于深度学习的二次元场景适应的文本特征抽取器

2022-11-18 20:05:40 +08:00

OysterQAQ

Huggingface 在线体验： https://huggingface.co/OysterQAQ/ACGVoc2vec

github 主仓库地址（ tensorflow 的 savemodel 格式可以在 release 中下载）： https://github.com/OysterQAQ/ACG2vec

模型结构为sentence-transformers，使用distiluse-base-multilingual-cased-v2预训练权重，以 5e-5 的学习率在动漫相关语句对数据集下进行微调，损失函数为 MultipleNegativesRankingLoss 。

模型输入文本，输出 512 维的特征向量，可以用于标签推荐，文本搜索等直接下游任务，也可以作为文本特征抽取器来组合进解决其他任务的模型。

数据集主要包括：

Bangumi
- 动画日文名-动画中文名
- 动画日文名-简介
- 动画中文名-简介
- 动画中文名-标签
- 动画日文名-角色
- 动画中文名-角色
- 声优日文名-声优中文名
pixiv
- 标签日文名-标签中文名
AnimeList
- 动画日文名-动画英文名
维基百科
- 动画日文名-动画中文名
- 动画日文名-动画英文名
- 中英日详情页 h2 标题及其对应文本
- 简介多语言对照（中日英）
- 动画名-简介（中日英）
moegirl
- 动画中文名的简介-简介
动画中文名+小标题-对应内容

在进行爬取，清洗，处理后得到 510w 对文本对（还在持续增加），batchzise=80 训练了 20 个 epoch ，使 st 的权重能够适应该问题空间，生成融合了领域知识的文本特征向量（体现为有关的文本距离更加接近，例如作品与登场人物，或者来自同一作品的登场人物）。

效果预览（分数为文本特征向量之间的距离）：

2945 次点击

所在节点

5 条回复

LawlietZ

2022-11-18 23:58:13 +08:00

大佬咋去搞深度学习去了读研了？

cnnblike

2022-11-19 08:02:30 +08:00

这是不是能和 novelai 的模型搞 gan 啊？

OysterQAQ

2022-11-19 08:34:02 +08:00

@LawlietZ 是的，目前在读研一

OysterQAQ

2022-11-19 08:35:30 +08:00

@cnnblike 感觉不行吧，但是应该用这个来监督能把 novelai 的 img2img 那部分的图片编码器，不过后续我会发布二次元适应的图片特征抽取工具

ersic

2022-11-20 09:33:45 +08:00

抖音的“突破次元壁垒”训练的挺好的

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/896294

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX