V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
OysterQAQ
V2EX  ›  分享创造

ACG2vec 系列之 ACGVoc2vec——基于深度学习的二次元场景适应的文本特征抽取器

  •  3
     
  •   OysterQAQ ·
    OysterQAQ · 82 天前 · 2593 次点击
    这是一个创建于 82 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Huggingface 在线体验: https://huggingface.co/OysterQAQ/ACGVoc2vec

    github 主仓库地址( tensorflow 的 savemodel 格式可以在 release 中下载): https://github.com/OysterQAQ/ACG2vec

    模型结构为sentence-transformers,使用distiluse-base-multilingual-cased-v2预训练权重,以 5e-5 的学习率在动漫相关语句对数据集下进行微调,损失函数为 MultipleNegativesRankingLoss 。

    模型输入文本,输出 512 维的特征向量,可以用于标签推荐,文本搜索等直接下游任务,也可以作为文本特征抽取器来组合进解决其他任务的模型。

    数据集主要包括:

    • Bangumi

      • 动画日文名-动画中文名
      • 动画日文名-简介
      • 动画中文名-简介
      • 动画中文名-标签
      • 动画日文名-角色
      • 动画中文名-角色
      • 声优日文名-声优中文名
    • pixiv

      • 标签日文名-标签中文名
    • AnimeList

      • 动画日文名-动画英文名
    • 维基百科

      • 动画日文名-动画中文名
      • 动画日文名-动画英文名
      • 中英日详情页 h2 标题及其对应文本
      • 简介多语言对照(中日英)
      • 动画名-简介(中日英)
    • moegirl

      • 动画中文名的简介-简介
    • 动画中文名+小标题-对应内容

    在进行爬取,清洗,处理后得到 510w 对文本对(还在持续增加),batchzise=80 训练了 20 个 epoch ,使 st 的权重能够适应该问题空间,生成融合了领域知识的文本特征向量(体现为有关的文本距离更加接近,例如作品与登场人物,或者来自同一作品的登场人物)。

    效果预览(分数为文本特征向量之间的距离):

    image-20221118195931837

    image-20221118200252806

    5 条回复    2022-11-20 09:33:45 +08:00
    LawlietZ
        1
    LawlietZ  
       82 天前
    大佬咋去搞深度学习去了 读研了 ?
    cnnblike
        2
    cnnblike  
       82 天前 via Android
    这是不是能和 novelai 的模型搞 gan 啊?
    OysterQAQ
        3
    OysterQAQ  
    OP
       82 天前 via iPhone
    @LawlietZ 是的,目前在读研一
    OysterQAQ
        4
    OysterQAQ  
    OP
       82 天前 via iPhone
    @cnnblike 感觉不行吧,但是应该用这个来监督能把 novelai 的 img2img 那部分的图片编码器,不过后续我会发布二次元适应的图片特征抽取工具
    ersic
        5
    ersic  
       81 天前 via Android
    抖音的“突破次元壁垒”训练的挺好的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   实用小工具   ·   5022 人在线   最高记录 5556   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 05:44 · PVG 13:44 · LAX 21:44 · JFK 00:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.