关于本地知识库的问题,哪种嵌入模型对文言文支持效果好?

206 天前
 grimpil
我这里整理了很多文言文的资料,如果用本地知识库的话,直接把文言文导进去,但是搜索输出用现代文,是不是效果不太好?
这种情况是应该先翻译之后再导进去,还是说有什么针对文言文的嵌入模型?
这里完全不懂,真诚求教
1365 次点击
所在节点    问与答
5 条回复
nomagick
206 天前
不可能好,文言文的语料一共才多少你想想

统称文言文,实际诗词曲赋体裁众多,从古到今几千年用法不一,使用场景不同语气用词各不相同,再加上誊抄时错误百出

真要想做好,要先把大量语料从白话文翻译回文言文,用生成数据训练,
但翻译要怎么翻译,本质上就是重新定义文言文的过程
TimePPT
206 天前
没明白你啥需求,文言文翻译?
grimpil
206 天前
@TimePPT 就是想把这些文言文的资料作为本地知识库,基于里面的内容用 AI 进行文本生成,创作新的内容。实际使用起来效果不好,感觉可能是搜索知识库的时候存在匹配问题
TimePPT
206 天前
@grimpil 如果是通用的文言文和诗词创作,其实中文预训练过的大模型本身就不错,你如果想仿作,要的是把想仿的诗词古文作为范例放在 prompt 里,这时候用 RAG 没问题,但单纯做文本检索或向量检索是不够的,最好是有一些额外的索引 tag ,比如「怀古」,「咏物」这种
TimePPT
206 天前
@TimePPT 如果是特别垂的古诗词古文生成,还需要做一些领域微调,效果才能好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1113606

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX