有没有比较成熟的语义分类库(汉语、英语)?

2020-11-26 16:11:52 +08:00
 imn1
例如:
input: 1937
output: 年份,20 世纪,30 年代,1930s,民国……

input: 北平
output: 北京,首都,民国……

input: 旗袍
output: 服装,民族服装,古装,满族,清朝……

大致就是图书馆管理学、分类学的反向搜索,从具体实例搜索类别
英语类似,就不写例子了,汉语库优先
注:input 只是词,不考虑分词,并不是求算法框架

求离线开源库
非盈利场景,不考虑收费
也不考虑 online api,因为测试的东西(想法)还不成熟,不断请求 api 不实际

应该只能公益团队做这个,个人的话恐怕要全职 Fulltime,那种十年磨一剑的人才有这个恒心
这个肯定就是拿来主义,个人做是个浩大的工程,看看有没有前人贡献者,就没必要拿伸手党说事了
451 次点击
所在节点    问与答
3 条回复
TimePPT
2020-11-26 18:37:06 +08:00
举例的这些 case 全搞定语义分类库是没用的
分类任务只能分类,不能做推断。
预训练好的词向量可以解决一部分,实体抽取+normalize 能解决一部分,1937 能到年份这个单独看根本没法确定,在具体语境下足够多的互信息可以确定是年份还是纯数字,再去做推断。
TimePPT
2020-11-26 18:40:11 +08:00
腾讯有离线的资源可以用
https://ai.tencent.com/ailab/nlp/zh/index.html
多种任务的语义处理可以用他们的 TexSmart
预训练词向量可以用他们开源的 800w 量级的 200 维词向量文件。

知识图谱的,OpenKG 可以关注下 http://www.openkg.cn/
imn1
2020-11-26 19:07:55 +08:00
@TimePPT #1
也不是要准确判断,例如你所说的 1937 也可以包含“数字”这个输出

当然你说的我明白,这种一对多的输出,尤其输入可以任意,要做到库,可能极其庞大,普通机器也难受,通过算法做成有限的分类可行性更高

我再想想更换场景需求

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/729530

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX