有什么好上手的中文词语分类的自然语言处理类库吗?

2020-07-14 15:49:30 +08:00
 CRUD

需求是这样的:有 N 多的且之后会随时新增的商品名称,有固定的分组列表,要将这 N 多的商品名称对应到固定的分组列表中,提供一个商品名称可以知道它应该划分到哪个分组。

尝试过 OpenNLP,不过不知道哪里姿势不对,训练完之后使用 NameFinderME 查找结果始终为空...

之前没接触过这块的东西,有什么简单的办法可以满足这个需求吗?预先提供一批商品对应分组的训练素材,输入商品名称获得分组名称,手动修改商品对应的分组的时候会将该次手动修改当做训练素材,手动修改次数多了影响匹配结果。

1282 次点击
所在节点    Java
6 条回复
murmur
2020-07-14 15:54:00 +08:00
思路就错了,词语得信息量少得跟没有一样,怎么分类,想靠谱至少是一段话,一句话信息量就不够

比如给你个词 百度 怎么分类
哦 分类是食品哈 因为我们这有个百度烤肉
murmur
2020-07-14 15:54:41 +08:00
这可不是训练,这就是完整匹配然后写死,你录入多少商品他就支持多少商品
teddy2725
2020-07-14 15:57:09 +08:00
这就是短文本多分类问题,传统机器学习和深度学习都有一些模型可以解决。
CRUD
2020-07-14 16:04:12 +08:00
@murmur #2 是的,我也想直接写死然后直接字符串匹配,关键是商品来源不一样,没办法保证能罗列出所有的完整的商品列表,同一商品名称上有可能也有一点点出入,所以才想能不能整个词语分类,根据近似值或者相似度匹配一下。
CRUD
2020-07-14 16:12:14 +08:00
@teddy2725 #3 有哪些线索吗?
teddy2725
2020-07-14 16:17:15 +08:00
google 搜索 短文本多标签 nlp

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/689956

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX