有没有好用的打标签库?能带有点自然语言处理的最好

2016-04-19 06:18:37 +08:00
 kyrre

最近在做个图书分类的系统,需要对每本书根据书名分类,打标签。 有啥好用的库可以推荐吗?

3102 次点击
所在节点    程序员
19 条回复
binux
2016-04-19 06:27:04 +08:00
作为人类,你做得到「对每本书根据书名分类,打标签」吗?
kyrre
2016-04-19 06:34:02 +08:00
@binux 在自己的知识范围内基本上都可以吧。再说这个系统肯定也是逐步完善的。
我找了个朴素贝叶斯算法的库,不怎么好用,不能一次得出多个分类/标签。
binux
2016-04-19 07:41:31 +08:00
@kyrre 那我问你一本书,《大教堂与集市》是什么类别的?
murmur
2016-04-19 07:58:11 +08:00
根据书名分类?我认为做不到,因为信息是在太少了,分词都分不出来,何况还有标题党
比如轮回的拉格朗日 讲什么的 数学?
BGLL
2016-04-19 08:15:09 +08:00
只能根据书名扒豆瓣和亚马逊,
kyrre
2016-04-19 08:19:07 +08:00
我觉得这个虽说做不到 100%准确,大致准确就可以了。而且我一开始是针对计算机类书籍,所以应该难度不大。
比如《 Spring MVC Cookbook 》我只要能认出 Spring 就 ok ,能分类出 web 就超出期望了。
大部分计算机书应该只属于 1 到 2 类,所以只要能给一本书打上 2 个标签就已经完全可用了。
kyrre
2016-04-19 08:20:17 +08:00
@binux 这本书我准备打上 其他 这个标签。 233333
gamexg
2016-04-19 08:22:51 +08:00
leemail
2016-04-19 08:49:07 +08:00
isbn 有了还需要自己分类吗?
knightdf
2016-04-19 08:50:41 +08:00
NLP 处理标题?。。。。 LZ 也是想多了,起码得加上书的介绍内容吧,一个标题。。
takashiki
2016-04-19 09:00:47 +08:00
禅与摩托车维修艺术
kyrre
2016-04-19 09:03:14 +08:00
@gamexg 这个确实是一个好思路,但用爬虫来搞有点搞大了,不过没准豆瓣有 api 。
@murmur, @knightdf 其实就是一个自己玩的项目,所以起点低也无所谓啦。
youxiachai
2016-04-19 09:07:55 +08:00
咦?做图书系统..不对接国际标准吗?....
pimin
2016-04-19 09:10:45 +08:00
感觉楼主在试图解决一个问题最不重要的部分。
给一本书贴标签,把书拿过来,看一眼,从分类里选一个标签撕下来,贴上。
我很难想象:把这本书对应的标签打印出来,拿着标签去找书,找到了贴上,回来的时候已经打了 100 张标签了。

我想说的是,这个问题最大的瓶颈在于粘贴和取放书。
判断一本书的分类对人类来说,就是撕标签的同时就处理了
shiny
2016-04-19 09:12:20 +08:00
最理想的办法是爬图书数据库,能覆盖 20%的热门图书效果就不错了
kyrre
2016-04-19 09:34:48 +08:00
哈哈,好吧,可能一开始没说清楚,我不处理实体书,只处理电子书,而且第一步是处理计算机技术类电子书。
所以没有 @pimin 担心的问题。
Use case :
当扫描到一个 pdf 时,得到它的书名,自动猜出它最有可能属于的分类, 1 到 2 个,然后打上标签,完事。
knightdf
2016-04-19 09:46:28 +08:00
@kyrre 只处理书名然后打标签的话,与 NLP 也没什么关系,只是个分类的问题
dphdjy
2016-04-19 10:00:12 +08:00
乌克兰拖拉机简史。。。
kyrre
2016-04-19 10:22:05 +08:00
@dphdjy 别闹,我只处理英文

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/272129

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX