BosonNLP 分词与词性标注 API 新版上线,全面免费开放

2015-08-31 14:43:49 +08:00
 Gestalt

敝司最近升级了分词与词性标注 API ,准确率有一定提升,调用的 rate 应该也可以满足日常需要了。诸位可以在 bosonnlp.com 注册帐号获取调用 token 感受,这里也有一个可以直接尝试的呆萌。各种参数和调用方式请见API 文档。 gl&hf

升级说明

分词在很多网站平台, APP 的开发中都是不可或缺的组件,但网上常见的分词项目,对新词与切分歧义的处理差强人意,甚至缺乏一个统一的词语切分标准。在过去的一年时间里,我们玻森在与很多开发团队的沟通中,不断看到这样的情况上演:

开发者由于项目进度周期等限制,对于分词需求,常常直接在网上搜索到一个可能已经停止维护的分词系统,进行简单测试后,快速集成上线。项目初期一切都看上去良好,但随着数据增多、使用的深入,越来越多的问题不断暴露出来。如集成在网站搜索中,随着项目开展需要手动添加越来越多的特殊判定规则以修复由分词所产生的各种 bad case ,最终使得项目变得愈发臃肿与维护困难。

为开发者提供高质量的分析引擎,这是我们 BosonNLP 语义开发平台成立的初衷。自然语言处理( NLP )是一个专业领域,玻森已经有多年的积累。我们希望自己在 NLP 上花费足够多的时间,从而作为开发者的您不需要在上面花费太多时间。希望您能更多集中在产品和创意,或得闲出门走走,看看这个挺大的世界。

本次分词与词性标注引擎是 BosonNLP 过去一年最大的升级:

features:

希望能对您有所帮助~

BosonNLP 团队

6228 次点击
所在节点    分享创造
26 条回复
zix
2015-08-31 15:30:55 +08:00
赞!
menc
2015-08-31 15:31:58 +08:00
你们的其他组件效果和 ltp 相比如何呢?
macg0406
2015-08-31 15:52:16 +08:00
赞一个!
Gestalt
2015-08-31 15:54:18 +08:00
@menc 这种 nlp 的东西不同的标注标准和测试集下数值的结果偏差还是很大的,我厂标注上更偏重于实际的 sns 数据,而且分析的 api 也相对多一些。你可以贴一些文章试试这个呆萌的 NER 之类的效果: http://bosonnlp.com/demo
ToysMall
2015-08-31 15:58:36 +08:00
赞一个,基于网络的 api 应用效率很低,能否以包的形式提供?
Gestalt
2015-08-31 16:06:48 +08:00
@ToysMall 可以批量调,一次可以传 100 条,而且可以开多线程(具体看文档),感觉一般的 web 应用足够了,况且现在服务器也搬国内了。封装成包反而可能有一堆更新安装机器配置的问题。
sunchuo
2015-08-31 16:24:10 +08:00
hi.现在只有免费有限制的接口么。
收费服务有没有。
Gestalt
2015-08-31 16:28:23 +08:00
@sunchuo 大规模用可以见 http://bosonnlp.com/about#contact 的联系方式。
predator
2015-08-31 16:36:22 +08:00
赞一个,先用起来
Dlad
2015-08-31 16:37:18 +08:00
高山仰止!
est
2015-08-31 16:47:28 +08:00
无聊于是贴了一段:

自桓帝、灵帝以来,黄巾猖獗,天下纷争,社稷有累卵之危,生灵有倒悬之急,我太祖武皇帝,扫清六合,席卷八荒,万姓倾心,四方仰德,此非以权势取之,实乃天命所归也!我世祖文皇帝,神文圣武,继承大统,应天合人,法尧禅舜,处中国以治万邦,这岂非天心人意乎?今公蕴大才,抱大器自比管仲,乐毅,何乃要逆天理,背人情而行事?岂不闻古人云:顺天者昌,逆天者亡。今我大魏带甲百万,良将千员。谅尔等腐草之萤光,如何比得上天空之皓月?你若倒戈卸甲,以礼来降,仍不失封侯之位,国安民乐,岂不美哉?

分词器:卒
EPr2hh6LADQWqRVH
2015-08-31 16:51:20 +08:00
@est 须知古文并无标点, 去标点后结果感人

自桓帝灵帝以来黄巾猖獗天下纷争社稷有累卵之危生灵有倒悬之急我太祖武皇帝扫清六合席卷八荒万姓倾心四方仰德此非以权势取之实乃天命所归也我世祖文皇帝神文圣武继承大统应天合人法尧禅舜处中国以治万邦这岂非天心人意乎今公蕴大才抱大器自比管仲乐毅何乃要逆天理背人情而行事岂不闻古人云顺天者昌逆天者亡今我大魏带甲百万良将千员谅尔等腐草之萤光如何比得上天空之皓月你若倒戈卸甲以礼来降仍不失封侯之位国安民乐岂不美哉
Gestalt
2015-08-31 17:11:24 +08:00
sunchuo
2015-08-31 17:13:54 +08:00
工信处女干事每月经过下属科室都要亲口交代 24 口交换机等技术性器件的安装工作


测试了一下感觉还是很准的。你们专门优化了这句话么!!!!
est
2015-08-31 17:15:21 +08:00
@Gestalt 我擦。。。这个要查水表啊。。。
Gestalt
2015-08-31 17:25:14 +08:00
@sunchuo 然而并没有⋯⋯小机器人自己学的._.
zix
2015-08-31 22:44:04 +08:00
@sunchuo 卧槽!
zix
2015-08-31 22:47:41 +08:00
@Gestalt 至少筛选过语料吧
sobigfish
2015-08-31 22:48:29 +08:00
呃, lz 的文字贴进去 BosonNLP 和 SDK 被识别成了公司名-。- 第 2 个错了也就算了 你们自己的产品都错啊

其他准确率到是很高。
注册了-。- SDK 只有 python 的么
Gestalt
2015-09-01 00:11:04 +08:00
@sobigfish 目前除了 python 之外有第三方写的 node.js ruby clojure java 的。 http://bosonnlp.com/dev/center https://github.com/search?utf8=%E2%9C%93&q=bosonnlp

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/217316

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX