MicroTokenizer: 一个面向教学的微型中文分词引擎

2018-06-15 14:10:06 +08:00
 howlanderson

微型中文分词器

一个微型的中文分词器,能够按照词语的频率(概率)来利用构建 DAG (有向无环图)来分词。

特点 / 特色

演示

在线演示

在线的 Jupyter Notebook 在

离线演示

分词

代码:

import MicroTokenizer

tokens = MicroTokenizer.cut("知识就是力量")
print(tokens)

输出:

['知识', '就是', '力量']

有向无环图效果演示

备注

更多演示

"王小明在北京的清华大学读书"

项目地址

https://github.com/howl-anderson/MicroTokenizer

开发者

Xiaoquan Kong @ https://github.com/howl-anderson

依赖

只在 python 3.5+ 环境测试过,其他环境不做兼容性保障。

安装

pip install git+https://github.com/howl-anderson/MicroTokenizer.git

如何使用

分词

见上文

导出 GraphML 文件

from MicroTokenizer.MicroTokenizer import MicroTokenizer

micro_tokenizer = MicroTokenizer()
micro_tokenizer.build_graph("知识就是力量")
micro_tokenizer.write_graphml("output.graphml")
9464 次点击
所在节点    自然语言处理
11 条回复
leopku
2018-06-15 16:17:10 +08:00
先 star 为敬
howlanderson
2018-06-15 17:43:59 +08:00
@leopku 感谢 PKU 大佬!
artandlol
2018-06-15 17:54:40 +08:00
Ik
smartcn 这类的吗
shiny
2018-06-15 18:13:27 +08:00
让我想起“ 24 口交换机”那梗,试了下,带数字就直接报错了。
howlanderson
2018-06-18 11:04:29 +08:00
@shiny 我没有尝试这种混合的用法,不过我回去看看什么情况,改进一下,谢谢试用!
howlanderson
2018-06-18 11:06:20 +08:00
@artandlol 类似的功能,但目的不同,这个主要是面向教学:演示一个简单的分词器如何工作的。
howlanderson
2018-06-18 11:07:42 +08:00
@shiny 不知道你是否在 README 中注意到,你可以直接使用 binder: https://mybinder.org/v2/gh/howl-anderson/MicroTokenizer/master?filepath=.notebooks%2FMicroTokenizer.ipynb 来做实验。
howlanderson
2018-06-19 13:22:09 +08:00
@shiny 我添加了 https://github.com/howl-anderson/MicroTokenizer/issues/1 这个 issue 来跟踪这个问题。
northisland
2018-06-20 15:40:20 +08:00
厉害,已 star
howlanderson
2018-06-21 20:26:09 +08:00
@northisland 感谢!
shm7
2018-08-30 16:25:37 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/463384

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX