Gse v0.20.0 发布了, Go 高性能分词,  优化性能和代码, 更多测试

2018-10-10 03:16:07 +08:00
 vway

Go 语言高效分词, 支持英文、中文、日文等

词典用双数组 trie ( Double-Array Trie )实现, 分词器算法为基于词频的最短路径加动态规划。

支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。

项目地址: https://github.com/go-ego/gse

package main

import (
    "fmt"

    "github.com/go-ego/gse"
)

func main() {
    var seg gse.Segmenter
    seg.LoadDict("zh,testdata/test_dict.txt,testdata/test_dict1.txt")

    text1 := []byte("你好世界, Hello world")

    segments := seg.Segment(text1)
    fmt.Println(gse.ToString(segments))
}

Lethe River

Add


Update

Fix

See Commits for more details, after Apr 27.

3268 次点击
所在节点    Go 编程语言
10 条回复
yanaraika
2018-10-10 06:51:49 +08:00
8102 年了,至少用个马尔可夫吧
vway
2018-10-10 08:43:03 +08:00
@yanaraika 后面会考虑加上 HMM
JeffKing
2018-10-10 08:55:48 +08:00
8102 了,至少用 crf 分词吧
enenaaa
2018-10-10 09:31:14 +08:00
词频是用什么语料统计的?
dilu
2018-10-10 09:51:50 +08:00
先支持楼主一个,顺便想问问有没有什么学习分词的资料可以分享一波,对这个很感兴趣。
realpg
2018-10-10 10:36:13 +08:00
英文分词难道不是应该基于空格标点么
vway
2018-10-10 19:21:47 +08:00
@JeffKing 🤦‍♀️, 会考虑的加上
vway
2018-10-10 20:07:33 +08:00
@realpg 目前主要的还是对一些终止符做一些优化
vway
2018-10-10 20:08:33 +08:00
@dilu Baidu 或 Google 有很多资料
vway
2018-10-10 20:09:54 +08:00
@enenaaa 结巴分词的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/496161

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX