sego 分词器

https://github.com/huichen/sego
https://github.com/yanyiwu/gojieba
后者是基于cgo的



sego是Go语言的中文分词器,词典用前缀树实现, 分词器算法为基于词频的最短路径加动态规划。



支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。



分词速度单线程2.7MB/s,goroutines并发13MB/s, 处理器Core i7-3615QM 2.30GHz 8核。

词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划, 以及 DAG 和 HMM 算法分词.



支持 HMM 分词, 使用 viterbi 算法.



支持普通、搜索引擎、全模式、精确模式和 HMM 模式多种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。



分词速度单线程 9.2MB/s,goroutines 并发 26.8MB/s. HMM 模式单线程分词速度 3.2MB/s.( 双核4线程 Macbook Pro)。



https://toutiao.io/posts/1p3ptz/preview
https://gocn.vip/topics/1325



https://studygolang.com/articles/2690



https://tkstorm.com/posts-list/software-engineering/elastic/es-docker/



https://22v.net/article/3231/



ik分词器
https://github.com/medcl/elasticsearch-analysis-ik
https://blog.csdn.net/qq_29323645/article/details/110430587
https://www.codenong.com/cs110430587/


Category golang