https://github.com/huichen/sego
https://github.com/yanyiwu/gojieba
后者是基于cgo的
sego是Go语言的中文分词器,词典用前缀树实现, 分词器算法为基于词频的最短路径加动态规划。
支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。
分词速度单线程2.7MB/s,goroutines并发13MB/s, 处理器Core i7-3615QM 2.30GHz 8核。
词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划, 以及 DAG 和 HMM 算法分词.
支持 HMM 分词, 使用 viterbi 算法.
支持普通、搜索引擎、全模式、精确模式和 HMM 模式多种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。
分词速度单线程 9.2MB/s,goroutines 并发 26.8MB/s. HMM 模式单线程分词速度 3.2MB/s.( 双核4线程 Macbook Pro)。
https://toutiao.io/posts/1p3ptz/preview
https://gocn.vip/topics/1325
https://studygolang.com/articles/2690
https://tkstorm.com/posts-list/software-engineering/elastic/es-docker/
https://22v.net/article/3231/
ik分词器
https://github.com/medcl/elasticsearch-analysis-ik
https://blog.csdn.net/qq_29323645/article/details/110430587
https://www.codenong.com/cs110430587/