Skip to content

lostfish/extract_word

Repository files navigation

Extract words from the corpus without priori knowledge

抽词算法

参考:http://www.matrix67.com/blog/archives/5044

基本思想

利用字片段的内聚程度和自由运用程度来度量字片段是否构成词

内聚程度:字片段内所有不同切分算出的互信息的最小值 (p(ab)/p(a)p(b))

自由运用程度:字片段左邻字和右邻字信息熵的较小值

  • extract_by_scan.cpp 直接扫描语料抽取新词
  • extract_by_suffix.cpp 扫描语料建立后缀数组再抽取新词,可利用lcp剪枝

TODO

模块化重构

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published