Extract words from the corpus without priori knowledge

抽词算法

利用字片段的内聚程度和自由运用程度来度量字片段是否构成词

内聚程度:字片段内所有不同切分算出的互信息的最小值 (p(ab)/p(a)p(b))

自由运用程度:字片段左邻字和右邻字信息熵的较小值

模块化重构

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
1.txt		1.txt
LICENSE		LICENSE
README.md		README.md
calculate.hpp		calculate.hpp
convert.hpp		convert.hpp
extract_by_other.cpp		extract_by_other.cpp
extract_by_scan.cpp		extract_by_scan.cpp
extract_by_suffix.cpp		extract_by_suffix.cpp
run.sh		run.sh
suffix.hpp		suffix.hpp
test_suffix.cpp		test_suffix.cpp
vectorize.py		vectorize.py