Skip to content

caihao20/zh_correct_pinyin

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

zh_correct_pinyin

中文纠错-使用拼音树及编辑距离(java版)

主要采用的技术及框架 (1)HanLP: 将汉字转为拼音,后期考虑句法分析,去掉无关成分来进行纠错,以减少匹配时间 (2)BKTree:保存词典,比较高效 (3)Lucene:模糊搜索的功能,结合同义词等(待优化)

关于中文纠错的一些想法 1.将行业专业词典写入txt文件(每行一个词语) (1)汉字比对:将词典加入BKTree,通过编辑距离,并设置阈值,来搜索到最接近的词典------(效果一般) (2)拼音比对:遍历词典,结合HanLP将汉字转为拼音,然后加入BKTree,通过编辑距离,并设置阈值,来搜索到最接近的词典 (效果还不错) (3) 结合Lucene的拼写检查来搜索最接近的词典 (效果还行)

备注: 先判断输入文本长度,小于一定的阈值(5),直接进行Tree树搜索 否则需要先进行分词,按2-gram或3-gram组合进行搜索,后期结合句法成分分析,按名词性短语或者主干成分进行搜索

About

中文纠错-使用拼音树及编辑距离

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages