当前位置：网站首页>自然语言处理-错字识别（基于Python）kenlm、pycorrector

自然语言处理-错字识别（基于Python）kenlm、pycorrector

2020-11-06 01:21:00 【IT界的小小小学生】

转载请注明出处：https://blog.csdn.net/HHTNAN
n元分词法参见：https://blog.csdn.net/HHTNAN/article/details/62046652
关于kenlm统计语言模型：https://blog.csdn.net/HHTNAN/article/details/84231733

中文文本纠错划分

中文文本纠错任务，常见错误类型包括：

谐音字词，如配副眼睛-配副眼镜
混淆音字词，如流浪织女-牛郎织女
字词顺序颠倒，如伍迪艾伦-艾伦伍迪
字词补全，如爱有天意-假如爱有天意
形似字错误，如高梁-高粱
中文拼音全拼，如 xingfu-幸福
中文拼音缩写，如 sz-深圳
语法错误，如想象难以-难以想象

当然，针对不同业务场景，这些问题并不一定全部存在，比如输入法中需要处理前四种，搜索引擎需要处理所有类型，语音识别后文本纠错只需要处理前两种，其中’形似字错误’主要针对五笔或者笔画手写输入等。

简单总结了一下中文别字错误类型：

别字：感帽，随然，传然，呕土
人名，地名错误：哈蜜（正：哈密）
拼音错误：咳数（ke shu）—> ke sou,
知识性错误：广州黄浦（埔）

版权声明
本文为[IT界的小小小学生]所创，转载请带上原文链接，感谢
https://vip01.blog.csdn.net/article/details/84103070

当前位置：网站首页>自然语言处理-错字识别（基于Python）kenlm、pycorrector

自然语言处理-错字识别（基于Python）kenlm、pycorrector

中文文本纠错划分

简单总结了一下中文别字错误类型：

边栏推荐

猜你喜欢

随机推荐