当前位置:网站首页>自然语言处理-错字识别(基于Python)kenlm、pycorrector
自然语言处理-错字识别(基于Python)kenlm、pycorrector
2020-11-06 01:21:00 【IT界的小小小学生】
转载请注明出处:https://blog.csdn.net/HHTNAN
n元分词法参见:https://blog.csdn.net/HHTNAN/article/details/62046652
关于kenlm统计语言模型:https://blog.csdn.net/HHTNAN/article/details/84231733
中文文本纠错划分
中文文本纠错任务,常见错误类型包括:
- 谐音字词,如 配副眼睛-配副眼镜
- 混淆音字词,如 流浪织女-牛郎织女
- 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪
- 字词补全,如爱有天意-假如爱有天意
- 形似字错误,如 高梁-高粱
- 中文拼音全拼,如 xingfu-幸福
- 中文拼音缩写,如 sz-深圳
- 语法错误,如想象难以-难以想象
当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中’形似字错误’主要针对五笔或者笔画手写输入等。
简单总结了一下中文别字错误类型:
-
别字: 感帽,随然,传然,呕土
-
人名,地名错误:哈蜜(正:哈密)
-
拼音错误:咳数(ke shu)—> ke sou,
-
知识性错误:广州黄浦(埔)
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/84103070
边栏推荐
- 給萌新HTML5 入門指南(二)
- Want to do read-write separation, give you some small experience
- WeihanLi.Npoi 1.11.0/1.12.0 Release Notes
- 接口压力测试:Siege压测安装、使用和说明
- 基於MVC的RESTFul風格API實戰
- python 保存list数据
- Cos start source code and creator
- 直播预告 | 微服务架构学习系列直播第三期
- Top 10 best big data analysis tools in 2020
- GBDT与xgb区别,以及梯度下降法和牛顿法的数学推导
猜你喜欢
随机推荐
iptables基礎原理和使用簡介
Asp.Net Core學習筆記:入門篇
Dapr實現分散式有狀態服務的細節
從小公司進入大廠,我都做對了哪些事?
接口压力测试:Siege压测安装、使用和说明
How do the general bottom buried points do?
Electron应用使用electron-builder配合electron-updater实现自动更新
nlp模型-bert从入门到精通(二)
3分钟读懂Wi-Fi 6于Wi-Fi 5的优势
Flink on paasta: yelp's new stream processing platform running on kubernetes
容联完成1.25亿美元F轮融资
Menu permission control configuration of hub plug-in for azure Devops extension
前端模組化簡單總結
tensorflow之tf.tile\tf.slice等函数的基本用法解读
制造和新的自动化技术是什么?
DeepWalk模型的简介与优缺点
如何在Windows Server 2012及更高版本中將域控制器降級
小白量化投资交易入门课(python入门金融分析)
Analysis of ThreadLocal principle
6.8 multipartresolver file upload parser (in-depth analysis of SSM and project practice)