当前位置:网站首页>自然语言处理-错字识别(基于Python)kenlm、pycorrector
自然语言处理-错字识别(基于Python)kenlm、pycorrector
2020-11-06 01:21:00 【IT界的小小小学生】
转载请注明出处:https://blog.csdn.net/HHTNAN
n元分词法参见:https://blog.csdn.net/HHTNAN/article/details/62046652
关于kenlm统计语言模型:https://blog.csdn.net/HHTNAN/article/details/84231733
中文文本纠错划分
中文文本纠错任务,常见错误类型包括:
- 谐音字词,如 配副眼睛-配副眼镜
- 混淆音字词,如 流浪织女-牛郎织女
- 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪
- 字词补全,如爱有天意-假如爱有天意
- 形似字错误,如 高梁-高粱
- 中文拼音全拼,如 xingfu-幸福
- 中文拼音缩写,如 sz-深圳
- 语法错误,如想象难以-难以想象
当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中’形似字错误’主要针对五笔或者笔画手写输入等。
简单总结了一下中文别字错误类型:
-
别字: 感帽,随然,传然,呕土
-
人名,地名错误:哈蜜(正:哈密)
-
拼音错误:咳数(ke shu)—> ke sou,
-
知识性错误:广州黄浦(埔)
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/84103070
边栏推荐
猜你喜欢

嘘!异步事件这样用真的好么?

(1) ASP.NET Introduction to core3.1 Ocelot

数据产品不就是报表吗?大错特错!这分类里有大学问

Kitty中的动态线程池支持Nacos,Apollo多配置中心了

Didi elasticsearch cluster cross version upgrade and platform reconfiguration

How to demote a domain controller in Windows Server 2012 and later

通过深层神经网络生成音乐

读取、创建和运行多个文件的3个Python技巧

Probabilistic linear regression with uncertain weights

Cos start source code and creator
随机推荐
制造和新的自动化技术是什么?
Elasticsearch 第六篇:聚合統計查詢
【新閣教育】窮學上位機系列——搭建STEP7模擬環境
解決pl/sql developer中資料庫插入資料亂碼問題
2018个人年度工作总结与2019工作计划(互联网)
事半功倍:在没有机柜的情况下实现自动化
Computer TCP / IP interview 10 even asked, how many can you withstand?
Jmeter——ForEach Controller&Loop Controller
Azure Data Factory(三)整合 Azure Devops 實現CI/CD
c++学习之路:从入门到精通
python 下载模块加速实现记录
Want to do read-write separation, give you some small experience
GDB除錯基礎使用方法
Pattern matching: The gestalt approach一种序列的文本相似度方法
微信小程序:防止多次点击跳转(函数节流)
【C/C++ 1】Clion配置与运行C语言
PLC模拟量输入和数字量输入是什么
如何在Windows Server 2012及更高版本中將域控制器降級
网络安全工程师演示:原来***是这样获取你的计算机管理员权限的!【维持】
【效能優化】納尼?記憶體又溢位了?!是時候總結一波了!!