当前位置:网站首页>一款优秀的中文识别库——ocr
一款优秀的中文识别库——ocr
2022-08-02 09:48:00 【AI浩】
CnOCR 是 Python 3 下的文字识别(Optical Character Recognition,简称OCR)工具包,支持简体中文、繁体中文(部分模型)、英文和数字的常见字符识别,支持竖排文字的识别。自带了20+个训练好的识别模型,适用于不同应用场景,安装后即可直接使用。同时,CnOCR也提供简单的训练命令供使用者训练自己的模型。欢迎加入 交流群。
github地址:https://github.com/breezedeus/cnocr
安装简单
pip install cnocr
各种场景的调用示例
常见的图片识别
所有参数都使用默认值即可。如果发现效果不够好,多调整下各个参数看效果,最终往往能获得比较理想的精度。
from cnocr import CnOcr
img_fp = './docs/examples/huochepiao.jpeg'
ocr = CnOcr() # 所有参数都使用默认值
out = ocr.ocr(img_fp)
print(out)
排版简单的印刷体截图图片识别
针对 排版简单的印刷体文字图片,如截图图片,扫描件图片等,可使用 det_model_name=‘naive_det’,相当于不使用文本检测模型,而使用简单的规则进行分行。
使用 det_model_name=‘naive_det’ 的最大优势是速度快,劣势是对图片比较挑剔。如何判断是否该使用此检测模型呢?最简单的方式就是拿应用图片试试效果,效果好就用,不好就不用。
from cnocr import CnOcr
img_fp = './docs/examples/multi-line_cn1.png'
ocr = CnOcr(det_model_name='naive_det')
out = ocr.ocr(img_fp)
print(out)
识别结果:
更多详见:
https://cnocr.readthedocs.io/zh/latest/
具体的测试,以后再写,先做个记录。
边栏推荐
- 【云原生】快出数量级的性能是怎样炼成的?就提升了亿点点
- HCIA动态主机配置协议实验(dhcp)
- 瑞萨RZ/G2L处理器详细测评
- leetcode:81. 搜索旋转排序数组 II
- Verilog的随机数系统任务----$random
- 迭代器失效问题
- cococreator dynamically set sprite
- 二维数组零碎知识梳理
- Have you ever learned about these architecture designs and architecture knowledge systems?(Architecture book recommendation)
- R语言时间序列数据算术运算:使用log函数将时间序列数据的数值对数化、使用diff函数计算对数化后的时间序列数据的逐次差分(计算价格的对数差分)
猜你喜欢
随机推荐
读博一年后对机器学习工程的思考
QT专题:事件机制event基础篇
mysql进阶(二十一)删除表数据与数据库四大特性
mysql连接池的实现
每日一题练习1-15
基于列表的排队与叫号系统
小程序云开发(十):渐变与动画
The 17th day of the special assault version of the sword offer
享年94岁,图灵奖得主、计算复杂性理论先驱Juris Hartmanis逝世
Use the scrapy to climb to save data to mysql to prevent repetition
8月份的.NET Conf 活动 专注于 .NET MAUI
智能网络安全网卡|这是不是你要的安全感
Long battery life or safer?Seal and dark blue SL03 comparison shopping guide
用了TCP协议,就一定不会丢包嘛?
Linux system uninstall, install, upgrade, migrate clickHouse database
EdrawMax Crack,多合一的图表应用程序
曲折的tensorflow安装过程(Tensorflow 安装问题的解决)
AutoJs学习-存款计算器
Using the TCP protocol, will there be no packet loss?
The k-nearest neighbor method in the notes of Li Hang's "Statistical Learning Methods"