当前位置:网站首页>《深度学习》-学习笔记-1-机器学习基础
《深度学习》-学习笔记-1-机器学习基础
2022-08-03 13:27:00 【51CTO】
AI维恩图
下图展示AI、机器学习、表示学习、深度学习四者关系:
AI流程图
下图展示不同AI系统的流程图:
机器学习基础概述
深度学习是机器学习的一个特定分支,因此我们需要对机器学习的基本原理要有深刻的理解。
机器学习算法是一种能够从数据中学习的算法,这里所谓的“学习”定义:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。“
基本概念
任务
从“任务”的相对正式的定义上说,学习过程本身不算是任务。学习是我们所谓的获取完成任务的能力。通常机器学习任务定义为机器学习系统应如何处理样本(example)。样本是指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合。
机器学习可以解决很多类型的任务,主要分为以下几大类:
分类:图片分类。
输入缺失分类:医疗诊断。
回归:预测投保人的索赔金额(用于设置保险费),或者预测证券未来的价格。
转录:根据文本图片返回文字序列。
机器翻译:英语翻译成中文。
异常检测:检测信用卡是有被盗用。
结构化输出:为图片添加标题。
合成和采样:语音合成。
缺失值填补:根据样本对某些元素进行缺失值填补。
去噪:根据损坏后的样本预测干净的样本。
密度估计或概率质量函数估计:通过密度估计得到了概率分布,可以用该分布解决缺失值填补任务。
性能度量
为了评估机器学习算法的能力,必须设计其性能的定量度量。
准确率:是指模型输出正确结果的样本比率。
错误率:是指模型输出错误结果的样本比率。
算法分类
机器学习算法可以大致分为以下两大类:
- 无监督学习算法:训练含有很多特征的数据集,然后学习出这个数据集上有用的结构性质。
- 监督学习算法:训练还有很多特征的数据集,不过数据集中的样本都有一个标签和目标。
算法效果表现
泛化:在先前未观测到的输入上表现的能力被称为泛化。
以下是决定机器学习算法效果是否好的因素:
- 降低训练误差。
- 缩小训练误差和测试误差的差距。
这两个因素对应机器学习的两个主要挑战:欠拟合和过拟合。
欠拟合是指模型不能在训练集上获得足够低的误差,而过拟合是指训练误差和测试误差之间的差距太大。
通过调整模型的容量,可以控制模型是否偏向于过拟合或者欠拟合。
模型的容量是指其拟合各种函数的能力,容量低的模型可能很难拟合训练集,容量高的模型可能会过拟合,因为记住了不适用于测试集的训练集性质。
模型的表示容量:模型规定了调整参数降低训练目标时,学习算法可以从哪些函数族中选择函数,这被称为模型的表示容量。
正则化:正则化是指修改学习算法,使其降低泛化误差而非训练误差。
超参数
超参数是在开始学习过程之前设置值的参数。 相反,其他参数的值通过训练得出。超参数:
- 定义关于模型的更高层次的概念,如复杂性或学习能力。
- 不能直接从标准模型培训过程中的数据中学习,需要预先定义。
- 可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定
只要自己有时间,都尽量写写文章,与大家交流分享。
本人公众号:
个人博客地址: http://www.ispeasant.com/
边栏推荐
猜你喜欢
sessionStorage of BOM series
[Microservice] Multi-level cache
PyTorch framework to train linear regression model (CPU and GPU environment)
第07章 InnoDB数据存储结构【2.索引及调优篇】【MySQL高级】
The components of the basis of An animation movie clip animation between traditional filling
细胞图像数据的主动学习
Graphic animation and button animation of an animation basic component
MySQL知识总结 (十二) 数据库相关概念
OpenHarmony高校技术俱乐部计划发布
工具模板 | 用APOEM方法消除对用户行为的偏见
随机推荐
如何合理安排一天,做到高效备考?
4年工作经验,多线程间的5种通信方式都说不出来,你信吗?
不卷不pua,早9晚6,这个招聘深得我心
Heaps
细胞图像数据的主动学习
ITSM软件与工单系统的区别是什么?
HCIP 第十六天笔记(SVI、生成树协议)
技术分享 | 接口自动化测试如何搞定 json 响应断言?
An introduction to the width tool, deformation tool and lasso tool
华云数据张华林:投身数字蓝海 绘就云上强国
Nanoprobes FluoroNanogold 偶联物的特色和应用
硬件业务收入下滑,为了赚钱,苹果暧昧对待流氓软件和增加广告了
中国手机品牌争论谁是国内第一,而它已成为中国手机在海外的代表
svn安装包和客户端
Classes and Objects (lower middle)
工具模板 | 用APOEM方法消除对用户行为的偏见
Tinymce plugins [Tinymce扩展插件集合]
保健用品行业B2B电子商务系统:供采交易全链路数字化,助推企业管理精细化
ECCV 2022 | AirDet: 无需微调的小样本目标检测方法
js单线程及事件循环、宏任务和微任务