当前位置:网站首页>《深度学习》-学习笔记-1-机器学习基础
《深度学习》-学习笔记-1-机器学习基础
2022-08-03 13:27:00 【51CTO】
AI维恩图
下图展示AI、机器学习、表示学习、深度学习四者关系:
AI流程图
下图展示不同AI系统的流程图:
机器学习基础概述
深度学习是机器学习的一个特定分支,因此我们需要对机器学习的基本原理要有深刻的理解。
机器学习算法是一种能够从数据中学习的算法,这里所谓的“学习”定义:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。“
基本概念
任务
从“任务”的相对正式的定义上说,学习过程本身不算是任务。学习是我们所谓的获取完成任务的能力。通常机器学习任务定义为机器学习系统应如何处理样本(example)。样本是指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合。
机器学习可以解决很多类型的任务,主要分为以下几大类:
分类:图片分类。
输入缺失分类:医疗诊断。
回归:预测投保人的索赔金额(用于设置保险费),或者预测证券未来的价格。
转录:根据文本图片返回文字序列。
机器翻译:英语翻译成中文。
异常检测:检测信用卡是有被盗用。
结构化输出:为图片添加标题。
合成和采样:语音合成。
缺失值填补:根据样本对某些元素进行缺失值填补。
去噪:根据损坏后的样本预测干净的样本。
密度估计或概率质量函数估计:通过密度估计得到了概率分布,可以用该分布解决缺失值填补任务。
性能度量
为了评估机器学习算法的能力,必须设计其性能的定量度量。
准确率:是指模型输出正确结果的样本比率。
错误率:是指模型输出错误结果的样本比率。
算法分类
机器学习算法可以大致分为以下两大类:
- 无监督学习算法:训练含有很多特征的数据集,然后学习出这个数据集上有用的结构性质。
- 监督学习算法:训练还有很多特征的数据集,不过数据集中的样本都有一个标签和目标。
算法效果表现
泛化:在先前未观测到的输入上表现的能力被称为泛化。
以下是决定机器学习算法效果是否好的因素:
- 降低训练误差。
- 缩小训练误差和测试误差的差距。
这两个因素对应机器学习的两个主要挑战:欠拟合和过拟合。
欠拟合是指模型不能在训练集上获得足够低的误差,而过拟合是指训练误差和测试误差之间的差距太大。
通过调整模型的容量,可以控制模型是否偏向于过拟合或者欠拟合。
模型的容量是指其拟合各种函数的能力,容量低的模型可能很难拟合训练集,容量高的模型可能会过拟合,因为记住了不适用于测试集的训练集性质。
模型的表示容量:模型规定了调整参数降低训练目标时,学习算法可以从哪些函数族中选择函数,这被称为模型的表示容量。
正则化:正则化是指修改学习算法,使其降低泛化误差而非训练误差。
超参数
超参数是在开始学习过程之前设置值的参数。 相反,其他参数的值通过训练得出。超参数:
- 定义关于模型的更高层次的概念,如复杂性或学习能力。
- 不能直接从标准模型培训过程中的数据中学习,需要预先定义。
- 可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定
只要自己有时间,都尽量写写文章,与大家交流分享。
本人公众号:
个人博客地址: http://www.ispeasant.com/
边栏推荐
- Comics: how do you prove that sleep does not release the lock, and wait to release lock?
- 飞桨开源社区季度报告来啦,你想知道的都在这里
- 【深度学习中的激活函数的整理与使用总结】
- leetcode 11. The container that holds the most water
- Golang arrays and slices
- Classes and Objects (lower middle)
- 8/2 训练日志(dp+思维+字典树)
- BOM系列之sessionStorage
- 易观分析:2022年Q2中国网络零售B2C市场交易规模达23444.7亿元
- Nanoprobes FluoroNanogold 偶联物的特色和应用
猜你喜欢
客户:我们系统太多,能不能实现多账号互通?
PyTorch builds a classification network model (Mnist dataset, fully connected neural network)
HCIP第十五天笔记(企业网的三层架构、VLAN以及VLAN 的配置)
sessionStorage of BOM series
PyTorch framework to train linear regression model (CPU and GPU environment)
将移位距离和假设外推到非二值化问题
An introduction to the pen tool, pencil tool and brush tool
An introduction to the width tool, deformation tool and lasso tool
TiFlash 计算层概览
厨卫电器行业数字化集采管理系统:优化产业供应结构,实现采购业务流程集中管控
随机推荐
An animation optimization of shape tween and optimization of traditional tweening
d作者:d的新特性
使用百度EasyDL实现施工人员安全装备检测
Golang 数组和切片
OpenHarmony高校技术俱乐部计划发布
Golang sync.WaitGroup
回流和重绘
不卷不pua,早9晚6,这个招聘深得我心
Nanoprobes 金纳米颗粒标记试剂丨1.4 nm Nanogold 标记试剂
投资75亿卢比!印度宣布建首座存储芯片组装和封测工厂,将于12月量产
Nanoprobes FluoroNanogold 偶联物的特色和应用
Golang 字符串
[Deep Learning] Overview of Efficient and Lightweight Semantic Segmentation
Hanyuan Hi-Tech G8032 standard ERPS ring network switch Gigabit 4 optical 10 electrical industrial Ethernet switch ring network + WEB management + SNMP VLAN planning
d写二进制
JS get browser type
滑动窗口的最大值
PyTorch builds a neural network to predict temperature (dataset comparison, CPU vs GPU comparison)
软件测试考证:ISTQB、软件评测师
超大规模的产业实用语义分割数据集PSSL与预训练模型开源啦!