当前位置:网站首页>机器学习术语
机器学习术语
2022-07-03 00:46:00 【The code family】
1) 模型
模型这一词语将会贯穿整个教程的始末,它是机器学习中的核心概念。你可以把它看做一个“魔法盒”,你向它许愿(输入数据),它就会帮你实现愿望(输出预测结果)。整个机器学习的过程都将围绕模型展开,训练出一个最优质的“魔法盒”,它可以尽量精准的实现你许的“愿望”,这就是机器学习的目标。
2) 数据集
数据集,从字面意思很容易理解,它表示一个承载数据的集合,如果说“模型”是“魔法盒”的话,那么数据集就是负责给它充能的“能量电池”,简单地说,如果缺少了数据集,那么模型就没有存在的意义了。数据集可划分为“训练集”和“测试集”,它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要的作用。
3) 样本&特征
样本指的是数据集中的数据,一条数据被称为“一个样本”,通常情况下,样本会包含多个特征值用来描述数据,比如现在有一组描述人形态的数据“180 70 25”如果单看数据你会非常茫然,但是用“特征”描述后就会变得容易理解,如下所示:
| 身高(cm) | 体重(kg) | 年龄 |
| 180 | 70 | 25 |
图1:样本&特征
由上图可知数据集的构成是“一行一样本,一列一特征”。特征值也可以理解为数据的相关性,每一列的数据都与这一列的特征值相关。
4) 向量
任何一门算法都会涉及到许多数学上的术语或者公式。在本教程写作的过程中也会涉及到很多数学公式,以及专业的术语,在这里我们先对常用的基本术语做一下简单讲解。
第一个常用术语就是“向量”,向量是机器学习的关键术语。向量在线性代数中有着严格的定义。向量也称欧几里得向量、几何向量、矢量,指具有大小和方向的量。您可以形象地把它的理解为带箭头的线段。箭头所指:代表向量的方向;线段长度:代表向量的大小。与向量对应的量叫做数量(物理学中称标量),数量只有大小,没有方向。数据集中的每一个样本都是一条具有向量形式的数据。
5) 矩阵
矩阵也是一个常用的数学术语,你可以把矩阵看成由向量组成的二维数组,数据集就是以二维矩阵的形式存储数据的,你可以把它形象的理解为电子表格“一行一样本,一列一特征”表现形式如下:

边栏推荐
- 1038 Recover the Smallest Number
- Vulkan practice first bullet
- 2022.2.14 resumption
- leetcode-934:最短的桥
- excel表格计算时间日期的差值,并转化为分钟数
- Initial order of pointer (basic)
- Illustrated network: what is virtual router redundancy protocol VRRP?
- Arduino开发之按键检测与正弦信号输出
- [love crash] neglected details of gibaro
- Machine learning: numpy version linear regression predicts Boston house prices
猜你喜欢
![[case sharing] let the development of education in the new era advance with](/img/11/af88d16dc66f00840cbfc5ba5d68bd.jpg)
[case sharing] let the development of education in the new era advance with "number"

Leetcode-849: maximum distance to the nearest person

Embrace the safety concept of platform delivery

【AutoSAR 二 AppL概述】

Win10 can't be installed in many ways Problems with NET3.5

Assets, vulnerabilities, threats and events of the four elements of safe operation

Infrared thermography temperature detection system based on arm rk3568

世平信息首席科学家吕喆:构建以数据和人员为中心的安全能力

ROS2之ESP32简单速度消息测试(极限频率)

Sentry developer contribution Guide - configure pycharm
随机推荐
Specified interval inversion in the linked list
Leetcode-1964: find the longest effective obstacle race route to each position
[AUTOSAR XIII NVM]
Data analysis, thinking, law breaking and professional knowledge -- analysis method (I)
深度剖析数据在内存中的存储
Matlab saves the digital matrix as geospatial data, and the display subscript index must be of positive integer type or logical type. Solve the problem
[introduction to AUTOSAR seven tool chain]
Assets, vulnerabilities, threats and events of the four elements of safe operation
465. 最优账单平衡 DFS 回溯
KingbaseES ALTER TABLE 中 USING 子句的用法
[shutter] image component (cached_network_image network image caching plug-in)
【案例分享】让新时代教育发展与“数”俱进
Delete duplicate elements in the ordered linked list -ii
Inversion de l'intervalle spécifié dans la liste des liens
[AUTOSAR VI description document]
【C语言】分支和循环语句(上)
【AutoSAR 四 BSW概述】
Explain the basic concepts and five attributes of RDD in detail
Test shift right: Elk practice of online quality monitoring
First hand evaluation of Reza electronics rz/g2l development board