当前位置:网站首页>Support Vector Machine SVM
Support Vector Machine SVM
2022-08-05 10:57:00 【Ding Jiaxiong】
13. 支持向量机SVM
文章目录
13.1 简介
SVM全称是supported vector machine(支持向量机),即寻找到一个超平面使样本分成两类,并且间隔最大
SVM能够执行线性或非线性分类、回归,甚至是异常值检测任务.它是机器学习领域最受欢迎的模型之一.SVM特别适用于中小型复杂数据集的分类
13.2 硬间隔和软间隔
13.2.1 硬间隔
- 只有在数据是线性可分离的时候才有效
- 对异常值非常敏感
13.2.2 软间隔
- 尽可能在保持最大间隔宽阔和限制间隔违例之间找到良好的平衡
13.3 API
from sklearn import svm
SVM具有良好的鲁棒性,对未知数据拥有很强的泛化能力,特别是在数据量较少的情况下,相较其他传统机器学习算法具有更优的性能
13.3.1 使用SVMas a training model,通常流程
- 对样本数据进行归一化
- The samples are mapped with a kernel function(最常采用和核函数是RBF和Linear,在样本线性可分时,Linear效果要比RBF好)
- 用cross-validation和grid-search对超参数进行优选
- 用最优参数训练得到模型
- 测试
13.3.2 sklearnThere are three methods for support vector classification
SVC
class sklearn.svm.SVC(C=1.0, kernel=‘rbf’, degree=3,coef0=0.0,random_state=None)
- C: 惩罚系数,用来控制损失函数的惩罚系数,类似于线性回归中的正则化系数
- kernel: 算法中采用的核函数类型,核函数是用来将非线性问题转化为线性问题的一种方法
- degree:
当指定kernel为’poly’时,表示选择的多项式的最高次数,默认为三次多项式;
若指定kernel不是’poly’,则忽略,即该参数只对’poly’有用. - coef0: 核函数常数值(y=kx+b中的b值)
NuSVC
class sklearn.svm.NuSVC(nu=0.5)
- nu: 训练误差部分的上限和支持向量部分的下限,取值在(0,1)之间,默认是0.5
LinearSVC
class sklearn.svm.LinearSVC(penalty=‘l2’, loss=‘squared_hinge’, dual=True, C=1.0)
- penalty:正则化参数
- loss:损失函数
- dual:是否转化为对偶问题求解,默认是True
- C:惩罚系数
13.4 算法原理
13.4.1 目标函数
13.4.2 The objective function solution process
对目标函数添加符号,Convert to find the minimum
求得超平面
求得分类决策函数
13.5 损失函数
0/1损失函数
Hinge损失函数
Logistic损失函数
13.6 核方法
核函数
将原始输入空间映射到新的特征空间,从而,使得原本线性不可分的样本可能在核空间可分
常见核函数
13.7 SVM回归
- Let as many instances as possible lie on the prediction line,同时限制间隔违例
- 线距的宽度由超参数ε控制
13.8 案例:数字识别器
13.9 SVM总结
一种二类分类模型
A linear classifier that finds a separation hyperplane that maximizes the margin in the feature space
13.9.1 优点
- 在高维空间中非常高效
- 即使在数据维度比样本数量大的情况下仍然有效
- 在决策函数(称为支持向量)中使用训练集的子集,因此它也是高效利用内存的
- 通用性:不同的核函数与特定的决策函数一一对应
13.9.2 缺点
- 如果特征数量比样本数量大得多,在选择核函数时要避免过拟合
- 对缺失数据敏感
- 对于核函数的高维映射解释力不强
边栏推荐
- What are the standards for electrical engineering
- abc262-D(dp)
- flutter 服务器返回数据判断是否为空
- PCB layout must know: teach you to correctly lay out the circuit board of the op amp
- 智源社区AI周刊No.92:“计算复杂度”理论奠基人Juris Hartmanis逝世;美国AI学生九年涨2倍,大学教师短缺;2022智源大会观点报告发布[附下载]
- The fuse: OAuth 2.0 four authorized login methods must read
- This notebook of concurrent programming knowledge points strongly recommended by Ali will be a breakthrough for you to get an offer from a big factory
- DocuWare平台——文档管理的内容服务和工作流自动化的平台详细介绍(下)
- Go编译原理系列6(类型检查)
- 电气工程的标准是什么
猜你喜欢
Opencv算术操作
反射修改jsessionid实现Session共享
SQL外连接之交集、并集、差集查询
如何选币与确定对应策略研究
The host computer develops C# language: simulates the STC serial port assistant to receive the data sent by the microcontroller
#yyds干货盘点#【愚公系列】2022年08月 Go教学课程 001-Go语言前提简介
今天告诉你界面控件DevExpress WinForms为何弃用经典视觉样式
Common operations of oracle under linux and daily accumulation of knowledge points (functions, timed tasks)
负载均衡应用场景
Android 开发用 Kotlin 编程语言 二 条件控制
随机推荐
012年通过修补_sss_提高扩散模型效率
金融业“限薪令”出台/ 软银出售过半阿里持仓/ DeepMind新实验室成立... 今日更多新鲜事在此...
FPGA: Use of the development environment Vivado
PCB layout must know: teach you to correctly lay out the circuit board of the op amp
HDD杭州站•ArkUI让开发更灵活
RT - Thread record (a, RT, RT Thread version - Thread Studio development environment and cooperate CubeMX quick-and-dirty)
API 网关简述
GPU-CUDA-图形渲染分析
什么是 DevOps?看这一篇就够了!
【综合类型第 35 篇】程序员的七夕浪漫时刻
MMDetection实战:MMDetection训练与测试
The query that the user's test score is greater than the average score of a single subject
导火索:OAuth 2.0四种授权登录方式必读
登录功能和退出功能(瑞吉外卖)
自定义过滤器和拦截器实现ThreadLocal线程封闭
脱光衣服待着就能减肥,当真有这好事?
如何修改管理工具client_encoding
微服务结合领域驱动设计落地
双因子与多因子身份验证有什么区别?
#yyds干货盘点#JS数组和树相互转化