当前位置:网站首页>向量和矩阵的范数
向量和矩阵的范数
2022-07-27 05:13:00 【Mr_health】
1. 基本定义
具体可以参考这篇文章:https://blog.csdn.net/qq_42138662/article/details/109258028
对于我自己的理解,希望强调一下:
向量的范数≠矩阵的范数
2. 类比记忆
| 定义 | 等价于 | 对应的归一化方法 | |
| L0范数:向量中非0元素的个数 | |||
L1范数:向量元素绝对值之和![]() | 向量到原点的曼哈顿距离 | L1损失函数:
多了求平均 | |
L2范数:向量元素平方和再开方![]() | 向量到原点的欧氏距离 | L2范数归一化 | L2损失函数:
少了开方 多了求平均 |
2. pytorch实现L1范数和L2范数
img1 = torch.randn((4,3,16,16))
img2 = torch.randn((4,3,16,16))
#L1 范数是tensor的所有元素的绝对值之和,可以理解为tensor到0的曼哈顿距离
img1_L1 = torch.norm(img1,p = 1) #求img1的L1范数,即img1所有元素的绝对值之和
img1_L1_my = torch.abs(img1).sum()
print(img1_L1.equal(img1_L1_my)) #返回False 略微有一点不一样
print(img1_L1 - img1_L1_my)
#L1 范数是tensor的所有元素的平方之和开根号,其实可以理解为tensor到0的欧氏距离
img2_L2 = torch.norm(img2,p = 2) #求img2的L2范数,即img2所有元素平方和开根号
img2_L2_my = torch.sqrt(img2.pow(2).sum())
print(img2_L2.equal(img2_L2_my)) #返回False 略微有一点不一样
print(img2_L2 - img2_L2_my) #相差非常小 小数点五位
3. L2范数归一化
- 定义
L2范数归一化处理操作是对向量X的每个维度数据x1, x2, …, xn都除以||x||2得到一个新向量,即:

- 为什么要进行L2范数归一化?(优势)
L2范数有一大优势:经过L2范数归一化后,一组向量的欧式距离和它们的余弦相似度可以等价
一个向量X经过L2范数归一化得到向量X2,同时另一个向量Y经过L2范数归一化得到向量Y2。此时X2和Y2的欧式距离和余弦相似度是等价的。具体具体的证明见博客L2范数归一化概念和优势
也就是说,我们对向量进行L2范数归一化,在求取它们之间的欧氏距离,就相当于求取他们之间的相似度了。因此对它们的欧氏距离进行优化(作为loss),就相当于优化它们的相似度,让它们更相近。具体的应用在蒸馏的论文中:Paying More Attention to Attention: Improving the Performance of Convolutional Neural Netkworks wia Attention Transfer
在论文中,学生模型和老师模型features maps间的loss为:
其中Qs为学生的feature maps,Qt为老师的feature maps。首先对Qs和Qt均进行L2范数归一化,得到
和
。之后令p=2,即是求经过归一化的Qs和Qt之间的欧氏距离,相当于求Qs和Qt的相似度。通过优化这个loss,等价于让学生的特征图更接近于老师的特征图,进而完成蒸馏。
边栏推荐
- Performance optimization of common ADB commands
- MySQL索引优化相关原理
- 常用adb命令汇总 性能优化
- Day 11. Evidence for a mental health crisis in graduate education
- Web2.0 giants have deployed VC, and tiger Dao VC may become a shortcut to Web3
- Rk3288 board HDMI displays logo images of uboot and kernel
- Day 15. Deep learning radiomics can predict axillary lymphnode status in early-stage breast cancer
- MySQL快速比较数据库表数据
- 13.逻辑回归
- golang怎么给空结构体赋值
猜你喜欢

我想不通,MySQL 为什么使用 B+ 树来作索引?

Minio8.x version setting policy bucket policy

14.实例-多分类问题

15.GPU加速、minist测试实战和visdom可视化

Digital image processing Chapter 2 fundamentals of digital image

Inno setup package jar + H5 + MySQL + redis into exe

16.过拟合欠拟合

17.动量与学习率的衰减

Read and understand the advantages of the LAAS scheme of elephant swap

Day 6.重大医疗伤害事件网络舆情能量传播过程分析*———以“魏则西事件”为例
随机推荐
3.分类问题---手写数字识别初体验
GBASE 8C——SQL参考6 sql语法(5)
GBASE 8C——SQL参考6 sql语法(13)
10.梯度、激活函数和loss
19.上下采样与BatchNorm
【好文种草】根域名的知识 - 阮一峰的网络日志
难道Redis真的变慢了吗?
leetcode系列(一):买卖股票
Brief analysis of application process creation process of activity
Day 17.The role of news sentiment in oil futures returns and volatility forecasting
数字图像处理 第八章——图像压缩
Day 6. Analysis of the energy transmission process of network public opinion in major medical injury events * -- Taking the "Wei Zexi incident" as an example
4. Tensor data type and creation tensor
Rk3399 GPIO port how to find which GPIO port it is
Day14. Using interpretable machine learning method to distinguish intestinal tuberculosis and Crohn's disease
GBase 8c产品简介
Gbase 8C - SQL reference 6 SQL syntax (7)
go通过channel获取goroutine的处理结果
Digital image processing Chapter 2 fundamentals of digital image
2. Simple regression problem



