当前位置：网站首页>向量和矩阵的范数

向量和矩阵的范数

2022-07-27 05:13:00 【Mr_health】

1. 基本定义

具体可以参考这篇文章：https://blog.csdn.net/qq_42138662/article/details/109258028

对于我自己的理解，希望强调一下：
向量的范数≠矩阵的范数

2. 类比记忆

定义	等价于	对应的归一化方法
L0范数：向量中非0元素的个数
L1范数：向量元素绝对值之和	向量到原点的曼哈顿距离		L1损失函数： $\frac{\sum\| pred-target\|}{n}$ 多了求平均
L2范数：向量元素平方和再开方	向量到原点的欧氏距离	L2范数归一化	L2损失函数： $\frac{\sum\| pred-target\|{^{2}}}{n}$ 少了开方多了求平均

2. pytorch实现L1范数和L2范数

img1 = torch.randn((4,3,16,16))
img2 = torch.randn((4,3,16,16))


#L1 范数是tensor的所有元素的绝对值之和,可以理解为tensor到0的曼哈顿距离
img1_L1 = torch.norm(img1,p = 1) #求img1的L1范数,即img1所有元素的绝对值之和
img1_L1_my = torch.abs(img1).sum()
print(img1_L1.equal(img1_L1_my))  #返回False 略微有一点不一样
print(img1_L1 - img1_L1_my)


#L1 范数是tensor的所有元素的平方之和开根号,其实可以理解为tensor到0的欧氏距离
img2_L2 = torch.norm(img2,p = 2) #求img2的L2范数,即img2所有元素平方和开根号
img2_L2_my = torch.sqrt(img2.pow(2).sum())
print(img2_L2.equal(img2_L2_my))  #返回False 略微有一点不一样
print(img2_L2 - img2_L2_my) #相差非常小 小数点五位

3. L2范数归一化

定义

L2范数归一化处理操作是对向量X的每个维度数据x1, x2, …, xn都除以||x||2得到一个新向量，即：

为什么要进行L2范数归一化？（优势）

L2范数有一大优势：经过L2范数归一化后，一组向量的欧式距离和它们的余弦相似度可以等价

一个向量X经过L2范数归一化得到向量X2，同时另一个向量Y经过L2范数归一化得到向量Y2。此时X2和Y2的欧式距离和余弦相似度是等价的。具体具体的证明见博客L2范数归一化概念和优势

也就是说，我们对向量进行L2范数归一化，在求取它们之间的欧氏距离，就相当于求取他们之间的相似度了。因此对它们的欧氏距离进行优化（作为loss），就相当于优化它们的相似度，让它们更相近。具体的应用在蒸馏的论文中：Paying More Attention to Attention: Improving the Performance of Convolutional Neural Netkworks wia Attention Transfer

在论文中，学生模型和老师模型features maps间的loss为：