当前位置:网站首页>动手学深度学习_softmax回归

动手学深度学习_softmax回归

2022-08-04 05:29:00 CV小Rookie

目录

分类问题

softmax运算

交叉熵损失

pytorch实现​​​​​​​

分类问题

        前面一节讲了线性回归,线性回归更多地使用在预测多少的问题。在实际问题中,我们还对“哪一个”感兴趣,也就是分类问题。

        分类问题与回归问题最大的不同就是,回归最后的输出是一个值,但是分类问题输出的是一系列关于类别的置信度。

        我们从一个图像分类问题开始。 假设每次输入是一个2×2的灰度图像。 我们可以用一个标量表示每个像素值,每个图像对应四个特征x1,x2,x3,x4。 此外,假设每个图像属于类别“猫”,“鸡”和“狗”中的一个。

        接下来,我们要选择如何表示标签。 我们有两个明显的选择:最直接的想法是选择y∈{1,2,3}, 其中整数分别代表{狗,猫,鸡}。 这是在计算机上存储此类信息的有效方法。 如果类别间有一些自然顺序, 比如说我们试图预{婴儿,儿童,青少年,青年人,中年人,老年人}, 那么将这个问题转变为回归问题,并且保留这种格式是有意义的。

        但是一般的分类问题并不与类别之间的自然顺序有关。 幸运的是,统计学家很早以前就发明了一种表示分类数据的简单方法:独热编码(one-hot encoding)。 独热编码是一个向量,它的分量和类别一样多。 类别对应的分量设置为1,其他所有分量设置为0。 在我们的例子中,标签y将是一个三维向量, 其中(1,0,0)对应于“猫”、(0,1,0)对应于“鸡”、(0,0,1)对应于“狗”:

y \in \left \{ \left ( 1,0,0 \right ),\left ( 0,1,0 \right ),\left ( 0,0,1 \right )\right \}

        为了估计所有可能类别的条件概率,我们需要一个有多个输出的模型,每个类别对应一个输出。         为了解决线性模型的分类问题,我们需要和输出一样多的仿射函数(affine function)。 每个输出对应于它自己的仿射函数。 在我们的例子中,由于我们有4个特征和3个可能的输出类别, 我们将需要12个标量来表示权重(带下标的w), 3个标量来表示偏置(带下标的b)。 下面我们为每个输入计算三个未规范化的预测(logit):o1、o2和o3。

         与线性回归一样,softmax回归也是一个单层神经网络。 由于计算每个输出o1、o2和o3取决于 所有输入x1、x2、x3和x4, 所以softmax回归的输出层也是全连接层。

向量形式表达:o = Wx+b,这里的W区别于线性回归的 w,在这里是一个矩阵。

softmax运算

        首先给出softmax的公式: \hat{y} = softmax(o), \ \ \hat{y_{j}}=\frac{exp(o_{j})}{\sum_{k}exp(o_{k})}

        其实根据公式就可以看出,softmax先是利用指数函数先把输出变为非负,再通过除以总和确保最后的输出总和为1。

        尽管softmax是一个非线性函数,但softmax回归的输出仍然由输入特征的仿射变换决定。 因此,softmax回归是一个线性模型(linear model)。

交叉熵损失

交叉熵常用来衡量两个概率的区别: H(p,q) = \sum_{i} - p_{i}log(q{i}) .

对于所有的样本来说我们有 \hat y,\ y ,那么损失函数就是: \l (y,\hat y) =-\sum_{j=1}^{q}y_{j}log(\hat y_{j}) 。对于这个公式,我们把它称为交叉熵损失(cross-entropy loss)。

pytorch实现

# 作者 :CV小Rookie
# 创建时间: 2022/7/29 20:13
# 文件名: softmax_easy.py
import torch
from torch import nn
from d2l import torch as d2l


batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);

loss = nn.CrossEntropyLoss(reduction='none')

trainer = torch.optim.SGD(net.parameters(), lr=0.1)

num_epochs = 10

d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)
d2l.plt.show()
原网站

版权声明
本文为[CV小Rookie]所创,转载请带上原文链接,感谢
https://blog.csdn.net/like_jmo/article/details/126064079