SVM、Softmax 损失函数

如题所述

第1个回答 2022-06-09

损失函数具体形式多种多样，先介绍 SVM 损失函数，SVM 的损失函数想要 SVM 在正确分类上的得分始终比不正确分类上的得分高出一个边界值，定义如下：

yi 代表的是正确类别的标签。举例说明：假设有3个分类，得到score=[13,-7,11]，真实标签是yi=0，所以：

SVM的损失函数想要正确分类类别 yi 的分数比不正确类别分数高，而且至少要高10。如果不满足这点，就开始计算损失值。关于0的阈值：max(0，-)函数，被称为折叶损失（hinge loss）。

如果不使用正则化，那么上面的损失函数就会有问题：假设有一个数据集和一个权重集 W 能够正确地分类每个数据（即所有的边界都满足，对于所有的i都有 Li=0）。问题在于 W 并不唯一：可能有很多相似的W都能正确地分类所有的数据。

例子：如果 W 能够正确分类所有数据，即对于每个数据，损失值都是0。那么当 r > 1 时，任何数乘 rW 都能使得损失值为 0，因为这个变化将所有分值的大小都均等地扩大了，所以它们之间的绝对差值也扩大了。举个例子，如果一个正确分类的分值和举例它最近的错误分类的分值的差距是15，对 W 乘以2将使得差距变成30。但是整体的损失值还是为0，这就导致 W 不唯一。

所以，通过向特定的权重 W 添加一些偏好，对其他的不添加，以此来消除模糊性。方法是向损失函数增加一个 正则化惩罚 ，最常用的正则化惩罚是 L2 范式，L2 范式通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重，L2正则化可以直观理解为它对于大数值的权重向量进行严厉惩罚，倾向于更加分散的权重向量。：

上面的表达式中，将 W 中所有元素平方后求和。注意正则化函数不是数据的函数，仅基于权重。完整的目标函数如下：

将其展开完整公式是：

其中，N 是训练集的数据量，下图是引入正则化带来的良好的性质：

需要注意的是，和权重不同，偏差没有这样的效果，因为它们并不控制输入维度上的影响强度。因此通常只对权重 W 正则化，而不正则化偏差 b。

交叉熵是用来判定实际的输出与期望的输出的接近程度。交叉熵刻画的是实际输出（概率）与期望输出（概率）的距离，也就是交叉熵的值越小，两个概率分布就越接近。假设概率分布 p 为期望输出(标签)，概率分布 q 为实际输出，H(p,q) 为交叉熵。
第一种交叉熵函数的形式为：

下图举例说明：

第二种交叉熵损失函数形式：

这种形式主要是针对于二分类的情况，二分类模型最后通常会通过 Sigmoid 函数输出一个概率值。这里只是将两种情况（标签为0和1的时候）整合在一起。但是这里注意的是，上面公式是通过极大似然估计来推导得出，在机器学习里面，基本上是把极大似然估计跟交叉熵联系在一起的同一概念。下图是极大似然估计推导过程：

再来看一下 softmax 的损失函数：
以多分类来看，交叉熵损失函数为：

对于比较常见的 one-hot 编码来看，yi 只有一个元素值为1，其他的都是0，所以 Softmax 的损失函数求和号去掉，就转换为最开始的形式。

下图有助于区分这 Softmax和SVM这两种分类器：

注意点：

1. 斯坦福CS231n assignment1：softmax损失函数求导
2. CS231n课程笔记翻译：线性分类笔记
3. 深度学习中softmax交叉熵损失函数的理解

相似回答

常见的损失函数答：N是所有样本的数量。图中曲线可以看出，当预测值越接近目标值损失越小，随着误差变差，损失呈现指数增长。真实值现在是一个One-hot向量，Sigmoid换成了Softmax来把输出值压缩到(0, 1)之间，所有维度的输出和为1.Softmax公式：表示K个类别中的一个，k只在对应的类别上是1，其他时候是0。于是上式...

机器学习中几个常见模型的优缺点答：逻辑回归：优点：实现简单，分类时计算量非常小，速度很快，存储资源低。缺点：容易欠拟合，一般准确度不高；只能处理二分类问题（softmax解决多分类），需线性可分。损失函数：KNN：优点：思想简单，理论成熟，既可以用来做分类也可以用来做回归；可用于非线性分类；训练时间复杂度为O(n)；准确度高，对...

计算机视觉——典型的目标检测算法(Fast R-CNN算法)(五)答：该算法将SPP 层简化，设计出单尺度的ROI Pooling 池化层结构；将整张图像的候选区域采样成固定大小，生成特征图后作SVD分解，通过RoI Pooling层得到Softmax的分类得分和BoundingBox 外接矩形框的窗口回归两个向量；用Softmax 代替SVM 提出多任务损失函数思想，将深度网络和SVM分类两个阶段整合，即将分类问题...

机器学习中的目标函数总结答：色彩斑斓的分类世界在分类任务中，目标函数以一致性为目标，如支持向量机（SVM）的结构化风险，它最大化分类间隔，保证了决策的清晰边界。而Logistic回归和Softmax回归则通过输出概率，用最大似然估计的方式让模型更贴近真实分布。无监督学习：自由探索无监督学习则是一场自由的探索，聚类如k...

分类与回归区别是什么?答：在二分类中，它通过设置阈值将输出分为两个类别。进一步，对于多分类问题，通过softmax函数将多个类别赋予概率分布。而回归模型，如线性回归，直接输出连续的数值，比如预测值或距离，以解决连续变量的预测问题。支持向量回归(SVR)与支持向量机(SVM)是回归与分类的转换体。SVR作为回归模型，输出的是样本点到...

svm和softmax 哪个好答：在多分类中，CNN的输出层一般都是Softmax。RBF在接触中如果没有特殊情况应该是“径向基函数”（RadialBasisFunction）。在DNN兴起之前，RBF由于出色的局部近似能力，被广泛应用在SVM的核函数中，当然也有熟悉的RBF神经网络（也就是以RBF函数为激活函数的单隐含层神经网络）。如果说把RBF作为卷积神经网络的...

逻辑斯蒂回归(logistic regression)答：提高了模型的鲁棒性，对分类边缘的敏感度使其在实际问题中表现卓越。五、未完待续：LR与SVM的比较与适用场景尽管逻辑斯蒂回归独树一帜，与支持向量机(SVM)各有千秋。它们的异同和各自的适用场景，以及softmax损失函数和逻辑斯蒂回归的进一步改进，将在后续章节中为您揭示。

大家正在搜

损失函数有哪些复杂损失函数对比损失函数交叉熵损失函数 hinge损失函数损失函数干嘛的中心损失函数多分类损失函数二分类损失函数