深度学习中分类和回归常见损失函数归纳小结
1.引言在深度学习领域中,损失函数定义了模型的预测与目标值之间的距离。因此我们必须正确地选择它,只有这样所有的参数才会根据其值进行更新。损失函数的选择取决于模型的设计。在这篇文章中,我们主要讨论两种常见的的任务,即回归和分类。2.回归损失这里我们首先从损失函数的计算公式以及其背后的数学知识开始讲起。接着,我们提供一些可视化的例子,来将理论知识变得更清晰,方便我们对其有更深入的理解。2.1 MSE
1.引言
在深度学习领域中,损失函数定义了模型的预测与目标值之间的距离。因此我们必须正确地选择它,只有这样所有的参数才会根据其值进行更新。损失函数的选择取决于模型的设计。
在这篇文章中,我们主要讨论两种常见的的任务,即回归和分类。
2.回归损失
这里我们首先从损失函数的计算公式以及其背后的数学知识开始讲起。接着,我们提供一些可视化的例子,来将理论知识变得更清晰,方便我们对其有更深入的理解。
2.1 MSE Loss
Mean Square Error (MSE) 是回归任务中最通用的损失函数,MSE是目标值与预测值之间差值平方和的均值,MSE的公式定义如下:
优点:
- 易导
- 存在解析解
- 预测值越接近真值梯度越小
缺点:
- 对异常值不鲁棒
正如我们所了解到的一样,MSE 总体上对预测错误的情形进行了严厉的惩罚,但这是一把双刃剑,假如我们训练数据中存在较大的异常值,此时我们将会有一个巨大的权重更新,这有可能会使模型失去平衡。
MSE简单的可导性使它成为一种非常流行的损失函数,我们可以在一些回归问题中找到它。
2.2 MAE Loss
Mean Absolute Error (MAE) 是目标值与预测值差的绝对值之和的均值。MAE的公式定义如下:
优点:
- 对异常值鲁棒
缺点:
- 无解析解
- 所有预测错误的梯度幅度值相同
MAE 是目标和预测值之间差异的绝对值。这个函数的主要问题是它实际上没有解析解。
如上述公式所示,对于预测错误时,反传的梯度值为 1 或 -1。这意味着无论误差有多大,我们都会用相同的值更新权重。
MSE损失函数的明显用途是回归问题,但它也用于其他领域 比如在CycleGAN论文中,它用作一致性损失主要是用来计算原始图像和重新生成的图像之间的差异性。
2.3 Pseudo-Huber Loss
Pseudo-Huber Loss损失函数的定义如下:
优点:
- 对异常值鲁棒
- 存在解析解
缺点:
- 需要对delta参数进行微调
Pseudo-Huber损失函数是MAE函数的鲁棒性和 MSE的实际现有解的结合体。该损失函数还有一个附加参数 delta,主要用于控制函数从二次到线性切换的位置。此外该参数还用于剪裁梯度值,从而可以限制异常值的影响。
当delta=5时Pseudo-Huber函数的图像和导数图像,如下所示:
由于具有裁剪梯度的能力,Pseudo-Huber损失函数被用于Fast R-CNN模型中,以防止梯度爆炸。
2.4 对比
在了解了一些理论之后,我们来具体举个栗子,对上述几个函数做个对比。
下图中,蓝线上的采样点为我们的真值,红色x为我们的预测值。
接着,我们来看下不同损失函数的计算值:
如上所示,Pseudo-Huber损失函数显示具备MAE LOSS对异常值的鲁棒性以及MSE LOSS对预测值越接近真值梯度越小的特性。
3.分类损失
3.1 Categorical Cross Entropy Loss
CCE损失函数的定义如下:
优点:
- 严重惩罚错误的预测
- 可以很好地解决多类问题
接着让我们创建一个简单的多类预测模型来对猫、汽车和犀牛进行分类,看看它在实践中是如何工作的。
如上所示,类别交叉熵损失专注于期望的输出并严重惩罚错误的预测。当我们查看其函数图像时,此时它变得更加直观。如下所示:
CCE LOSS是大多数多分类问题的首选损失函数
3.2 Binary Cross-Entropy
BCE损失函数的定义如下:
优点:
- 适用于多标签问题和二元分类
BCE损失函数的工作原理类似于类别交叉熵损失函数。它以指数方式惩罚错误的预测。主要区别在于应用场景, BCE 主要用于多标签分类,其输入可以属于多个类别。最简单的例子是比如像蜘蛛侠这样的电影,它可以同时被归类为动作、冒险、奇幻和科幻类型。
在学习了CCE损失之后,BCE损失应该非常直观。它们的工作原理相同,但应用场景不同。
3.3 KL-divergence Loss
KL-散度损失函数的定义如下:
优点:
- 适用于近似复杂的目标分布,如图像
如上所示,KL 散度损失是从我们网络预测的交叉熵分布与目标分布的熵之间的差异。它告诉我们模型离期望的分布有多远。
那么我们什么情况下应该使用它呢?
想象一下,如果我们的任务是生成图像,那么目标分布要复杂得多。在这种情况下,KL 散度损失的效果最好。
4.总结
损失函数是深度学习相关问题的核心组成部分,主要用于评估模型的性能并相应地更新权重。
通过本文,希望大家可以了解特定损失函数的优缺点以及在那些场景下应该使用它们。
参考
关注公众号《AI算法之道》,获取更多AI算法资讯。
更多推荐
所有评论(0)