在深度进修范畴,丧掉函数是用来衡量模型猜测值与实在值之间差其余指标。简单来说,丧掉函数的值越小,模型的猜测越正确。但是,我们常常会碰到如许一个成绩:为什么丧掉函数的值平日是正数? 起首,我们须要懂得丧掉函数的本质。丧掉函数的计划是为了在模型练习过程中领导模型向正确的偏向优化,即减小猜测偏差。最罕见的丧掉函数,如均方偏差(MSE)跟穿插熵丧掉,其初衷是为了打算猜测值与实在值之间的“间隔”。 在数学上,当我们念叨间隔时,它平日长短负的。但是,在深度进修中,我们盼望最小化丧掉,这意味着我们盼望模型的表示尽可能好。因此,丧掉函数平日被计划为输出一个正数,如许在优化过程中,我们现实上是在寻求丧掉函数的最大年夜值,即最小化其负值。 以穿插熵丧掉为例,它的公式是 -Σ(y_i * log(y_hat_i)),其中 y_i 是实在的标签分布,y_hat_i 是模型猜测的概率分布。这个公式中的负号确保了当模型猜测正确时,丧掉值为正,但是因为我们在优化过程中利用梯度降落等方法,我们现实上是在增加这个正数的绝对值,从而进步模型的机能。 其余,利用正数作为丧掉值另有以下好处: