MLE 与交叉信息熵的关系
Q:为什么交叉熵可以作为分类损失?
A:因为二分类标签可以看成 Bernoulli 分布,最大化样本的似然函数等价于最大化 log-likelihood。训练时通常做最小化,所以取负 log-likelihood,得到的就是 binary cross entropy。因此交叉熵不是拍脑袋设计的,而是来自最大似然估计。
CE梯度为什么简洁
Q:为什么二分类交叉熵的梯度是?
A:因为 sigmoid 和 log-likelihood 的求导项会抵消。单样本 log-likelihood 的梯度是,而交叉熵是负 log-likelihood,所以梯度变成。
为什么分类不用 MSE?
Q:为什么分类任务一般不用 MSE?
A:第一,交叉熵来自最大似然估计,有统计解释;第二,MSE 搭配 sigmoid 时梯度为,当 接近 0 或 1 时,$\hat y(1-\hat y)$ 接近 0,梯度容易变小。而交叉熵梯度是,即使模型预测很离谱,仍然有比较稳定的梯度信号。