Administrator
发布于 2026-06-02 / 6 阅读
0

问答卡片

MLE 与交叉信息熵的关系

Q:为什么交叉熵可以作为分类损失?

A:因为二分类标签可以看成 Bernoulli 分布,最大化样本的似然函数等价于最大化 log-likelihood。训练时通常做最小化,所以取负 log-likelihood,得到的就是 binary cross entropy。因此交叉熵不是拍脑袋设计的,而是来自最大似然估计。

CE梯度为什么简洁

Q:为什么二分类交叉熵的梯度是(y^y)x(\hat y-y)x

A:因为 sigmoid 和 log-likelihood 的求导项会抵消。单样本 log-likelihood 的梯度是(yy^)x(y-\hat y)x,而交叉熵是负 log-likelihood,所以梯度变成(y^y)x(\hat y-y)x

为什么分类不用 MSE?

Q:为什么分类任务一般不用 MSE?

A:第一,交叉熵来自最大似然估计,有统计解释;第二,MSE 搭配 sigmoid 时梯度为(y^y)y^(1y^)x(\hat y-y)\hat y(1-\hat y)x,当y^\hat y 接近 0 或 1 时,$\hat y(1-\hat y)$ 接近 0,梯度容易变小。而交叉熵梯度是(y^y)x(\hat y-y)x,即使模型预测很离谱,仍然有比较稳定的梯度信号。