问答卡片

MLE 与交叉信息熵的关系

Q：为什么交叉熵可以作为分类损失？

A：因为二分类标签可以看成 Bernoulli 分布，最大化样本的似然函数等价于最大化 log-likelihood。训练时通常做最小化，所以取负 log-likelihood，得到的就是 binary cross entropy。因此交叉熵不是拍脑袋设计的，而是来自最大似然估计。

CE梯度为什么简洁

Q：为什么二分类交叉熵的梯度是 $(\hat y-y)x$ ？

A：因为 sigmoid 和 log-likelihood 的求导项会抵消。单样本 log-likelihood 的梯度是 $(y-\hat y)x$ ，而交叉熵是负 log-likelihood，所以梯度变成 $(\hat y-y)x$ 。

为什么分类不用 MSE？

Q：为什么分类任务一般不用 MSE？

A：第一，交叉熵来自最大似然估计，有统计解释；第二，MSE 搭配 sigmoid 时梯度为 $(\hat y-y)\hat y(1-\hat y)x$ ，当 $\hat y$ 接近 0 或 1 时，$\hat y(1-\hat y)$ 接近 0，梯度容易变小。而交叉熵梯度是 $(\hat y-y)x$ ，即使模型预测很离谱，仍然有比较稳定的梯度信号。

菜单

分享

MLE 与交叉信息熵的关系

CE梯度为什么简洁

为什么分类不用 MSE？

lang架构的agent开发 1

lang架构的agent开发 2

目录

jscpc2026

问答卡片

深度工作

lang架构的agent开发 3