Telegram: @ninachely
$X_1, \dots, X_n$ — наблюдения
$CE(f_{*} \, || \, f_\theta)$
$f_{*}$ — истинное распределение
$f_{\theta}$ — модельное распределение
$M$ — множество моделей
Не нашлось способа элегантно изображать дивергенцию (которая не является расстоянием и не симметрична)
Как правило, существенная часть красивой теории написана для случая $f_{*} \in M$
Если мы не перебираем истинную модель $f_{}$ среди множества $M$ рассматриваемых моделей, то надежды попасть в $f_{}$ нет. Но для любой модели $f_{\theta}$ есть кросс-энтропия (дивергенция Кульбака-Ляйблера; они отличаются на константу) — [“аналог расстояния”]
$$ CE(f_{} \, || \, f_\theta) = \underbrace{\mathbb{E}_{}}{\text{не знаем}} \underbrace{(-\ln{f{\theta}})}_{\text{знаем}} $$
Q: Как оценить? A: Пусть реальность оценивает
$X_1, \dots, X_n$ — независимы и одинаково распределены
$f_{1}(x_1 \, | \, \theta)$ — функция плотности для отдельно взятой $x_i$, $\theta$ — вектор параметров
$f(x \, | \, \theta)$ — совместная функция плотности
$$ x = \begin{pmatrix} x_1 \\ \vdots \\ x_n \end{pmatrix}, \, \theta = \begin{pmatrix} \theta_1 \\ \vdots \\ \theta_p \end{pmatrix} $$