Telegram: @ninachely


Прелюдия

$X_1, \dots, X_n$ — наблюдения

$CE(f_{*} \, || \, f_\theta)$

$f_{*}$ — истинное распределение

$f_{\theta}$ — модельное распределение

$M$ — множество моделей

Не нашлось способа элегантно изображать дивергенцию (которая не является расстоянием и не симметрична)

Как правило, существенная часть красивой теории написана для случая $f_{*} \in M$

14CE1DCA-737A-43A3-A7EF-6CB7A712E3A2_1_201_a.jpeg

Если мы не перебираем истинную модель $f_{}$ среди множества $M$ рассматриваемых моделей, то надежды попасть в $f_{}$ нет. Но для любой модели $f_{\theta}$ есть кросс-энтропия (дивергенция Кульбака-Ляйблера; они отличаются на константу) — [“аналог расстояния”]

8C5EECFA-B1EE-4A4D-AA37-68BD7965CB2A_1_201_a.jpeg

$$ CE(f_{} \, || \, f_\theta) = \underbrace{\mathbb{E}_{}}{\text{не знаем}} \underbrace{(-\ln{f{\theta}})}_{\text{знаем}} $$

Q: Как оценить? A: Пусть реальность оценивает

$X_1, \dots, X_n$ — независимы и одинаково распределены

$f_{1}(x_1 \, | \, \theta)$ — функция плотности для отдельно взятой $x_i$, $\theta$ — вектор параметров

$f(x \, | \, \theta)$ — совместная функция плотности

$$ x = \begin{pmatrix} x_1 \\ \vdots \\ x_n \end{pmatrix}, \, \theta = \begin{pmatrix} \theta_1 \\ \vdots \\ \theta_p \end{pmatrix} $$