Telegram: @ninachely


Intro. Adversarial

$(x, y_{\text{true}})$

$x$ — object

$y_{\text{true}}$ — true label

$f$ — модель, которая хорошо обучена — $f(x) = y_{\text{true}}$

Найдем $\tilde{x}$: $\tilde{x} \approx x, \, f(\tilde{x}) \neq y_{\text{true}}$ — немного поменяли объект, но модель сильно меняет предсказание

Если мы случайно пройдемся по множеству и добавим какой-то шум, то скорее всего он нам не поменяет объект

Adversatial attacks

Идея: мы должны предъявить некоторый алгоритм, который будет искать $\tilde{x}$

Классификация 1

White Box

Можем закидывать картинки в какой-то сервис и получать распределение. Веса, градиенты — не знаем. Такие виды атак разбирать не будем

Black Box

Считаем, что у нас есть веса модели

Классификация 2

Untargeted

$f(\tilde{x}) \neq y_{\text{true}}$