Telegram: @ninachely
$(x, y_{\text{true}})$
$x$ — object
$y_{\text{true}}$ — true label
$f$ — модель, которая хорошо обучена — $f(x) = y_{\text{true}}$
Найдем $\tilde{x}$: $\tilde{x} \approx x, \, f(\tilde{x}) \neq y_{\text{true}}$ — немного поменяли объект, но модель сильно меняет предсказание
Если мы случайно пройдемся по множеству и добавим какой-то шум, то скорее всего он нам не поменяет объект
Идея: мы должны предъявить некоторый алгоритм, который будет искать $\tilde{x}$
Можем закидывать картинки в какой-то сервис и получать распределение. Веса, градиенты — не знаем. Такие виды атак разбирать не будем
Считаем, что у нас есть веса модели
$f(\tilde{x}) \neq y_{\text{true}}$