Telegram: @ninachely
Слой внимания — это некоторый слой, который осуществляет преобразования. В контексте задач обработки естественного языка у нас есть какие-то последовательности, которые мы представляем в виде токенов, а каждый токен представляется в виде определенного эмбеддинга. Таким образом, мы имеем последовательность эмбеддингов одинакового размера
В статье Attention is All You Need были представлены attention слои и архитектура трансформера
https://arxiv.org/pdf/1706.03762.pdf
Представим, что мы получили нашу последовательность эмбеддингов. Давайте посмотрим на все эти эмбеддинги одновременно, сделаем сразу со всеми ними одну операцию и пересчитаем эти эмбеддинги для каждого токена. Эти новые результирующие эмбеддинги будут содержать какую-то новую информацию, которая зависит от всего входа
Основная идея attention слоя состоит в том, чтобы сделать какую-то операцию, которая выучивается принимать на вход последовательности разной длины и пересчитывать их эмбеддинги
Пример со слайда