Telegram: @ninachely

Attention Layers

Слой внимания — это некоторый слой, который осуществляет преобразования. В контексте задач обработки естественного языка у нас есть какие-то последовательности, которые мы представляем в виде токенов, а каждый токен представляется в виде определенного эмбеддинга. Таким образом, мы имеем последовательность эмбеддингов одинакового размера

Previous architectures

Screenshot 2023-01-31 at 13.45.12.png

Attention layer

В статье Attention is All You Need были представлены attention слои и архитектура трансформера

https://arxiv.org/pdf/1706.03762.pdf

Screenshot 2023-01-31 at 13.50.12.png

Представим, что мы получили нашу последовательность эмбеддингов. Давайте посмотрим на все эти эмбеддинги одновременно, сделаем сразу со всеми ними одну операцию и пересчитаем эти эмбеддинги для каждого токена. Эти новые результирующие эмбеддинги будут содержать какую-то новую информацию, которая зависит от всего входа

Основная идея attention слоя состоит в том, чтобы сделать какую-то операцию, которая выучивается принимать на вход последовательности разной длины и пересчитывать их эмбеддинги

Self-attention — idea

Screenshot 2023-01-31 at 13.56.51.png

Мы хотим насытить эмбеддинги информацией о том, какие еще токены есть в предложении. То есть, мы просто возьмем и найдем для каждого текущего токена другие релевантные ему токены, посчитаем веса релевантности и сложим все эмбеддинги с этими relevance scores
Размерность эмбеддингов не изменится

Пример со слайда