Telegram: @ninachely


Attention Layers

Слой внимания — это некоторый слой, который осуществляет преобразования. В контексте задач обработки естественного языка у нас есть какие-то последовательности, которые мы представляем в виде токенов, а каждый токен представляется в виде определенного эмбеддинга. Таким образом, мы имеем последовательность эмбеддингов одинакового размера

Previous architectures

Screenshot 2023-01-31 at 13.45.12.png

Attention layer

В статье Attention is All You Need были представлены attention слои и архитектура трансформера

https://arxiv.org/pdf/1706.03762.pdf

Screenshot 2023-01-31 at 13.50.12.png

Представим, что мы получили нашу последовательность эмбеддингов. Давайте посмотрим на все эти эмбеддинги одновременно, сделаем сразу со всеми ними одну операцию и пересчитаем эти эмбеддинги для каждого токена. Эти новые результирующие эмбеддинги будут содержать какую-то новую информацию, которая зависит от всего входа

Основная идея attention слоя состоит в том, чтобы сделать какую-то операцию, которая выучивается принимать на вход последовательности разной длины и пересчитывать их эмбеддинги

Self-attention — idea

Screenshot 2023-01-31 at 13.56.51.png

Пример со слайда