Telegram: @ninachely


Введение. NLP, токенизация, vocab

Теперь наш вход — это текст.

Проблемы, возникающие при обработке текста:

Токенизация — представление текста в виде последовательности

Vocab — словарь из всех возможных токенов, которые будут вводиться (в самом простом варианте это буквы)

Правильная токенизация текста — тоже некоторая наука

Подходы к токенизации

Byte-pair encoding (BPE)

Один из самых популярных способов построения промежуточной токенизации

В крутых моделях обычно по умолчанию используется BPE

Будем пытаться искать такие куски слов, которые часто встречаются в нашем корпусе текстов

Мы не хотим, чтобы “морфемы” выходили за пределы слова (запрещаем морфемы, содержащие пробелы)