Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: machine learning, data scientist, sequence-to-sequence, data science, big data, модель seq2seq, лучевой поиск, не детерминированные предсказания, распределения по словам

2 В задачах машинного перевода часто используется модельseq2seq(sequence-to-sequence). Данная модель в режиме тестирования последовательно выдаёт распределения по вероятностям слов на текущем шагеt. Более подробно можно прочитать в<a>предыдущей заметке</a>. Далее я буду предполагать знакомство с этой моделью.

3 Сейчас нас будет интересовать механизм работы модели в режиме тестирования. Поскольку модель выдаёт не детерминированные предсказания, а только распределения по словам, то существует очень много последовательностей слов которые будут иметь схожую вероятность (вероятность последовательности - это произведение вероятностей отдельных слов). Напрямую перебрать все последовательности нереально: их Где |V| - это размер словаря, аT- длина предложения. Поэтому прибегают к эмпирическим методам поиска.

4 <h2>Одним из самых распространенных методов является "лучевой" поиск</h2>

5 Обозначения:

6 Псевдокод:1. Выбираем размер "луча"k. 2. Выбираем функцию оценки для текущего шагаf. 3. Инициализируем общий счётчик оценки A размеромT х k4. Инициализируем матрицу скрытых состояний декодера размеромT х k5. ИнициализируемTматриц размеромk х |V|6. Непосредственно поиск:

7 Поt=0,..T: Поi=1,..k: По всем возможным словамv=1,..V: Использование "луча" размером 2-10 обычно позволяет существенно увеличить качество перевода дляseq2seqмодели. Отметим, что при этом линейно будет расти вычислительная сложность.

8 Дополнительные материалы можно посмотреть здесь: 1.<a>Поиск в пространстве состояний</a>2.<a>A Continuous Relaxation of Beam Search for End-to-end Training of Neural Sequence Models</a>3. Формулы из заметки можно взять<a>здесь</a>.

9 Есть вопрос? Напишите в комментариях!