HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Теги: machine learning, data scientist, sequence-to-sequence, data science, big data, модель seq2seq, лучевой поиск, не детерминированные предсказания, распределения по словам</p>
1 <p>Теги: machine learning, data scientist, sequence-to-sequence, data science, big data, модель seq2seq, лучевой поиск, не детерминированные предсказания, распределения по словам</p>
2 <p>В задачах машинного перевода часто используется модель<strong>seq2seq</strong>(sequence-to-sequence). Данная модель в режиме тестирования последовательно выдаёт распределения по вероятностям слов на текущем шаге<em>t</em>. Более подробно можно прочитать в<a>предыдущей заметке</a>. Далее я буду предполагать знакомство с этой моделью.</p>
2 <p>В задачах машинного перевода часто используется модель<strong>seq2seq</strong>(sequence-to-sequence). Данная модель в режиме тестирования последовательно выдаёт распределения по вероятностям слов на текущем шаге<em>t</em>. Более подробно можно прочитать в<a>предыдущей заметке</a>. Далее я буду предполагать знакомство с этой моделью.</p>
3 <p>Сейчас нас будет интересовать механизм работы модели в режиме тестирования. Поскольку модель выдаёт не детерминированные предсказания, а только распределения по словам, то существует очень много последовательностей слов которые будут иметь схожую вероятность (вероятность последовательности - это произведение вероятностей отдельных слов). Напрямую перебрать все последовательности нереально: их Где |V| - это размер словаря, а<em>T</em>- длина предложения. Поэтому прибегают к эмпирическим методам поиска.</p>
3 <p>Сейчас нас будет интересовать механизм работы модели в режиме тестирования. Поскольку модель выдаёт не детерминированные предсказания, а только распределения по словам, то существует очень много последовательностей слов которые будут иметь схожую вероятность (вероятность последовательности - это произведение вероятностей отдельных слов). Напрямую перебрать все последовательности нереально: их Где |V| - это размер словаря, а<em>T</em>- длина предложения. Поэтому прибегают к эмпирическим методам поиска.</p>
4 <h2>Одним из самых распространенных методов является "лучевой" поиск</h2>
4 <h2>Одним из самых распространенных методов является "лучевой" поиск</h2>
5 <p>Обозначения:</p>
5 <p>Обозначения:</p>
6 <p><strong>Псевдокод:</strong>1. Выбираем размер "луча"<em>k</em>. 2. Выбираем функцию оценки для текущего шага<em>f</em>. 3. Инициализируем общий счётчик оценки A размером<em>T х k</em>4. Инициализируем матрицу скрытых состояний декодера размером<em>T х k</em>5. Инициализируем<em>T</em>матриц размером<em>k х |V|</em>6. Непосредственно поиск:</p>
6 <p><strong>Псевдокод:</strong>1. Выбираем размер "луча"<em>k</em>. 2. Выбираем функцию оценки для текущего шага<em>f</em>. 3. Инициализируем общий счётчик оценки A размером<em>T х k</em>4. Инициализируем матрицу скрытых состояний декодера размером<em>T х k</em>5. Инициализируем<em>T</em>матриц размером<em>k х |V|</em>6. Непосредственно поиск:</p>
7 <p>По<em>t</em>=0,..<em>T</em>: По<em>i</em>=1,..<em>k</em>: По всем возможным словам<em>v</em>=1,..<em>V</em>: Использование "луча" размером 2-10 обычно позволяет существенно увеличить качество перевода для<strong>seq2seq</strong>модели. Отметим, что при этом линейно будет расти вычислительная сложность.</p>
7 <p>По<em>t</em>=0,..<em>T</em>: По<em>i</em>=1,..<em>k</em>: По всем возможным словам<em>v</em>=1,..<em>V</em>: Использование "луча" размером 2-10 обычно позволяет существенно увеличить качество перевода для<strong>seq2seq</strong>модели. Отметим, что при этом линейно будет расти вычислительная сложность.</p>
8 <p>Дополнительные материалы можно посмотреть здесь: 1.<a>Поиск в пространстве состояний</a>2.<a>A Continuous Relaxation of Beam Search for End-to-end Training of Neural Sequence Models</a>3. Формулы из заметки можно взять<a>здесь</a>.</p>
8 <p>Дополнительные материалы можно посмотреть здесь: 1.<a>Поиск в пространстве состояний</a>2.<a>A Continuous Relaxation of Beam Search for End-to-end Training of Neural Sequence Models</a>3. Формулы из заметки можно взять<a>здесь</a>.</p>
9 <p><em>Есть вопрос? Напишите в комментариях!</em></p>
9 <p><em>Есть вопрос? Напишите в комментариях!</em></p>
10  
10