HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Теги: python, генеративные состязательные сети, машинное обучение, machine learning, нейронные сети, gan, deep learning, wasserstein gan, facebook ai research, расстояние вассерштейна, теория информации, леонид вассерштейн, theta, мажорирующее распределение, wgan, дивергенция дженсена-шеннона, дивергенции кльбака-лейблера, меры близости для пары распределений</p>
1 <p>Теги: python, генеративные состязательные сети, машинное обучение, machine learning, нейронные сети, gan, deep learning, wasserstein gan, facebook ai research, расстояние вассерштейна, теория информации, леонид вассерштейн, theta, мажорирующее распределение, wgan, дивергенция дженсена-шеннона, дивергенции кльбака-лейблера, меры близости для пары распределений</p>
2 <p>В январе 2017 года команда из Курантовского института математических наук и Facebook AI Research выложила в открытый доступ<a>препринт</a>статьи под названием "Wasserstein GAN".</p>
2 <p>В январе 2017 года команда из Курантовского института математических наук и Facebook AI Research выложила в открытый доступ<a>препринт</a>статьи под названием "Wasserstein GAN".</p>
3 <p>Основное отличие этой статьи от большинства публикаций предлагающих очередное улучшение для Генеративных Состязательных Сетей заключается в фундаментальной теоретической базе. Авторы не просто демонстрируют очередной набор удачных изображений, порождённых GAN’ами, но и объясняют эффективность данного подхода с точки зрения теории. И в центре этой теории как раз и лежит расстояние Вассерштейна.</p>
3 <p>Основное отличие этой статьи от большинства публикаций предлагающих очередное улучшение для Генеративных Состязательных Сетей заключается в фундаментальной теоретической базе. Авторы не просто демонстрируют очередной набор удачных изображений, порождённых GAN’ами, но и объясняют эффективность данного подхода с точки зрения теории. И в центре этой теории как раз и лежит расстояние Вассерштейна.</p>
4 <p>Если подробно разобрать оригинальную статью, то окажется, что в базовой версии GANs минимизируется<a>дивергенция Дженсена-Шеннона</a>, которая является суммой двух<a>дивергенций Кльбака-Лейблера</a>. Оба этих страшных словосочетания обозначают некоторые меры близости для пары распределений. Если вы хорошо знакомы с теорией информации, то вам будет не слишком сложно придумать два распределения, для которых эти меры будут бесконечными, что, конечно же, будет сильно препятствовать сходимости любого алгоритма машинного обучения.</p>
4 <p>Если подробно разобрать оригинальную статью, то окажется, что в базовой версии GANs минимизируется<a>дивергенция Дженсена-Шеннона</a>, которая является суммой двух<a>дивергенций Кльбака-Лейблера</a>. Оба этих страшных словосочетания обозначают некоторые меры близости для пары распределений. Если вы хорошо знакомы с теорией информации, то вам будет не слишком сложно придумать два распределения, для которых эти меры будут бесконечными, что, конечно же, будет сильно препятствовать сходимости любого алгоритма машинного обучения.</p>
5 <h2>Для таких как я, замечу</h2>
5 <h2>Для таких как я, замечу</h2>
6 <p>В этой формуле наличия одной такой точки "x", в которой<strong>q(x)=0</strong>, а<strong>p(x)&gt;0</strong>, достаточно для того, чтобы интеграл разошёлся. Но как нам с этим поможет широко известный в узких кругах выпускник МГУ Леонид Вассерштейн?</p>
6 <p>В этой формуле наличия одной такой точки "x", в которой<strong>q(x)=0</strong>, а<strong>p(x)&gt;0</strong>, достаточно для того, чтобы интеграл разошёлся. Но как нам с этим поможет широко известный в узких кругах выпускник МГУ Леонид Вассерштейн?</p>
7 <h2>Давайте разберёмся</h2>
7 <h2>Давайте разберёмся</h2>
8 <p>Определение расстояния Вассерштейна довольно громоздко и, по правде, мне тоже непонятно: К счастью, есть простая и наглядная интерпретация. Допустим, заданы две функции плотности распределения Где "d" - обозначает<strong>data</strong>или<strong>данные</strong>, а "θ" - параметры нейронной сети, раз уж мы говорим о них. Изображение взято с сайта<a>Structural Bioinformatics Library</a></p>
8 <p>Определение расстояния Вассерштейна довольно громоздко и, по правде, мне тоже непонятно: К счастью, есть простая и наглядная интерпретация. Допустим, заданы две функции плотности распределения Где "d" - обозначает<strong>data</strong>или<strong>данные</strong>, а "θ" - параметры нейронной сети, раз уж мы говорим о них. Изображение взято с сайта<a>Structural Bioinformatics Library</a></p>
9 <p>Можно представить, что это две кучи земли. Обе содержат одинаковое количество земли, так как по определению их интегралы равны единице и мы хотим одну кучу переместить так, чтобы образовалась другая. При этом "стоимость" перемещения земли равна произведению перемещаемой "массы" на расстояние.</p>
9 <p>Можно представить, что это две кучи земли. Обе содержат одинаковое количество земли, так как по определению их интегралы равны единице и мы хотим одну кучу переместить так, чтобы образовалась другая. При этом "стоимость" перемещения земли равна произведению перемещаемой "массы" на расстояние.</p>
10 <p>Хочется заметить, что используя такую интерпретацию, разобраться с формулой не составляет большого труда. Не буду вдаваться в детали, понятно, что для любых двух распределений, "стоимость" переноса должна оказаться конечной, то есть для любого изменения параметров<strong>theta</strong>мы можем сказать, стало ли расстояние Вассерштейна меньше.</p>
10 <p>Хочется заметить, что используя такую интерпретацию, разобраться с формулой не составляет большого труда. Не буду вдаваться в детали, понятно, что для любых двух распределений, "стоимость" переноса должна оказаться конечной, то есть для любого изменения параметров<strong>theta</strong>мы можем сказать, стало ли расстояние Вассерштейна меньше.</p>
11 <p>Конечно, вычисление точного расстояния между распределениями, как это часто бывает, оказывается невозможным. Однако авторы показывают, что мы можем минимизировать мажорирующее распределение, чего, конечно же, достаточно.</p>
11 <p>Конечно, вычисление точного расстояния между распределениями, как это часто бывает, оказывается невозможным. Однако авторы показывают, что мы можем минимизировать мажорирующее распределение, чего, конечно же, достаточно.</p>
12 <h2>Итог</h2>
12 <h2>Итог</h2>
13 <p>В заключение остается только привести примеры изображений, порождённых сетями GAN и WGAN:</p>
13 <p>В заключение остается только привести примеры изображений, порождённых сетями GAN и WGAN:</p>
14 <p>Эти изображения взяты из статьи Wasserstein GAN. В качестве обучающей выборки использовался датасет с соревнования<a>Large-scale Scene Understanding Challenge</a>. Левая плашка содержит изображения, сгенерированные моделью, использующей расстояние Вассерштейна, а правая - оригинальную функцию потерь GANs.</p>
14 <p>Эти изображения взяты из статьи Wasserstein GAN. В качестве обучающей выборки использовался датасет с соревнования<a>Large-scale Scene Understanding Challenge</a>. Левая плашка содержит изображения, сгенерированные моделью, использующей расстояние Вассерштейна, а правая - оригинальную функцию потерь GANs.</p>
15 <p>В следующий раз я собираюсь рассказать о том, как можно вывернуть GAN наизнанку и почему так надо делать.</p>
15 <p>В следующий раз я собираюсь рассказать о том, как можно вывернуть GAN наизнанку и почему так надо делать.</p>
16 <p><em>Есть вопросы? Напишите в комментариях!</em></p>
16 <p><em>Есть вопросы? Напишите в комментариях!</em></p>
17  
17