Rivalry2

HTML Diff

1 added 1 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: машинное обучение, machine learning, глубокое обучение, нейронные сети, deep learning, множества, тегирование, сверхточные сети, рекуррентные сети

2 В некоторых задачах машинного обучения объектами исследования могут бытьмножества- наборы объектов произвольного размера. Давайте рассмотрим возможные подходы к работе с множествами с помощью нейронных сетей.

3 - В первой заметке мы поговорим о ситуации, когда исследуемый объект у нас один, а вот в качестве предсказаний модели мы ожидаем увидетьмножество. Примером такой задачи может быть задачатегирования, когда одному изображению нужно поставить в соответствие набор описывающих его ключевых слов или тегов. А во второй заметке речь пойдет обобратной задаче- по набору тегов выбрать наиболее подходящее изображение.

3 + В первой заметке мы поговорим о ситуации, когда исследуемый объект у нас один, а вот в качестве предсказаний модели мы ожидаем увидетьмножество. Примером такой задачи может быть задачатегирования, когда одному изображению нужно поставить в соответствие набор описывающих его ключевых слов или тегов. А ��о второй заметке речь пойдет обобратной задаче- по набору тегов выбрать наиболее подходящее изображение.

4 Типичныйдатасетдля обеих задач будет содержать пары, состоящие из изображения и соответствующего ему набора тегов. Нашей задачей будет выбрать наиболее подходящие теги из словаря всех возможных.

5 <h2>Итак, начнём!</h2>

6 В простейшем случае мы можем тренироватьсвёрточную сетьвыдавать вероятность для каждого слова из словаря быть тегом для конкретного изображения. При таком подходе на выходенейронной сетибудет длинный вектор (размером со словарь), на основе которого мы можем выбрать какое-то количество наиболее подходящих слов.

7 Проблемы с таким подходом довольно очевидны: огромный размер последних слоёв сети, большая разрежённость, независимость тегов друг от друга и вопросы к выбору отсечки или количества тегов. Статья<a>"DeepSetNet: Predicting Sets with Deep Neural Networks"</a>, опубликованная в 2017 году на ICCV (международная конференция по компьютерному зрению), решает последнюю из этих проблем.

8 В дополнение ксвёрточной сети, предсказывающей вероятности для каждого из возможных тегов в виде вектора, авторы предлагают тренировать ещё однунейронную сеть, предсказывающую количество тегов, которое нужно выбрать для данного изображения. И, хотя это не решает остальные проблемы, данная статья всё-таки является хорошей иллюстрацией того, как можно работать со множествами.

9 <h2>Какой ещё возможен подход?</h2>

10 Другой подход, позволяющий избежать проблем с большим размером выходного вектора, разрежённостью и определением количества тегов, заключается в использованиирекуррентных сетей. Чтобы провернуть этот трюк, достаточно представить набор тегов, описывающих изображение, в виде последовательности изаменить последние слоисети из предыдущего решения на рекуррентную сеть, порождающую тег за тегом. Причём одним из элементов словаря в данном случае будет тег типа<хватит>, появление которого на выходерекуррентной сетидолжно останавливать процесс порождения новых тегов.

11 Такой подход тоже не решает всех проблем, связанных с "предсказанием" множеств, но зачастую работает существенно лучше предсказания вероятностей для каждого слова. Одна из основных проблем -порядок тегов. Так как мы теперь работаем со множеством тегов как с последовательностью, нам надо установить порядок элементов в этой последовательности.

12 Одно из возможных решений этой проблемы я разберу на<a>курсе</a>в лекции, посвящённойгенеративным рекуррентным моделям.

13 Следите за новостями и не забывайте оставлять комментарии!