Rivalry2

HTML Diff

1 added 1 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: машинное обучение, machine learning, глубокое обучение, нейронные сети, deep learning, множества, сверхточные сети, поиск изображения, рекуррентная сеть, пуллинг

2 В некоторых задачахмашинного обученияобъектами исследования могут бытьмножества- наборы объектов произвольного размера. В<a>предыдущей заметке</a>я рассказывал о том, как работать со множествами когда их нужно предсказывать, а в этой заметке мы поговорим о задаче поиска изображения на основе множестватегов.

3 В случае с поиском изображенияархитектура нейронной сетиможет быть, например, такой как в статье<a>"Learning Two-Branch Neural Networks for Image-Text Matching Tasks"</a>.Нейронная сетьв этом случае будет иметь две "головы": одна преобразует текстовое описание картинки в вектор признаков, вторая - само изображение. Целью обучения будет минимизировать расстояние между соответствующими друг другу парами (описание, изображение) и максимизировать в обратном случае.

4 <h2>А если у нас набор тегов?</h2>

5 - Если вместо текстового описания у нас набор те��ов, мы, следуя примеру из прошлой заметки, можем рассматривать этот набор как последовательность и обрабатывать её с помощьюрекуррентной нейронной сети. Причём теперь отсутствие порядка во множестве тегов может быть использовано дляаугментации тренировочного сета.

5 + Если вместо текстового описания у нас набор тегов, мы, следуя примеру из прошлой заметки, можем рассматривать этот набор как последовательность и обрабатывать её с помощьюрекуррентной нейронной сети. Причём теперь отсутствие порядка во множестве тегов может быть использовано дляаугментации тренировочного сета.

6 По сути, для каждого изображения с n-тегами мы можем получитьn!обучающих примеров. Правда, это не гарантирует независимости результата от порядка, но всё же станет некоторым приближением к решению проблемы порядка.

7 <h2>Поговорим о пуллинге</h2>

8 Наиболее популярным способом обработки сетов является применениепуллинга- того самого, который используется в глубокихсвёрхточных сетях, а точнее, его одномерных братьев. Первые слои сети обрабатывают каждый тег независимо, после чего вектора признаков от всех тегов, например,усредняются.

9 Помимо усреднения, можно выбирать максимумы или минимумы каждого из параметров по этим векторам. Полученный вектор может быть пропущен ещё через несколько слоевнейронной сетиили быть использован в качестве вектора признаков как есть. А в статье<a>"Deep Sets"</a>, представленной на конференцииNIPS 2017, этот подход обобщается на класс функций инвариантных и эквивариантных к перестановкам. Кстати, среди соавторов этой статьи есть и наш соотечественник Руслан Салахутдинов - один из самых известных учёных в области науки о данных.

10 Помимо описанных подходов для работы с множествами, в рамках своего<a>курса</a>я разберу статью под названием "PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation", посвящённую классификации и сегментации 3D-сцен, представленных множеством точек.

11 Задать вопрос всегда можно в комментариях!