Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: машинное обучение, machine learning, импутация, неполные наборы данных

2 В одной из<a>предыдущих статей</a>мы рассматривали процессимпутацииданных с помощью глубокого обучения. Однако восстановить значения в неполном наборе данных можно и с помощью алгоритмаk-Nearest Neighbour. Давайте посмотрим, как это работает.

3 Итак, k-Nearest Neighbour (<a>k ближайших соседей</a>) - это относительно простой алгоритм классификации, который мы можем модифицировать в целяхимпутациинедостающих значений. Алгоритм использует сходство точек для предсказания недостающих значений на основе k ближайших точек, у которых это значение присутствует. Говоря проще, происходитвыбор k точек, которые наиболее похожи на рассматриваемую точку, а уже на их основании и происходит подбор значения для пустой ячейки в вашем неполном наборе данных.

4 Реализовать процесс можно посредством специальной библиотекиImpyute:

5 Сначала алгоритм выполняет импутацию простым средним способом, в результате чего он получает определенный набор данных. На основании его он строит дерево, а потом применяет это дерево при поиске ближайших соседей. При этом взвешенное среднее значений соседей и вставляется вместо недостающих значений в исходный набор данных.

6 <h2>Преимущества и недостатки</h2>

7 У метода есть рядплюсов: • на ряде датасетов алгоритм работает точнее, если сравнивать со способом константы либо среднего/медианы; • корреляция между параметрами учитывается.

8 К сожалению,минусытоже имеются: • метод дороже с точки зрения вычислительного процесса, ведь надо держать в памяти весь набор данных; • надо всегда понимать, какая именно дистанционная метрика применяется при поиске соседей. Помните, что имплементация вimpyuteподдерживает лишь евклидову и манхэттенскую дистанцию, поэтому при анализе соотношений (к примеру, при анализе количества входов на веб-сайты людей различных возрастов) может потребоваться предварительнаянормализация; • метод является чувствительным к выбросам в данных (в отличие, скажем, от того же SVM).

9 По материалам статьи "<a>6 Different Ways to Compensate for Missing Values In a Dataset (Data Imputation with examples</a>".