Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: машинное обучение, machine learning, импутация, неполные наборы данных

2 Иногда бывает, что реальные наборы данных неполны. Это случается по техническим причинам либо если датасет собирают из нескольких источников с различными наборами параметров. В такой ситуации в таблице находятся пустые ячейки или заглушки - NaN. Если заглушек слишком много,- тренировка на этих данных значительно ухудшит качество модели. Что же делать? Один из вариантов -импутация данных.

3 Конечно, можно и просто выкинуть все неполные наблюдения, однако тогда есть вероятность потери ценной информации. Лучше всего будет восстановить (или по крайней мере попытаться восстановить) недостающие значения на основе тех данных, которые есть в наборе. Либо же вставить в пустые ячейки более-менее осмысленные значения. Этот процесс и называют импутацией данных. Давайте рассмотримимпутацию данных посредством глубокого обучения.

4 Как известно, Deep Learning неплохо работает с дискретными значениями. При этом существует специальная библиотекаdatawig, позволяющая восстанавливать недостающие значения благодаря тренировке нейронной сети на точках, для которых есть все параметры.

5 Преимуществаэтого способа импутации данных: • повышенная точность (точнее прочих методов); • возможность работать с качественными параметрами; • поддержка тренировка на CPU и GPU.

6 Недостатки: • восстанавливает лишь один столбец; • при больших наборах данных вычисление обходится слишком дорого; • надо заранее решать, какие столбцы станут применяться для предсказания недостающих значений.

7 По материалам статьи "<a>6 Different Ways to Compensate for Missing Values In a Dataset (Data Imputation with examples</a>".