0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<p>Теги: машинное обучение, machine learning, импутация, неполные наборы данных</p>
1
<p>Теги: машинное обучение, machine learning, импутация, неполные наборы данных</p>
2
<p>Иногда бывает, что реальные наборы данных неполны. Это случается по техническим причинам либо если датасет собирают из нескольких источников с различными наборами параметров. В такой ситуации в таблице находятся пустые ячейки или заглушки - NaN. Если заглушек слишком много,- тренировка на этих данных значительно ухудшит качество модели. Что же делать? Один из вариантов -<strong>импутация данных</strong>.</p>
2
<p>Иногда бывает, что реальные наборы данных неполны. Это случается по техническим причинам либо если датасет собирают из нескольких источников с различными наборами параметров. В такой ситуации в таблице находятся пустые ячейки или заглушки - NaN. Если заглушек слишком много,- тренировка на этих данных значительно ухудшит качество модели. Что же делать? Один из вариантов -<strong>импутация данных</strong>.</p>
3
<p>Конечно, можно и просто выкинуть все неполные наблюдения, однако тогда есть вероятность потери ценной информации. Лучше всего будет восстановить (или по крайней мере попытаться восстановить) недостающие значения на основе тех данных, которые есть в наборе. Либо же вставить в пустые ячейки более-менее осмысленные значения. Этот процесс и называют импутацией данных. Давайте рассмотрим<strong>импутацию данных посредством глубокого обучения</strong>.</p>
3
<p>Конечно, можно и просто выкинуть все неполные наблюдения, однако тогда есть вероятность потери ценной информации. Лучше всего будет восстановить (или по крайней мере попытаться восстановить) недостающие значения на основе тех данных, которые есть в наборе. Либо же вставить в пустые ячейки более-менее осмысленные значения. Этот процесс и называют импутацией данных. Давайте рассмотрим<strong>импутацию данных посредством глубокого обучения</strong>.</p>
4
<p>Как известно, Deep Learning неплохо работает с дискретными значениями. При этом существует специальная библиотека<strong>datawig</strong>, позволяющая восстанавливать недостающие значения благодаря тренировке нейронной сети на точках, для которых есть все параметры.</p>
4
<p>Как известно, Deep Learning неплохо работает с дискретными значениями. При этом существует специальная библиотека<strong>datawig</strong>, позволяющая восстанавливать недостающие значения благодаря тренировке нейронной сети на точках, для которых есть все параметры.</p>
5
<p><strong>Преимущества</strong>этого способа импутации данных: • повышенная точность (точнее прочих методов); • возможность работать с качественными параметрами; • поддержка тренировка на CPU и GPU.</p>
5
<p><strong>Преимущества</strong>этого способа импутации данных: • повышенная точность (точнее прочих методов); • возможность работать с качественными параметрами; • поддержка тренировка на CPU и GPU.</p>
6
<p><strong>Недостатки</strong>: • восстанавливает лишь один столбец; • при больших наборах данных вычисление обходится слишком дорого; • надо заранее решать, какие столбцы станут применяться для предсказания недостающих значений.</p>
6
<p><strong>Недостатки</strong>: • восстанавливает лишь один столбец; • при больших наборах данных вычисление обходится слишком дорого; • надо заранее решать, какие столбцы станут применяться для предсказания недостающих значений.</p>
7
<p><em>По материалам статьи "<a>6 Different Ways to Compensate for Missing Values In a Dataset (Data Imputation with examples</a>".</em></p>
7
<p><em>По материалам статьи "<a>6 Different Ways to Compensate for Missing Values In a Dataset (Data Imputation with examples</a>".</em></p>
8
8