HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Теги: машинное обучение, machine learning, импутация, неполные наборы данных</p>
1 <p>Теги: машинное обучение, machine learning, импутация, неполные наборы данных</p>
2 <p>Иногда бывает, что реальные наборы данных неполны. Это случается по техническим причинам либо если датасет собирают из нескольких источников с различными наборами параметров. В такой ситуации в таблице находятся пустые ячейки или заглушки - NaN. Если заглушек слишком много,- тренировка на этих данных значительно ухудшит качество модели. Что же делать? Один из вариантов -<strong>импутация данных</strong>.</p>
2 <p>Иногда бывает, что реальные наборы данных неполны. Это случается по техническим причинам либо если датасет собирают из нескольких источников с различными наборами параметров. В такой ситуации в таблице находятся пустые ячейки или заглушки - NaN. Если заглушек слишком много,- тренировка на этих данных значительно ухудшит качество модели. Что же делать? Один из вариантов -<strong>импутация данных</strong>.</p>
3 <p>Конечно, можно и просто выкинуть все неполные наблюдения, однако тогда есть вероятность потери ценной информации. Лучше всего будет восстановить (или по крайней мере попытаться восстановить) недостающие значения на основе тех данных, которые есть в наборе. Либо же вставить в пустые ячейки более-менее осмысленные значения. Этот процесс и называют импутацией данных. Давайте рассмотрим<strong>импутацию данных посредством глубокого обучения</strong>.</p>
3 <p>Конечно, можно и просто выкинуть все неполные наблюдения, однако тогда есть вероятность потери ценной информации. Лучше всего будет восстановить (или по крайней мере попытаться восстановить) недостающие значения на основе тех данных, которые есть в наборе. Либо же вставить в пустые ячейки более-менее осмысленные значения. Этот процесс и называют импутацией данных. Давайте рассмотрим<strong>импутацию данных посредством глубокого обучения</strong>.</p>
4 <p>Как известно, Deep Learning неплохо работает с дискретными значениями. При этом существует специальная библиотека<strong>datawig</strong>, позволяющая восстанавливать недостающие значения благодаря тренировке нейронной сети на точках, для которых есть все параметры.</p>
4 <p>Как известно, Deep Learning неплохо работает с дискретными значениями. При этом существует специальная библиотека<strong>datawig</strong>, позволяющая восстанавливать недостающие значения благодаря тренировке нейронной сети на точках, для которых есть все параметры.</p>
5 <p><strong>Преимущества</strong>этого способа импутации данных: • повышенная точность (точнее прочих методов); • возможность работать с качественными параметрами; • поддержка тренировка на CPU и GPU.</p>
5 <p><strong>Преимущества</strong>этого способа импутации данных: • повышенная точность (точнее прочих методов); • возможность работать с качественными параметрами; • поддержка тренировка на CPU и GPU.</p>
6 <p><strong>Недостатки</strong>: • восстанавливает лишь один столбец; • при больших наборах данных вычисление обходится слишком дорого; • надо заранее решать, какие столбцы станут применяться для предсказания недостающих значений.</p>
6 <p><strong>Недостатки</strong>: • восстанавливает лишь один столбец; • при больших наборах данных вычисление обходится слишком дорого; • надо заранее решать, какие столбцы станут применяться для предсказания недостающих значений.</p>
7 <p><em>По материалам статьи "<a>6 Different Ways to Compensate for Missing Values In a Dataset (Data Imputation with examples</a>".</em></p>
7 <p><em>По материалам статьи "<a>6 Different Ways to Compensate for Missing Values In a Dataset (Data Imputation with examples</a>".</em></p>
8  
8