0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<ul><ul><li><ul><li><ul><li><a>Маркетинг и торговля</a></li>
1
<ul><ul><li><ul><li><ul><li><a>Маркетинг и торговля</a></li>
2
<li><a>Фондовые рынки</a></li>
2
<li><a>Фондовые рынки</a></li>
3
<li><a>В CRM</a></li>
3
<li><a>В CRM</a></li>
4
</ul></li>
4
</ul></li>
5
<li><a>Государственное и научное применение</a></li>
5
<li><a>Государственное и научное применение</a></li>
6
<li><a>В веб-делах</a></li>
6
<li><a>В веб-делах</a></li>
7
</ul></li>
7
</ul></li>
8
</ul><li><a>Методы майнинга</a><ul><li><a>Статистические приемы</a></li>
8
</ul><li><a>Методы майнинга</a><ul><li><a>Статистические приемы</a></li>
9
<li><a>Кибернетические методы</a></li>
9
<li><a>Кибернетические методы</a></li>
10
<li><a>Кластерный анализ</a></li>
10
<li><a>Кластерный анализ</a></li>
11
<li><a>Методы кластерного анализа - итеративный подход</a></li>
11
<li><a>Методы кластерного анализа - итеративный подход</a></li>
12
<li><a>K-средние</a><ul><li><a>Преимущества и недостатки приема</a></li>
12
<li><a>K-средние</a><ul><li><a>Преимущества и недостатки приема</a></li>
13
</ul></li>
13
</ul></li>
14
<li><a>Сети байесовского типа</a></li>
14
<li><a>Сети байесовского типа</a></li>
15
<li><a>Нейронные искусственные сети</a></li>
15
<li><a>Нейронные искусственные сети</a></li>
16
</ul></li>
16
</ul></li>
17
<li><a>Как освоить майнинг</a></li>
17
<li><a>Как освоить майнинг</a></li>
18
</ul><p>Продолжим разговор о майнинге и обработке данных. Первую часть статьи читайте<a>здесь</a>.</p>
18
</ul><p>Продолжим разговор о майнинге и обработке данных. Первую часть статьи читайте<a>здесь</a>.</p>
19
<h5>Маркетинг и торговля</h5>
19
<h5>Маркетинг и торговля</h5>
20
<p>Data Mining в маркетинге встречается повсеместно. Позволяет понять, что будет лучше продаваться, каким образом, а также какой целевой аудитории.</p>
20
<p>Data Mining в маркетинге встречается повсеместно. Позволяет понять, что будет лучше продаваться, каким образом, а также какой целевой аудитории.</p>
21
<p>При торговле розничного характера применяются различные алгоритмы:</p>
21
<p>При торговле розничного характера применяются различные алгоритмы:</p>
22
<ul><li>поиск ассоциаций;</li>
22
<ul><li>поиск ассоциаций;</li>
23
<li>временные последовательности;</li>
23
<li>временные последовательности;</li>
24
<li>классификации;</li>
24
<li>классификации;</li>
25
<li>кластеризация.</li>
25
<li>кластеризация.</li>
26
</ul><p>Вследствие получается определить группы и категории клиентов, которые будут чаще приобретать продукцию или пользоваться предлагаемым спектром услуг. За счет майнинга получается выяснить, какой запас товара хранить на складе, каким образом лучше организовывать закупки и размещение оного.</p>
26
</ul><p>Вследствие получается определить группы и категории клиентов, которые будут чаще приобретать продукцию или пользоваться предлагаемым спектром услуг. За счет майнинга получается выяснить, какой запас товара хранить на складе, каким образом лучше организовывать закупки и размещение оного.</p>
27
<h5>Фондовые рынки</h5>
27
<h5>Фондовые рынки</h5>
28
<p>Рассматриваемый метод обработки информации в области фондовых рынков позволяет решать следующие задачи:</p>
28
<p>Рассматриваемый метод обработки информации в области фондовых рынков позволяет решать следующие задачи:</p>
29
<ul><li>прогноз будущих значений фининструментов;</li>
29
<ul><li>прогноз будущих значений фининструментов;</li>
30
<li>гипотезы относительно тренда и его силы;</li>
30
<li>гипотезы относительно тренда и его силы;</li>
31
<li>выделение кластерных структур рынков, секторов, а также отраслей по тем или иным характеристикам;</li>
31
<li>выделение кластерных структур рынков, секторов, а также отраслей по тем или иным характеристикам;</li>
32
<li>управление портфелями в динамике;</li>
32
<li>управление портфелями в динамике;</li>
33
<li>оценивание возможных рисков;</li>
33
<li>оценивание возможных рисков;</li>
34
<li>выдвижение предположений относительно волатильности (дисперсии);</li>
34
<li>выдвижение предположений относительно волатильности (дисперсии);</li>
35
<li>расчет предполагаемого кризиса и его дальнейшего развития;</li>
35
<li>расчет предполагаемого кризиса и его дальнейшего развития;</li>
36
<li>помощь при выборе активов.</li>
36
<li>помощь при выборе активов.</li>
37
</ul><p>Также в бизнесе соответствующий алгоритм применяется, когда требуется изучить и проанализировать данные при условии накапливания некоторого объема ретроспективных данных.</p>
37
</ul><p>Также в бизнесе соответствующий алгоритм применяется, когда требуется изучить и проанализировать данные при условии накапливания некоторого объема ретроспективных данных.</p>
38
<h5>В CRM</h5>
38
<h5>В CRM</h5>
39
<p>Наиболее перспективным направлением Data Mining является применение технологии при аналитическом CRM. Это - управление отношениями, формирующихся с клиентурой. Если задействовать сразу два метода, удастся не только получить необходимый спектр знаний, но и "добыть деньги" из соответствующих материалов.</p>
39
<p>Наиболее перспективным направлением Data Mining является применение технологии при аналитическом CRM. Это - управление отношениями, формирующихся с клиентурой. Если задействовать сразу два метода, удастся не только получить необходимый спектр знаний, но и "добыть деньги" из соответствующих материалов.</p>
40
<p>Ключевые аспекты при работе подобным приемом:</p>
40
<p>Ключевые аспекты при работе подобным приемом:</p>
41
<ul><li>формирование целостного представления о клиентах;</li>
41
<ul><li>формирование целостного представления о клиентах;</li>
42
<li>наличие данных об особенностях потребителей;</li>
42
<li>наличие данных об особенностях потребителей;</li>
43
<li>характеристики и структура клиентской базы уже имеется в должном объеме.</li>
43
<li>характеристики и структура клиентской базы уже имеется в должном объеме.</li>
44
</ul><p>CRM предусматривает профилирование посетителей. За счет этого получается сложить наиболее полное представление о клиентах.</p>
44
</ul><p>CRM предусматривает профилирование посетителей. За счет этого получается сложить наиболее полное представление о клиентах.</p>
45
<p>Профилирование включает в себя:</p>
45
<p>Профилирование включает в себя:</p>
46
<ul><li>сегментацию;</li>
46
<ul><li>сегментацию;</li>
47
<li>прибыльность каждого посетителя;</li>
47
<li>прибыльность каждого посетителя;</li>
48
<li>методы удержания "публики";</li>
48
<li>методы удержания "публики";</li>
49
<li>анализирование реакций потребителей.</li>
49
<li>анализирование реакций потребителей.</li>
50
</ul><p>Все это весьма успешно реализовывается через майнинг. Анализ совокупности добытых знаний позволяет уточнить те данные, которые "просто так" выяснить не представляется возможным.</p>
50
</ul><p>Все это весьма успешно реализовывается через майнинг. Анализ совокупности добытых знаний позволяет уточнить те данные, которые "просто так" выяснить не представляется возможным.</p>
51
<h4>Государственное и научное применение</h4>
51
<h4>Государственное и научное применение</h4>
52
<p>Трудно представить, но Data Mining активно внедряется в правительственные системы. За счет них осуществляется автоматизация некоторых важных процессов.</p>
52
<p>Трудно представить, но Data Mining активно внедряется в правительственные системы. За счет них осуществляется автоматизация некоторых важных процессов.</p>
53
<p>Направления, в которых задействован рассматриваемый алгоритм:</p>
53
<p>Направления, в которых задействован рассматриваемый алгоритм:</p>
54
<ul><li>разработка средств по борьбе с мошенниками и террористами;</li>
54
<ul><li>разработка средств по борьбе с мошенниками и террористами;</li>
55
<li>поиск неплательщиков налогов;</li>
55
<li>поиск неплательщиков налогов;</li>
56
<li>обнаружение должников по иных государственным платежам.</li>
56
<li>обнаружение должников по иных государственным платежам.</li>
57
</ul><p>И это - только начало. DataMining активно применяется не только в налогах, но и в других областях. Пример - Пенсионные Фонды. Там удается предположить, сколько и когда, а также каких именно пенсионеров получится в "отчетном периоде".</p>
57
</ul><p>И это - только начало. DataMining активно применяется не только в налогах, но и в других областях. Пример - Пенсионные Фонды. Там удается предположить, сколько и когда, а также каких именно пенсионеров получится в "отчетном периоде".</p>
58
<h4>В веб-делах</h4>
58
<h4>В веб-делах</h4>
59
<p>Говоря о WebMining, можно перевести этот термин как "добыча информации в веб-пространстве". Искусственный интеллект готов к тому, чтобы стремительно внедряться и продвигаться в электронной коммерции и бизнесе в Сети. Возможности определения интересов и предпочтений каждого посетителя портала путем наблюдения за поведением на страничках - серьезное и критичное преимущество. Оно позволяет вести конкурентоспособную борьбу.</p>
59
<p>Говоря о WebMining, можно перевести этот термин как "добыча информации в веб-пространстве". Искусственный интеллект готов к тому, чтобы стремительно внедряться и продвигаться в электронной коммерции и бизнесе в Сети. Возможности определения интересов и предпочтений каждого посетителя портала путем наблюдения за поведением на страничках - серьезное и критичное преимущество. Оно позволяет вести конкурентоспособную борьбу.</p>
60
<p>Веб-майнинг отвечает на многие вопросы. Примеры:</p>
60
<p>Веб-майнинг отвечает на многие вопросы. Примеры:</p>
61
<ul><li>кто из посетивших сайт - потенциальный клиент;</li>
61
<ul><li>кто из посетивших сайт - потенциальный клиент;</li>
62
<li>какая группа потребителей способна принести наибольшую прибыль;</li>
62
<li>какая группа потребителей способна принести наибольшую прибыль;</li>
63
<li>определение спектра интересов конкретного пользователя или группы лиц.</li>
63
<li>определение спектра интересов конкретного пользователя или группы лиц.</li>
64
</ul><p>В веб-задачах основными направлениями служат поисковые машины и всевозможные счетчики.</p>
64
</ul><p>В веб-задачах основными направлениями служат поисковые машины и всевозможные счетчики.</p>
65
<h2>Методы майнинга</h2>
65
<h2>Методы майнинга</h2>
66
<p>Data Mining предусматривает различные методы реализации. Условно их можно разделить на две крупные категории:</p>
66
<p>Data Mining предусматривает различные методы реализации. Условно их можно разделить на две крупные категории:</p>
67
<ul><li>статистические - основываются на усредненном накопленном опыте, который отражается в ретроспективных данных;</li>
67
<ul><li>статистические - основываются на усредненном накопленном опыте, который отражается в ретроспективных данных;</li>
68
<li>кибернетические - те, что включают в себя множество математических подходов разного рода.</li>
68
<li>кибернетические - те, что включают в себя множество математических подходов разного рода.</li>
69
</ul><p>Данное разделение имеет как плюсы, так и минусы. К недостаткам относят то, что алгоритмы в качестве точки опоры используют сопоставление статистической "практики" с результатами мониторинга происходящей на соответствующий момент картины. Сильная сторона - удобное представление.</p>
69
</ul><p>Данное разделение имеет как плюсы, так и минусы. К недостаткам относят то, что алгоритмы в качестве точки опоры используют сопоставление статистической "практики" с результатами мониторинга происходящей на соответствующий момент картины. Сильная сторона - удобное представление.</p>
70
<h3>Статистические приемы</h3>
70
<h3>Статистические приемы</h3>
71
<p>Алгоритмы Data Mining, относящиеся к статистической категории, включают несколько связанных между собой разделов. А именно:</p>
71
<p>Алгоритмы Data Mining, относящиеся к статистической категории, включают несколько связанных между собой разделов. А именно:</p>
72
<ol><li>Предварительный анализ природы информации. Сюда включена проверка гипотез о стационарности, нормальности, независимости и однородности. Также предусматривается оценка функций распределения, ее параметров и свойств.</li>
72
<ol><li>Предварительный анализ природы информации. Сюда включена проверка гипотез о стационарности, нормальности, независимости и однородности. Также предусматривается оценка функций распределения, ее параметров и свойств.</li>
73
<li>Обнаружение связей и существующих закономерностей.</li>
73
<li>Обнаружение связей и существующих закономерностей.</li>
74
<li>Многомерный статистический анализ данных.</li>
74
<li>Многомерный статистический анализ данных.</li>
75
<li>Выстраивание динамических моделей с последующим прогнозом, опирающимся на временные ряды.</li>
75
<li>Выстраивание динамических моделей с последующим прогнозом, опирающимся на временные ряды.</li>
76
</ol><p>Статистические методы предусматривают:</p>
76
</ol><p>Статистические методы предусматривают:</p>
77
<ul><li>дескриптивный анализ с описанием исходных данных;</li>
77
<ul><li>дескриптивный анализ с описанием исходных данных;</li>
78
<li>анализирование связей;</li>
78
<li>анализирование связей;</li>
79
<li>многомерный статистический анализ;</li>
79
<li>многомерный статистический анализ;</li>
80
<li>анализ временных рядов.</li>
80
<li>анализ временных рядов.</li>
81
</ul><p>Реализация не слишком сложная, если за дело берется грамотный аналитик. Без его помощи добиться желаемых результатов проблематично.</p>
81
</ul><p>Реализация не слишком сложная, если за дело берется грамотный аналитик. Без его помощи добиться желаемых результатов проблематично.</p>
82
<h3>Кибернетические методы</h3>
82
<h3>Кибернетические методы</h3>
83
<p>Второй направление, в котором "работает" майнинг - множество подходов, которые объединены идеей компьютерной математики. Задействуют в ходе реализации искусственный интеллект и его теории.</p>
83
<p>Второй направление, в котором "работает" майнинг - множество подходов, которые объединены идеей компьютерной математики. Задействуют в ходе реализации искусственный интеллект и его теории.</p>
84
<p>Сюда можно отнести следующие методы изучения и анализа:</p>
84
<p>Сюда можно отнести следующие методы изучения и анализа:</p>
85
<ul><li>искусственные нейронные сети;</li>
85
<ul><li>искусственные нейронные сети;</li>
86
<li>эволюционное программирование;</li>
86
<li>эволюционное программирование;</li>
87
<li>ассоциативная память;</li>
87
<li>ассоциативная память;</li>
88
<li>генетические алгоритмы;</li>
88
<li>генетические алгоритмы;</li>
89
<li>нечеткая логика;</li>
89
<li>нечеткая логика;</li>
90
<li>древа решений;</li>
90
<li>древа решений;</li>
91
<li>системы обработки экспертных знаний.</li>
91
<li>системы обработки экспертных знаний.</li>
92
</ul><p>Далее некоторые (основополагающие) методы Data Mining будут рассмотрены более подробно. Это необходимо для лучшего понимания темы.</p>
92
</ul><p>Далее некоторые (основополагающие) методы Data Mining будут рассмотрены более подробно. Это необходимо для лучшего понимания темы.</p>
93
<h3>Кластерный анализ</h3>
93
<h3>Кластерный анализ</h3>
94
<p>Целью служит поиск существующих структур. Это - описательная процедура, которая не позволяет сделать статистические выводы. С ее помощью осуществляется разведочный анализ.</p>
94
<p>Целью служит поиск существующих структур. Это - описательная процедура, которая не позволяет сделать статистические выводы. С ее помощью осуществляется разведочный анализ.</p>
95
<p>К характеристикам кластера относят:</p>
95
<p>К характеристикам кластера относят:</p>
96
<ul><li>внутреннюю однородность;</li>
96
<ul><li>внутреннюю однородность;</li>
97
<li>внешнюю изолированность.</li>
97
<li>внешнюю изолированность.</li>
98
</ul><p>Кластеризация в основном применяется в антропологии, биологии, психологии. Для экономических решений долгое время этот вариант редко задействовался из-за специфики получаемых материалов и явлений. Кластеры бывают непересекающимися (эксклюзивными) или пересекающимися.</p>
98
</ul><p>Кластеризация в основном применяется в антропологии, биологии, психологии. Для экономических решений долгое время этот вариант редко задействовался из-за специфики получаемых материалов и явлений. Кластеры бывают непересекающимися (эксклюзивными) или пересекающимися.</p>
99
<p>Разнообразные методы способны стремиться к созданию кластеров определенных масштабов, либо предполагать в наборе данных наличие оных. Некоторые алгоритмы кластерного анализа чувствительны к выбросам и шумам. В итоге аналитик рискует получать разные данные вследствие проводимых "тестов". Это - особенность работы выбираемых алгоритмов.</p>
99
<p>Разнообразные методы способны стремиться к созданию кластеров определенных масштабов, либо предполагать в наборе данных наличие оных. Некоторые алгоритмы кластерного анализа чувствительны к выбросам и шумам. В итоге аналитик рискует получать разные данные вследствие проводимых "тестов". Это - особенность работы выбираемых алгоритмов.</p>
100
<p>Методы, основанные на разделении данных:</p>
100
<p>Методы, основанные на разделении данных:</p>
101
<ul><li>дробление на k-кластеров;</li>
101
<ul><li>дробление на k-кластеров;</li>
102
<li>итеративное перераспределение для улучшения кластеризации;</li>
102
<li>итеративное перераспределение для улучшения кластеризации;</li>
103
<li>иерархические методики;</li>
103
<li>иерархические методики;</li>
104
<li>агломерация - когда каждый объект представлен кластером.</li>
104
<li>агломерация - когда каждый объект представлен кластером.</li>
105
</ul><p>На концентрации объектов работают методы, основанные на возможности соединения объектов. Они игнорируют шумы. Также есть грид-метод - квантование в грид-структуры.</p>
105
</ul><p>На концентрации объектов работают методы, основанные на возможности соединения объектов. Они игнорируют шумы. Также есть грид-метод - квантование в грид-структуры.</p>
106
<h3>Методы кластерного анализа - итеративный подход</h3>
106
<h3>Методы кластерного анализа - итеративный подход</h3>
107
<p>Стоит обратить внимание на то, что при большом количестве наблюдений иерархические походы в Data Mining с применением кластеризации не пригодны для применения на практике. В этом случае в ход идут неиерархические приемы. Они основываются на разделении. Представлены итеративным дроблением первоначальной совокупности. Вследствие этого осуществляется формирование новых кластеров до тех пор, пока не будет выполнено правило остановки.</p>
107
<p>Стоит обратить внимание на то, что при большом количестве наблюдений иерархические походы в Data Mining с применением кластеризации не пригодны для применения на практике. В этом случае в ход идут неиерархические приемы. Они основываются на разделении. Представлены итеративным дроблением первоначальной совокупности. Вследствие этого осуществляется формирование новых кластеров до тех пор, пока не будет выполнено правило остановки.</p>
108
<p>Подобные неиерархические приемы заключаются в разделении набора данных на конкретное количество "блоков". Здесь имеют место два подхода. Первый позволяет определить границы кластеров в качестве наиболее плотных участков в многомерном пространстве исходных материалов. Происходит определение кластера там, где большая "концентрация точек". Второй метод минимизирует меры различия задействованных объектов.</p>
108
<p>Подобные неиерархические приемы заключаются в разделении набора данных на конкретное количество "блоков". Здесь имеют место два подхода. Первый позволяет определить границы кластеров в качестве наиболее плотных участков в многомерном пространстве исходных материалов. Происходит определение кластера там, где большая "концентрация точек". Второй метод минимизирует меры различия задействованных объектов.</p>
109
<h3>K-средние</h3>
109
<h3>K-средние</h3>
110
<p>Называется быстрым кластерным анализом. Строит k-кластеров, которые расположены максимально отдаленно друг от друга. Основным типом задач, которые решает соответствующий прием - наличие гипотез относительно числа кластеров, когда они обязательно предельно различаются друг от друга. Число k базируется на:</p>
110
<p>Называется быстрым кластерным анализом. Строит k-кластеров, которые расположены максимально отдаленно друг от друга. Основным типом задач, которые решает соответствующий прием - наличие гипотез относительно числа кластеров, когда они обязательно предельно различаются друг от друга. Число k базируется на:</p>
111
<ul><li>результатах, полученных вследствие прошлых исследований;</li>
111
<ul><li>результатах, полученных вследствие прошлых исследований;</li>
112
<li>теоретических данных;</li>
112
<li>теоретических данных;</li>
113
<li>интуиции.</li>
113
<li>интуиции.</li>
114
</ul><p>Общая идея - заданное фиксированное число k-кластеров наблюдения сопоставляются кластерам так, чтобы средние в них предельно отличались друг от друга.</p>
114
</ul><p>Общая идея - заданное фиксированное число k-кластеров наблюдения сопоставляются кластерам так, чтобы средние в них предельно отличались друг от друга.</p>
115
<p>Проводится соответствующий процесс следующим образом:</p>
115
<p>Проводится соответствующий процесс следующим образом:</p>
116
<ol><li>Выбирается число k. Это - центр кластеров.</li>
116
<ol><li>Выбирается число k. Это - центр кластеров.</li>
117
<li>Каждый "блок" получает единственный "центр".</li>
117
<li>Каждый "блок" получает единственный "центр".</li>
118
<li>Осуществляется выбор k-наблюдений для того, чтобы максимизировать первоначальное расстояние.</li>
118
<li>Осуществляется выбор k-наблюдений для того, чтобы максимизировать первоначальное расстояние.</li>
119
<li>Выбирается k-наблюдения. Это проводится случайно.</li>
119
<li>Выбирается k-наблюдения. Это проводится случайно.</li>
120
<li>Отбираются первые k-наблюдения.</li>
120
<li>Отбираются первые k-наблюдения.</li>
121
</ol><p>В итоге каждый объект относят к определенному кластеру.</p>
121
</ol><p>В итоге каждый объект относят к определенному кластеру.</p>
122
<h4>Преимущества и недостатки приема</h4>
122
<h4>Преимущества и недостатки приема</h4>
123
<p>Алгоритм k-средних имеет следующие сильные стороны:</p>
123
<p>Алгоритм k-средних имеет следующие сильные стороны:</p>
124
<ul><li>простое применение на практике;</li>
124
<ul><li>простое применение на практике;</li>
125
<li>быстрая скорость обработки данных;</li>
125
<li>быстрая скорость обработки данных;</li>
126
<li>понятность;</li>
126
<li>понятность;</li>
127
<li>прозрачность метода.</li>
127
<li>прозрачность метода.</li>
128
</ul><p>Недостаток всего один - это чувствительность к выбросам, которые способны искажать средние показатели. В целях устранения соответствующего недостатка используют модификацию. Она называется алгоритмом k-медианы.</p>
128
</ul><p>Недостаток всего один - это чувствительность к выбросам, которые способны искажать средние показатели. В целях устранения соответствующего недостатка используют модификацию. Она называется алгоритмом k-медианы.</p>
129
<p>Также прием при внедрении в крупные базы данных может работать не слишком быстро. Для устранения подобной особенности рекомендуется осуществлять предварительную выборку информации.</p>
129
<p>Также прием при внедрении в крупные базы данных может работать не слишком быстро. Для устранения подобной особенности рекомендуется осуществлять предварительную выборку информации.</p>
130
<h3>Сети байесовского типа</h3>
130
<h3>Сети байесовского типа</h3>
131
<p>Это - графические структуры, которые используются для представления вероятностных отношений между огромным количеством переменных. Также позволяют осуществлять вероятностных вывод, опираясь на полученные "значения". Байесовской (или наивной) классификации присущ понятный и прозрачный метод классификации. Второе название данный вариант Data Mining получил из-за того, что он исходит из предположения о том, что признаки являются взаимно независимыми.</p>
131
<p>Это - графические структуры, которые используются для представления вероятностных отношений между огромным количеством переменных. Также позволяют осуществлять вероятностных вывод, опираясь на полученные "значения". Байесовской (или наивной) классификации присущ понятный и прозрачный метод классификации. Второе название данный вариант Data Mining получил из-за того, что он исходит из предположения о том, что признаки являются взаимно независимыми.</p>
132
<p>К свойствам этой классификации относят:</p>
132
<p>К свойствам этой классификации относят:</p>
133
<ul><li>задействование сразу всех переменных;</li>
133
<ul><li>задействование сразу всех переменных;</li>
134
<li>определение взаимосвязей, которые могут быть между "составляющими";</li>
134
<li>определение взаимосвязей, которые могут быть между "составляющими";</li>
135
<li>наличие двух предположений относительно используемых объектов - все "элементы" одинаково важны, а также статистически независимы.</li>
135
<li>наличие двух предположений относительно используемых объектов - все "элементы" одинаково важны, а также статистически независимы.</li>
136
</ul><p>Байесовские сети используются по двум ключевым сценариям:</p>
136
</ul><p>Байесовские сети используются по двум ключевым сценариям:</p>
137
<ol><li>Описательный анализ. Предметная область представлена графом, узлы в котором - это понятия, а направленные дуги со стрелками - непосредственные зависимости. Связи между элементами означают, что значение первого помогает формировать более понятное и обоснованное предположение о значении второго. Если связь отсутствует, значит имеет место условная независимость при наборе известных значений. Пример - размер обуви ребенка связан с возрастом малыша.</li>
137
<ol><li>Описательный анализ. Предметная область представлена графом, узлы в котором - это понятия, а направленные дуги со стрелками - непосредственные зависимости. Связи между элементами означают, что значение первого помогает формировать более понятное и обоснованное предположение о значении второго. Если связь отсутствует, значит имеет место условная независимость при наборе известных значений. Пример - размер обуви ребенка связан с возрастом малыша.</li>
138
<li>Классификация и составление прогнозов. Это - довольно распространенная метода Data Mining. В байесовских сетях удается уменьшить количество параметров совместного распределения. За счет этого удается делать доверительную оценку, базирующуюся на объемах уже представленных данных. Так, из 10 переменных, каждая из которых может принимать одно из 10 значений, число параметров распределения будет находиться на уровне 10 миллиардов -1.</li>
138
<li>Классификация и составление прогнозов. Это - довольно распространенная метода Data Mining. В байесовских сетях удается уменьшить количество параметров совместного распределения. За счет этого удается делать доверительную оценку, базирующуюся на объемах уже представленных данных. Так, из 10 переменных, каждая из которых может принимать одно из 10 значений, число параметров распределения будет находиться на уровне 10 миллиардов -1.</li>
139
</ol><p>Как и в прошлом случае, байесовские сети имеют плюсы и минусы в методе Data Mining. К сильным сторонам относят:</p>
139
</ol><p>Как и в прошлом случае, байесовские сети имеют плюсы и минусы в методе Data Mining. К сильным сторонам относят:</p>
140
<ul><li>возможность определения в модели зависимостей между всеми переменными - как следствие, становится доступна легкая и простая обработка ситуации, в которой переменные неизвестны;</li>
140
<ul><li>возможность определения в модели зависимостей между всеми переменными - как следствие, становится доступна легкая и простая обработка ситуации, в которой переменные неизвестны;</li>
141
<li>простоту интерпретации;</li>
141
<li>простоту интерпретации;</li>
142
<li>возможность на этапе моделирования строить теории по принципу "что, если…";</li>
142
<li>возможность на этапе моделирования строить теории по принципу "что, если…";</li>
143
<li>естественное совмещение закономерностей;</li>
143
<li>естественное совмещение закономерностей;</li>
144
<li>исключение проблем переучивания.</li>
144
<li>исключение проблем переучивания.</li>
145
</ul><p>Недостатки выделяют следующие:</p>
145
</ul><p>Недостатки выделяют следующие:</p>
146
<ul><li>не всегда перемножение условных вероятностей является корректным;</li>
146
<ul><li>не всегда перемножение условных вероятностей является корректным;</li>
147
<li>невозможность непосредственной обработки непрерывных переменных;</li>
147
<li>невозможность непосредственной обработки непрерывных переменных;</li>
148
<li>влияние исключительно индивидуальных значений входных элементов на результаты классификации.</li>
148
<li>влияние исключительно индивидуальных значений входных элементов на результаты классификации.</li>
149
</ul><p>Подобный вариант на практике встречается достаточно часто. Но в современных технологиях и мире IT на передовые позиции потихоньку выходит иной вариант развития событий.</p>
149
</ul><p>Подобный вариант на практике встречается достаточно часто. Но в современных технологиях и мире IT на передовые позиции потихоньку выходит иной вариант развития событий.</p>
150
<h3>Нейронные искусственные сети</h3>
150
<h3>Нейронные искусственные сети</h3>
151
<p>Нейронные сети в Data Mining бывают синхронными и асинхронными. К первой категории относят ситуации, при которых в каждый момент времени состояние меняет только один нейрон. Ко второй - когда состояние меняется непосредственно у всей группы нейронов (слоя).</p>
151
<p>Нейронные сети в Data Mining бывают синхронными и асинхронными. К первой категории относят ситуации, при которых в каждый момент времени состояние меняет только один нейрон. Ко второй - когда состояние меняется непосредственно у всей группы нейронов (слоя).</p>
152
<p>Архитектуры нейронных сетей предусматривают два варианта:</p>
152
<p>Архитектуры нейронных сетей предусматривают два варианта:</p>
153
<ul><li>слоистые;</li>
153
<ul><li>слоистые;</li>
154
<li>полносвязные.</li>
154
<li>полносвязные.</li>
155
</ul><p>Слой - это один или несколько нейронов, на входы которых подается одинаковый сигнал. В слоистых сетях все "элементы" разбиты на группы так, чтобы информация могла обрабатываться послойно. Они бывают многослойными и однослойными.</p>
155
</ul><p>Слой - это один или несколько нейронов, на входы которых подается одинаковый сигнал. В слоистых сетях все "элементы" разбиты на группы так, чтобы информация могла обрабатываться послойно. Они бывают многослойными и однослойными.</p>
156
<p>Полносвязные сети в Data Mining предусматривают ситуации, при которых каждый нейрон передает собственный выходной сигнал остальным нейронам. И самому себе тоже. Выходными сигналами выступают все или некоторые выходные сигналы нейронов после нескольких тактов функционирования всей сети.</p>
156
<p>Полносвязные сети в Data Mining предусматривают ситуации, при которых каждый нейрон передает собственный выходной сигнал остальным нейронам. И самому себе тоже. Выходными сигналами выступают все или некоторые выходные сигналы нейронов после нескольких тактов функционирования всей сети.</p>
157
<h2>Как освоить майнинг</h2>
157
<h2>Как освоить майнинг</h2>
158
<p>Пользователь, который решил заниматься майнингом, должен грамотно подготовиться к соответствующему процессу. На основании всего вышесказанного следует вывод о том, что данной направление не только перспективное, но и весьма сложное.</p>
158
<p>Пользователь, который решил заниматься майнингом, должен грамотно подготовиться к соответствующему процессу. На основании всего вышесказанного следует вывод о том, что данной направление не только перспективное, но и весьма сложное.</p>
159
<p>Чтобы освоить Data Mining, можно:</p>
159
<p>Чтобы освоить Data Mining, можно:</p>
160
<ol><li>Отправиться в ВУЗ для обучения IT-технологиям, работе с "большими данными" и нейронными сетями. В России соответствующие области пока не слишком популярны.</li>
160
<ol><li>Отправиться в ВУЗ для обучения IT-технологиям, работе с "большими данными" и нейронными сетями. В России соответствующие области пока не слишком популярны.</li>
161
<li>Попытаться разобраться во всем самостоятельно. На первых порах этого достаточно для анализа информации.</li>
161
<li>Попытаться разобраться во всем самостоятельно. На первых порах этого достаточно для анализа информации.</li>
162
<li>Пройти специализированные курсы. Это - наиболее быстрое и эффективное решение. В течение некоторого времени (от пары месяцев до года) удастся разобраться в выбранном направлении. По окончании курса выдается сертификат установленной формы.</li>
162
<li>Пройти специализированные курсы. Это - наиболее быстрое и эффективное решение. В течение некоторого времени (от пары месяцев до года) удастся разобраться в выбранном направлении. По окончании курса выдается сертификат установленной формы.</li>
163
</ol><p>При помощи информационных технологий и интернета сейчас обучиться основам майнинга можно не только очно, но и дистанционно.</p>
163
</ol><p>При помощи информационных технологий и интернета сейчас обучиться основам майнинга можно не только очно, но и дистанционно.</p>
164
<p>Хотите стать профессионалом в сфере обработки данных? Добро пожаловать на курсы в Otus:</p>
164
<p>Хотите стать профессионалом в сфере обработки данных? Добро пожаловать на курсы в Otus:</p>
165
<ul><li><a>Промышленный ML на больших данных</a></li>
165
<ul><li><a>Промышленный ML на больших данных</a></li>
166
<li><a>Data Warehouse Analyst</a></li>
166
<li><a>Data Warehouse Analyst</a></li>
167
<li><a>Data Engineer</a></li>
167
<li><a>Data Engineer</a></li>
168
</ul>
168
</ul>