0 added
0 removed
Original
2026-01-01
Modified
2026-02-26
1
<p>В курсе мы не раз решали задачи с помощью каждого типа диаграмм. Эти задачи помогли нам попрактиковаться, но в реальных рабочих процессах аналитика работает немного по-другому.</p>
1
<p>В курсе мы не раз решали задачи с помощью каждого типа диаграмм. Эти задачи помогли нам попрактиковаться, но в реальных рабочих процессах аналитика работает немного по-другому.</p>
2
<p>Чтобы решить рабочую задачу, аналитику часто приходится строить несколько диаграмм разного типа. Так он может увидеть всю картину и под разным углом посмотреть на данные. Одни диаграммы помогают ему сформировать гипотезы, а другие - протестировать их.</p>
2
<p>Чтобы решить рабочую задачу, аналитику часто приходится строить несколько диаграмм разного типа. Так он может увидеть всю картину и под разным углом посмотреть на данные. Одни диаграммы помогают ему сформировать гипотезы, а другие - протестировать их.</p>
3
<p>В этом уроке мы разберем аналитическую задачу, для решения которой необходимо построить сразу несколько диаграмм.</p>
3
<p>В этом уроке мы разберем аналитическую задачу, для решения которой необходимо построить сразу несколько диаграмм.</p>
4
<h2>Знакомимся с задачей</h2>
4
<h2>Знакомимся с задачей</h2>
5
<p>Представим, что мы работаем в компании, которая разрабатывает Аманду - голосового помощника. Аманда обрабатывает запросы от пользователей и выдает им нужную музыку, видео, текст и картинки.</p>
5
<p>Представим, что мы работаем в компании, которая разрабатывает Аманду - голосового помощника. Аманда обрабатывает запросы от пользователей и выдает им нужную музыку, видео, текст и картинки.</p>
6
<p>Сейчас команда обучает Аманду выдавать релевантный контент для пользователя - то есть обрабатывать запрос "фото кота" и выдавать именно кота, а не собаку или другое животное. Чтобы Аманда работала лучше, необходимо выявлять ошибки и дообучать алгоритмы на них.</p>
6
<p>Сейчас команда обучает Аманду выдавать релевантный контент для пользователя - то есть обрабатывать запрос "фото кота" и выдавать именно кота, а не собаку или другое животное. Чтобы Аманда работала лучше, необходимо выявлять ошибки и дообучать алгоритмы на них.</p>
7
<p>Один из способов выявлять ошибки - это размечивать их. Компания наняла исполнителей, которые каждый день выполняют задания на тестирование Аманды и оценивают релевантность ее ответов на определенные запросы. С помощью разметчиков компания получает около 100 оценок ежедневно, что позволяет стабильно обучать алгоритм.</p>
7
<p>Один из способов выявлять ошибки - это размечивать их. Компания наняла исполнителей, которые каждый день выполняют задания на тестирование Аманды и оценивают релевантность ее ответов на определенные запросы. С помощью разметчиков компания получает около 100 оценок ежедневно, что позволяет стабильно обучать алгоритм.</p>
8
<p>Недавно возникла проблема - в компании заметили, что скорость разметки упала. Нам нужно проанализировать, почему упала скорость разметки.</p>
8
<p>Недавно возникла проблема - в компании заметили, что скорость разметки упала. Нам нужно проанализировать, почему упала скорость разметки.</p>
9
<p>Чтобы мы могли решить эту задачу, компания выгрузила таблицу данных по разметке за последние семь дней. Вот так она выглядит:</p>
9
<p>Чтобы мы могли решить эту задачу, компания выгрузила таблицу данных по разметке за последние семь дней. Вот так она выглядит:</p>
10
<p>В этой таблице есть такие столбцы:</p>
10
<p>В этой таблице есть такие столбцы:</p>
11
<ul><li>date - в какой день разметчик выполнил задание</li>
11
<ul><li>date - в какой день разметчик выполнил задание</li>
12
<li>task_type - какой тип задания выполнил разметчик (допустимые значения: video, music, picture, text)</li>
12
<li>task_type - какой тип задания выполнил разметчик (допустимые значения: video, music, picture, text)</li>
13
<li>timestamp - за сколько минут выполнено задание</li>
13
<li>timestamp - за сколько минут выполнено задание</li>
14
<li>worker_id - идентификатор исполнителя</li>
14
<li>worker_id - идентификатор исполнителя</li>
15
</ul><h2>Решаем задачу</h2>
15
</ul><h2>Решаем задачу</h2>
16
<p>Для начала нужно признать, что для решения этой задачи может не хватить данных. Например, мы не знаем, стабильно ли работала платформа с заданиями. Если с ней были какие-то технические проблемы, скорость разметки могла упасть именно из-за них.</p>
16
<p>Для начала нужно признать, что для решения этой задачи может не хватить данных. Например, мы не знаем, стабильно ли работала платформа с заданиями. Если с ней были какие-то технические проблемы, скорость разметки могла упасть именно из-за них.</p>
17
<p>Наша задача - изучить имеющиеся данные и приблизиться к решению задачи: сделать какие-то полезные выводы, сформировать и протестировать несколько гипотез на основе имеющихся данных.</p>
17
<p>Наша задача - изучить имеющиеся данные и приблизиться к решению задачи: сделать какие-то полезные выводы, сформировать и протестировать несколько гипотез на основе имеющихся данных.</p>
18
<p><strong>Шаг 1</strong>. Для начала проверим, действительно ли исполнители стали выполнять меньше заданий. Для этого построим график по количеству выполненных заданий в сутки:</p>
18
<p><strong>Шаг 1</strong>. Для начала проверим, действительно ли исполнители стали выполнять меньше заданий. Для этого построим график по количеству выполненных заданий в сутки:</p>
19
<p>По графику видно, что:</p>
19
<p>По графику видно, что:</p>
20
<ul><li>Скорость разметки действительно упала, причем почти в два раза</li>
20
<ul><li>Скорость разметки действительно упала, причем почти в два раза</li>
21
<li>Это началось с 5 марта 2022 года</li>
21
<li>Это началось с 5 марта 2022 года</li>
22
</ul><p><strong>Шаг 2</strong>. Попробуем сформировать первую гипотезу. Судя по всему, 5 марта 2022 года произошло какое-то событие, которое повлияло на скорость разметки.</p>
22
</ul><p><strong>Шаг 2</strong>. Попробуем сформировать первую гипотезу. Судя по всему, 5 марта 2022 года произошло какое-то событие, которое повлияло на скорость разметки.</p>
23
<p>Возможно, в этот день были технические проблемы на платформе, но у нас нет данных об этом. При этом у нас есть информация об исполнителях, заданиях и времени на выполнение задания. Эти факторы тоже могли повлиять, поэтому изучим их подробнее.</p>
23
<p>Возможно, в этот день были технические проблемы на платформе, но у нас нет данных об этом. При этом у нас есть информация об исполнителях, заданиях и времени на выполнение задания. Эти факторы тоже могли повлиять, поэтому изучим их подробнее.</p>
24
<p><strong>Шаг 3</strong>. Начнем с исполнителей. Что могло произойти с исполнителями, что скорость разметки снизилась?</p>
24
<p><strong>Шаг 3</strong>. Начнем с исполнителей. Что могло произойти с исполнителями, что скорость разметки снизилась?</p>
25
<p>Например, исполнителей могло стать меньше. Чтобы проверить эту гипотезу, построим график или столбчатую диаграмму с количеством уникальных исполнителей в день:</p>
25
<p>Например, исполнителей могло стать меньше. Чтобы проверить эту гипотезу, построим график или столбчатую диаграмму с количеством уникальных исполнителей в день:</p>
26
<p>По диаграмме видно, что количество исполнителей стабильно. Значит, дело не в этом. Гипотеза не подтвердилась.</p>
26
<p>По диаграмме видно, что количество исполнителей стабильно. Значит, дело не в этом. Гипотеза не подтвердилась.</p>
27
<p><strong>Шаг 4</strong>. Перейдем к следующему фактору и выдвинем еще одну гипотезу.</p>
27
<p><strong>Шаг 4</strong>. Перейдем к следующему фактору и выдвинем еще одну гипотезу.</p>
28
<p>Может быть, выросли временные затраты исполнителя на задание? Это могло повлиять на количество выполненных заданий в сутки. Построим график средних временных затрат на задание, чтобы проверить эту гипотезу:</p>
28
<p>Может быть, выросли временные затраты исполнителя на задание? Это могло повлиять на количество выполненных заданий в сутки. Построим график средних временных затрат на задание, чтобы проверить эту гипотезу:</p>
29
<p>Здесь видно, что с 5 марта 2022 года среднее время выполнения заданий сильно выросло. Это совпадает с датой, когда скорость разметки начала падать. Теперь нужно разобраться, почему задание стали выполняться дольше.</p>
29
<p>Здесь видно, что с 5 марта 2022 года среднее время выполнения заданий сильно выросло. Это совпадает с датой, когда скорость разметки начала падать. Теперь нужно разобраться, почему задание стали выполняться дольше.</p>
30
<p><strong>Шаг 5</strong>. На предыдущих этапах мы выдвинули и подтвердили такую гипотезу: количество выполненных заданий упало, потому что с 5 марта 2022 года исполнители стали тратить больше времени на каждое отдельное задание. Исследуем подтвердившуюся гипотезу и поищем ее причину.</p>
30
<p><strong>Шаг 5</strong>. На предыдущих этапах мы выдвинули и подтвердили такую гипотезу: количество выполненных заданий упало, потому что с 5 марта 2022 года исполнители стали тратить больше времени на каждое отдельное задание. Исследуем подтвердившуюся гипотезу и поищем ее причину.</p>
31
<p>В наших данных есть информация о типах заданий. Может, именно этот фактор как-то повлиял на скорость разметки?</p>
31
<p>В наших данных есть информация о типах заданий. Может, именно этот фактор как-то повлиял на скорость разметки?</p>
32
<p>Чтобы проверить это, нам нужны данные и в динамике, и в структуре. Визуализировать информацию таким образом помогают столбчатые диаграммы. Построим нормированную столбчатую диаграмму, чтобы посмотреть, изменилось ли соотношение типов заданий за последнее время:</p>
32
<p>Чтобы проверить это, нам нужны данные и в динамике, и в структуре. Визуализировать информацию таким образом помогают столбчатые диаграммы. Построим нормированную столбчатую диаграмму, чтобы посмотреть, изменилось ли соотношение типов заданий за последнее время:</p>
33
<p>Видно, что с 5 марта резко выросло количество заданий, связанных с видео. Скорее всего, такие задания отнимают больше времени у исполнителя - нельзя оценить релевантность видео, не досмотрев его до конца.</p>
33
<p>Видно, что с 5 марта резко выросло количество заданий, связанных с видео. Скорее всего, такие задания отнимают больше времени у исполнителя - нельзя оценить релевантность видео, не досмотрев его до конца.</p>
34
<p>Теперь мы знаем, почему количество выполненных заданий упало - с 5 марта исполнителям попадалась больше заданий на видео, которые требуют больше времени и снижают скорость.</p>
34
<p>Теперь мы знаем, почему количество выполненных заданий упало - с 5 марта исполнителям попадалась больше заданий на видео, которые требуют больше времени и снижают скорость.</p>
35
<p>Далее можно прийти с этими выводами к бизнесу, изложить свои гипотезы и в случае их неподтверждения, запросить больше данных и проводить более обширный анализ. Например, можно запросить информацию о том, сколько времени уходит на задания разного типа. Там мы проверим, действительно ли задания с видео выполнять дольше, чем другие.</p>
35
<p>Далее можно прийти с этими выводами к бизнесу, изложить свои гипотезы и в случае их неподтверждения, запросить больше данных и проводить более обширный анализ. Например, можно запросить информацию о том, сколько времени уходит на задания разного типа. Там мы проверим, действительно ли задания с видео выполнять дольше, чем другие.</p>
36
<h2>Выводы</h2>
36
<h2>Выводы</h2>
37
<p>В этом уроке мы разобрали аналитическую задачу бизнеса, для исследования которой нам потребовалось построить несколько диаграмм. Отразим ключевые моменты урока:</p>
37
<p>В этом уроке мы разобрали аналитическую задачу бизнеса, для исследования которой нам потребовалось построить несколько диаграмм. Отразим ключевые моменты урока:</p>
38
<ul><li>Разные диаграммы позволяют взглянуть на данные под разным углом. На основе одних диаграмм можно сформировать гипотезы, на основе других - подтверждение или опровержение этих гипотез</li>
38
<ul><li>Разные диаграммы позволяют взглянуть на данные под разным углом. На основе одних диаграмм можно сформировать гипотезы, на основе других - подтверждение или опровержение этих гипотез</li>
39
<li>Вполне может быть, что для решения задачи у вас не будет всей необходимой информации</li>
39
<li>Вполне может быть, что для решения задачи у вас не будет всей необходимой информации</li>
40
<li>Имеющиеся данные стоит исследовать вдоль и поперек, чтобы приблизиться к пониманию проблемы и понять, какие еще данные стоит запросить</li>
40
<li>Имеющиеся данные стоит исследовать вдоль и поперек, чтобы приблизиться к пониманию проблемы и понять, какие еще данные стоит запросить</li>
41
<li>Не забывайте, как соотносятся типы диаграмм и гипотезы. Например, график показывает только динамику, а столбчатая диаграмма - динамику и структуру вместе</li>
41
<li>Не забывайте, как соотносятся типы диаграмм и гипотезы. Например, график показывает только динамику, а столбчатая диаграмма - динамику и структуру вместе</li>
42
</ul>
42
</ul>