HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Теги: бд, обработка данных, data lake, озера данных</p>
1 <p>Теги: бд, обработка данных, data lake, озера данных</p>
2 <p><strong>Data lake</strong>- огромное хранилище, где данные хранятся в неупорядоченном и необработанном виде. Данные в Data lake можно сравнить с рыбой в озере, которая приплыла из реки. Вы не можете точно сказать, какая рыба в озере есть и где конкретно она находится. А чтобы ее приготовить (обработать данные), эту рыбу еще нужно поймать.</p>
2 <p><strong>Data lake</strong>- огромное хранилище, где данные хранятся в неупорядоченном и необработанном виде. Данные в Data lake можно сравнить с рыбой в озере, которая приплыла из реки. Вы не можете точно сказать, какая рыба в озере есть и где конкретно она находится. А чтобы ее приготовить (обработать данные), эту рыбу еще нужно поймать.</p>
3 <p>Итак, Data lake принимает любые файлы и любых форматов, причем источник данных тоже не имеет значения. При этом могут приниматься данные из CRM- либо ERP-систем, а также банковских программ, продуктовых каталогов, датчиков, умных устройств и т. д., то есть любых систем, которые сегодня использует бизнес.</p>
3 <p>Итак, Data lake принимает любые файлы и любых форматов, причем источник данных тоже не имеет значения. При этом могут приниматься данные из CRM- либо ERP-систем, а также банковских программ, продуктовых каталогов, датчиков, умных устройств и т. д., то есть любых систем, которые сегодня использует бизнес.</p>
4 <p>Когда эти данные сохранены, вы можете с ними работать, извлекая по определенному шаблону в классические БД либо анализируя и обрабатывая непосредственно прямо внутри Data lake (в этих целях можно использовать, к примеру,<strong>Hadoop</strong>).</p>
4 <p>Когда эти данные сохранены, вы можете с ними работать, извлекая по определенному шаблону в классические БД либо анализируя и обрабатывая непосредственно прямо внутри Data lake (в этих целях можно использовать, к примеру,<strong>Hadoop</strong>).</p>
5 <p>Таким образом, ключевым отличием озер данных от стандартных БД является<strong>структура</strong>. Если в БД хранятся лишь четко структурированные данные, то в озерах - неструктурированные данные, которые никак не систематизированы и не упорядочены.</p>
5 <p>Таким образом, ключевым отличием озер данных от стандартных БД является<strong>структура</strong>. Если в БД хранятся лишь четко структурированные данные, то в озерах - неструктурированные данные, которые никак не систематизированы и не упорядочены.</p>
6 <h2>Пример</h2>
6 <h2>Пример</h2>
7 <p>Представьте, что у нас есть некий пул данных, и этих данных довольно много. В случае с классической БД нам надо определить тип имеющихся данных, проанализировать их, потом структурировать. Лишь после выполнения всех этих действий мы сможем записать данные в четко определенное место в БД. А потом создать алгоритм, который будет работать с конкретными ячейками (мы же знаем, что и в каких ячейках хранится).</p>
7 <p>Представьте, что у нас есть некий пул данных, и этих данных довольно много. В случае с классической БД нам надо определить тип имеющихся данных, проанализировать их, потом структурировать. Лишь после выполнения всех этих действий мы сможем записать данные в четко определенное место в БД. А потом создать алгоритм, который будет работать с конкретными ячейками (мы же знаем, что и в каких ячейках хранится).</p>
8 <p>В случае с озером данных все обстоит иначе:<strong>информация структурируется на выходе</strong>, то есть в тот момент, когда нам потребуется извлечь данные либо их проанализировать. Причем анализ сам по себе никак не влияет на данные в озере - они так и останутся неструктурированными.</p>
8 <p>В случае с озером данных все обстоит иначе:<strong>информация структурируется на выходе</strong>, то есть в тот момент, когда нам потребуется извлечь данные либо их проанализировать. Причем анализ сам по себе никак не влияет на данные в озере - они так и останутся неструктурированными.</p>
9 <p>Говоря простым языком, озеро данных - это жесткий диск, где хранятся все, имеющиеся у вас файлы. База данных - это таблица, где все эти файлы учтены.</p>
9 <p>Говоря простым языком, озеро данных - это жесткий диск, где хранятся все, имеющиеся у вас файлы. База данных - это таблица, где все эти файлы учтены.</p>
10 <h2>Другие различия:</h2>
10 <h2>Другие различия:</h2>
11 <ol><li><strong>Полезность данных</strong>. В БД все данные актуальны для компании, то есть полезны, причем прямо сейчас (бесполезные данные отсеивают и удаляют). В озерах данных хранят и полезные, и бесполезные данные, которые могут как пригодиться в ближайшем будущем, так и не пригодиться вовсе.</li>
11 <ol><li><strong>Полезность данных</strong>. В БД все данные актуальны для компании, то есть полезны, причем прямо сейчас (бесполезные данные отсеивают и удаляют). В озерах данных хранят и полезные, и бесполезные данные, которые могут как пригодиться в ближайшем будущем, так и не пригодиться вовсе.</li>
12 <li><strong>Типы данных</strong>. В БД хранятся таблицы, имеющие конкретные цифры и текст, т. е. распределенные по структуре. В озерах - любые данные: аудио, видео, картинки, файлы, документы и т. п.</li>
12 <li><strong>Типы данных</strong>. В БД хранятся таблицы, имеющие конкретные цифры и текст, т. е. распределенные по структуре. В озерах - любые данные: аудио, видео, картинки, файлы, документы и т. п.</li>
13 <li><strong>Гибкость</strong>. Гибкость классической БД невысока, а актуальные для нее типы данных, как и структуру, надо определять еще на старте. Когда появляются данные новых форматов, БД надо перестраивать. У озер же гибкость максимальна, ведь заранее определять ничего не надо, как и перестраивать при появлении данных нового формата.</li>
13 <li><strong>Гибкость</strong>. Гибкость классической БД невысока, а актуальные для нее типы данных, как и структуру, надо определять еще на старте. Когда появляются данные новых форматов, БД надо перестраивать. У озер же гибкость максимальна, ведь заранее определять ничего не надо, как и перестраивать при появлении данных нового формата.</li>
14 <li><strong>Цена</strong>. Обслуживание БД стоит недешево, особенно если речь идет о хранении большого объема данных. Организация сложной инфраструктуры, фильтрация - все это стоит денег. В этом плане Data lake дешевле, ведь платить надо лишь за занятые гигабайты.</li>
14 <li><strong>Цена</strong>. Обслуживание БД стоит недешево, особенно если речь идет о хранении большого объема данных. Организация сложной инфраструктуры, фильтрация - все это стоит денег. В этом плане Data lake дешевле, ведь платить надо лишь за занятые гигабайты.</li>
15 <li><strong>Доступность данных и их понятность</strong>. А вот тут уже плюс на стороне БД, ведь данные в базе способны прочитать и понять практически любые сотрудники компании. Что касается Data lake, то тут для структуризации данных в озере нужны специально подготовленные техспециалисты (Data Scientists/Engineers).</li>
15 <li><strong>Доступность данных и их понятность</strong>. А вот тут уже плюс на стороне БД, ведь данные в базе способны прочитать и понять практически любые сотрудники компании. Что касается Data lake, то тут для структуризации данных в озере нужны специально подготовленные техспециалисты (Data Scientists/Engineers).</li>
16 <li><strong>Сценарии применения</strong>. Классические БД идеальны для хранения важной информации, к примеру, основной аналитики, которая должна быть под рукой всегда. В озерах данных лучше хранить архивы неочищенных данных, которые могут пригодиться потом. Данные можно накапливать, что называется, про запас, а не под конкретный запрос бизнеса.</li>
16 <li><strong>Сценарии применения</strong>. Классические БД идеальны для хранения важной информации, к примеру, основной аналитики, которая должна быть под рукой всегда. В озерах данных лучше хранить архивы неочищенных данных, которые могут пригодиться потом. Данные можно накапливать, что называется, про запас, а не под конкретный запрос бизнеса.</li>
17 </ol><p><em>Статья написана по материалам блога<a>MCS.Mail.ru</a>.</em></p>
17 </ol><p><em>Статья написана по материалам блога<a>MCS.Mail.ru</a>.</em></p>
18  
18