Что такое «озера данных» и почему они должны быть чистыми?

«Озеро данных» (data lake) — это элемент инфраструктуры Big Data, хранилище большого объема неструктурированных данных, генерированных или собранных одной компанией или госучреждением. Данные в озерах хранятся, как правило, в несистематизированном виде. Проще говоря, это те данные, которые «и выбросить жалко, и надеть некуда».

Компании создают озера данных по нескольким причинам, среди которых: необходимость иметь все материалы на случай проверки, потенциальная ценность данных в будущем, требования закона и другие.

Озера данных могут находиться на серверах самой компании или в облачном хранилище. Доступ к данным имеют, как правило, все сотрудники, а степень защищенности озер низкая. Содержание такого репозитория обходится недорого.

Хранением и администрированием озер данных сегодня занимаются специализированные фирмы: Teradata, Zaloni, HVR, Podium Data, Snowflake и другие. Большинство компаний предоставляют не только мощности для хранения, но и инструменты для структуризации озер и обработки данных.

Согласно прогнозу Markets and Markets, к 2021 году рынок озер данных вырастет до $8,81 млрд с годовым темпом роста 28,3%. Сегодня озера являются необходимой частью любой корпоративной инфраструктуры Big Data.

Главная проблема озер данных, как и природных водоемов, в том, что они могут загрязняться и превращаться в болота. Иными словами, хранилища бывают настолько неструктурированы и завалены неоднородными данными, что разобраться во всем этом и тем более извлечь ценную информацию не представляется возможным.

Руководитель облачной платформы и дата-менеджмента в компании SAP Кен Тсай называет это явление «диссонансом данных».

«При диссонансе данные нельзя привести в упорядоченный и совместимый вид без глубокой проработки всех массивов. В таком хранилище одни виды данных нельзя сопоставить и сгруппировать с другими», — говорит Кен Тсай.

В такой ситуации данные компании могут дублироваться из отдела в отдел или, наоборот, теряться.

Подобные озера необходимо «чистить» и структурировать, чтобы хранилище не превращалось в свалку мертвой информации.

«Диссонанс данных происходит из-за того, что вся информация сбрасывается в озеро без какой-либо предварительной обработки и систематизации. Массивам не присваиваются никакие метаданные (описания времени создания, инициатора, источника и прочая служебная информация – ред.). Не предусматривается гибкое взаимодействие данных из озера с другими хранилищами и архивами. В конце концов компания не получает от такого озера никакой пользы», — говорит представитель SAP.

Кен Тсай дает четыре основных совета для того, чтобы не допустить превращения озера данных в болото.

  1. Доверьте работу специалистам

Если ваша компания только собирается завести собственное озеро, доверьте это дело профессионалам. На рынке существует достаточное количество специализированных фирм, которые за небольшую плату займутся структурированием и правильным хранением озер данных. Эффект от этого может окупить все затраты.

  1. Определитесь, для чего вам озера данных

Какие специалисты / отделы и как часто будут обращаться за информацией в озеро данных? Как будут использоваться те или иные виды данных? Какого результата вы ждете? Все эти вопросы необходимо решить, прежде чем начать заливать свой информационный водоем и выпускать в него рыбу.

  1. Составьте план хранения данных

Важнейшая составляющая «чистого» озера данных – метаданные. Это служебная информация, которая содержит дату и время создания и изменения файлов, имена последних пользователей и другие сведения. Кроме того, метаданные указывают структурную принадлежность данных, их вид и тип. Основываясь на этой информации, любой массив данных можно легко выловить из озера и применить на благо компании. Все это требует четкого плана хранения.

  1. Решите, сколько озер вам нужно

Возможно, компании не нужно заводить одно озеро, куда будут сваливаться данные всех отделов и производственных процессов. Нередко организации заводят отдельное озеро для каждого отдела и направления. Это может быть удобно как для самих сотрудников, так и для того, кто будет управлять репозиториями их заниматься их очисткой.

Соблюдая эти простые правила, можно не только сохранить первозданную чистоту озер данных, но и получить от них немалую выгоду в будущем.