>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
DWHard митап:
№1: Data mesh
№2: История озера данных, которое зацвело
№3: Недетальный неслой хранилища


21 ДЕКАБРЯ
17:00 - 20:00 (МСК)
ОНЛАЙН В ZOOM
БЕСПЛАТНО
Спикеры митапа:

Евгений Ермаков
Яндекс GO
Более 10 лет опыта работы в ИТ-сфере. Архитектор хранилищ данных и систем анализа в Mail.ru Group и Яндекс Go. Кандидат технических наук, автор более 10 работ в области анализа данных, соавтор монографии по теории и практике анализа параллельных баз данных

Александр Крашенинников
OZON, руководитель Business Intelligence
Любит всё большое и распределённое, пишет на разных языках программирования. Замечен в коммитах в ClickHouse и Hadoop

Дмитрий Володин
Сибур Диджитал, руководитель направления обработки данных
Более 10 лет работал с данными в разных ролях.
Сражаясь за возможность использовать нормальные данные в аналитике прошёл путь от DS в архитектуру данных и DE.
Помимо хранилищ, увлекается прикладными задачами оптимизации и распределёнными вычислениями.

Иван Самохин
Сибур Диджитал, инженер данных
Инженер-данных, который в прошлом инженер-конструктор, и который спать не может если что-нибудь не проектирует и не реализует, будь то ETL/ELT-пайплайн, фреймворк для работы с детальным слоем или парник в огороде
О чем будем говорить?
1
Data Mesh
Евгений Ермаков - Руководитель DWH,
Яндекс GO


Исторически монолитные и централизованные, современные DWH претерпевают изменения: к ним применяют микросервисную архитектуру, которая давно сменила монолиты в бэкенде. Data Mesh уверенно "шагает по планете", все больше компаний пытаются его внедрить, но стоит ли этот подход окружающего его хайпа или это просто веяние моды?

Как сохранить единообразие, где место детального слоя в этом подходе, как управлять таким разрозненным и гетерогенным хранилищем?

В рамках своего доклада я расскажу, как мы в Яндексе Go начали применять этот подход, на какие грабли наступили и в каком месте подстелили себе соломку.
2
История озера данных, которое зацвело
Александр Крашенинников - Руководитель Business Intelligence, OZON

История адаптации Vertica в Ozon как технологической основы для DataLake. Рассмотрим, какие шишки набивали, что получилось хорошо, а что - не очень. Обсудим нюансы поддержки пользователей и соблюдение границ применимости даталейка под их нужды.
3
Недетальный неслой хранилища
Дмитрий Володин - Руководитель направления обработки данных, СИБУР Диджитал;
Иван Самохин - Инженер данных, СИБУР Диджитал;


Одна из целей создания хранилища данных - обеспечение интегрированности информации.

Эту задачу можно решать созданием высоконормализованных детальных слоёв.
Обычно всё начинается с выбора модели, и, хотя это очень непросто выбрать между Data Vault, Anchor modeling или 3-ей нормальной форме, это только первый маленький шаг.
Если не уделять внимание другим важным требованиям к процессу и данным, выйдет плохо.

Начнём наш доклад с истории про создание детального слоя в Сибур Диджитал.
Отправляясь вниз по эмоциональной дуге, мы поделимся нашим печальным опытом первого подхода к снаряду.
Разберём те ключевые ошибки, которые нашли сами и обсудим те, которые увидите вы.

Закончим на позитивное ноте - даже из очень грустных ситуаций есть выход, и мы его нашли (надеемся).

Организаторы Sibur Digital Community:

AI Community
Сообщество разработчиков продуктов и технологий в сфере искусственного интеллекта
численностью более 10 000 участников.
Присоединиться
AI Today
Помогаем крупным компаниям развивать HR-бренд и находить таланты в сфере разработки цифровых продуктов и технологий.
Связаться