Создание размерной модели Кимбалла с помощью dbt
Размерное моделирование — это одна из многих техник моделирования данных, используемых специалистами по данным для организации и представления данных для аналитики. Другие техники моделирования данных включают Data Vault (DV), Third Normal Form (3NF) и One Big Table (OBT), чтобы назвать несколько.
Хотя актуальность размерного моделирования обсуждается специалистами по данным, оно по-прежнему остается одной из наиболее широко применяемых техник моделирования данных для аналитики.
Несмотря на свою популярность, ресурсы по созданию размерных моделей с использованием dbt остаются скудными и недостаточно детализированными. Это руководство призвано решить эту проблему, предоставив окончательное руководство по размерному моделированию с dbt.
К концу этого руководства вы:
- Поймете концепции размерного моделирования
- Настроите макетный проект dbt и базу данных
- Определите бизнес-процесс для моделирования
- Определите таблицы фактов и измерений
- Создадите таблицы измерений
- Создадите таблицу фактов
- Задокументируете отношения размерной модели
- Используете размерную модель
Размерное моделирование
Размерное моделирование — это техника, представленная Ральфом Кимбаллом в 1996 году в его книге The Data Warehouse Toolkit.
Цель размерного моделирования — взять сырые данные и преобразовать их в таблицы фактов и измерений, которые представляют бизнес.
Преимущества размерного моделирования:
- Простая модель данных для аналитики: Пользователям размерных моделей не нужно выполнять сложные соединения при использовании размерной модели для аналитики. Выполнение соединений между таблицами фактов и измерений упрощается за счет использования суррогатных ключей.
- Не повторяйся: Измерения могут быть легко повторно использованы с другими таблицами фактов, чтобы избежать дублирования усилий и логики кода. Повторно используемые измерения называются согласованными измерениями.
- Быстрое извлечение данных: Аналитические запросы, выполняемые против размерной модели, значительно быстрее, чем модель 3NF, поскольку преобразования данных, такие как соединения и агрегации, уже применены.
- Тесное соответствие с реальными бизнес-процессами: Бизнес-процессы и метрики моделируются и рассчитываются как часть размерного моделирования. Это помогает гарантировать, что смоделированные данные легко использовать.
Теперь, когда мы понимаем общие концепции и преимущества размерного моделирования, давайте перейдем к практике и создадим нашу первую размерную модель с использованием dbt.