Быстрый старт для dbt Explorer workshop
Введение
Откройте возможности dbt Explorer в этом практическом воркшопе, предназначенном для аналитиков, инженеров данных, заинтересованных сторон и лидеров в области данных.
Это руководство по быстрому старту сопровождает практический воркшоп Explorer и помогает вам погрузиться в реализацию dbt Mesh на уровне производства и узнать, как исследовать ваши рабочие процессы с данными. Независимо от того, хотите ли вы оптимизировать свои операции с данными, улучшить качество данных или самостоятельно получать информацию о вашей платформе данных, этот воркшоп предоставит вам инструменты и знания, чтобы поднять ваши проекты dbt на новый уровень.
К концу руководства и воркшопа вы поймете, как использовать dbt Explorer и будете уверенно ориентироваться в нескольких проектах dbt, отслеживать зависимости и выявлять возможности для улучшения производительности и качества данных.
Чему вы научитесь
В этом руководстве вы научитесь:
- Ориентироваться в нескольких проектах dbt с помощью dbt Explorer
- Самостоятельно работать с документацией данных
- Отслеживать зависимости на уровне моделей и столбцов
- Выявлять возможности для улучшения производительности и качества данных
Предварительные требования
- Знакомство с платформами данных
Настройка
Теперь мы создадим ваш аккаунт dbt Cloud и подключим его к хранилищу данных.
- Перейдите по этой ссылке (выйдите из системы, если вы уже вошли): https://cloud.getdbt.com/coalesce-workshop-signup
- Введите ваше имя и фамилию.
- Выберите опцию Exploring a dbt Mesh implementation with dbt Explorer.
- Используйте код доступа, предоставленный ведущим воркшопа.
- Согласитесь с условиями обслуживания и нажмите кнопку Complete Registration.
- Подождите около 30 секунд, и вы окажетесь в аккаунте dbt Cloud для этого воркшопа, уже подключенном к хранилищу данных.
- Переключитесь в Platform project. Перейдите на вкладку Deploy и выберите Jobs из выпадающего меню.
- Запустите каждую задачу, которую видите, нажав на задачу, а затем выбрав Run. Это запустит задачу проекта upstream как в производственной, так и в тестовой среде.
- Переключитесь в Analytics project. Перейдите на вкладку Deploy и выберите Jobs из выпадающего меню.
- Запустите каждую задачу, которую видите, нажав на задачу, а затем выбрав Run. Это запустит задачу проекта downstream как в производственной, так и в тестовой среде.
Производительность
dbt Explorer покажет вам наиболее часто выполняемые модели вашего проекта, самые длительные выполнения моделей, наиболее часто проваливающиеся модели и тесты, а также наиболее потребляемые модели в одном месте: вкладка производительности.
Практическое задание
- Запустите задачу Daily Prod снова
- Исследуйте вкладку Performance на странице Project details
- Какая модель заняла больше всего времени за последние две недели? За последний месяц?
- Какая модель провалила больше всего тестов?
- Нажмите на модель, которая заняла больше всего времени в графике Longest model executions
- Каково среднее время выполнения за последние две недели? За последний месяц?
- Как часто строится модель? Каков уровень отказов тестов модели?
Ресурсы
С помощью dbt Explorer вы можете просматривать ресурсы вашего проекта (такие как модели, тесты и метрики), их родословную и потребление моделей, чтобы лучше понять его текущее состояние в производстве.
Орие нтируйтесь и управляйте своими проектами в dbt Cloud, чтобы помочь вам и другим разработчикам данных, аналитикам и потребителям открывать и использовать ваши ресурсы dbt.
Практическое задание
- Исследуйте вкладку Model
- Выберите модель. Каков ее объем строк?
- Используйте выпадающее меню результатов тестов, чтобы увидеть, прошли ли тесты этой модели. От каких других моделей она зависит?
- Исследуйте вкладку Tests
- Какие тесты мы видим? Какие тесты имеют предупреждения? Отказы?
- Исследуйте вкладку Sources
- Какие источники мы видим? Какие источники имеют устаревшие данные? Какие источники имеют свежие данные?
- Исследуйте Exposures
- Используйте граф родословной, чтобы найти экспозицию. На какие модели и метрики ссылается экспозиция?
Родословная
dbt Explorer предоставляет визуализацию вашего проекта, с которой вы можете взаимодействовать. Узлы в графе родословной представляют ресурсы проекта, а ребра представляют отношения между узлами. Узлы имеют цветовую кодировку и включают иконографию в зависимости от их типа ресурса.
- Используйте строку поиска и селекторы узлов для фильтрации вашего DAG.
- Линзы упрощают понимание контекстных метаданных вашего проекта в масштабе, особенно для различения конкретной модели или подмножества моделей.
- Применение линзы добавляет теги к узлам, показывая метаданные, такие как значения слоя, с цветовой кодировкой, чтобы помочь вам их различ ать.
- Используйте функцию расширенного поиска для поиска ресурсов в вашем проекте.
- Выполняйте жесткие и ключевые поиски.
- Все имена ресурсов, имена столбцов, описания ресурсов, отношения в хранилище и код, соответствующий вашим критериям поиска, появятся в центре страницы.
- Применяйте фильтры для полной уточнения вашего поиска.
- При поиске имени столбца результаты показывают все реляционные узлы, содержащие этот столбец в своих схемах.
Практическое задание
- Исследуйте Родословную на уровне проекта
- Выберите модель и изучите ее зависимости вверх и вниз по потоку
- От каких источников зависит эта модель? Какие модели зависят от этой модели?
- Исследуйте Линзы
- Примените линзы статуса теста. Какие модели прошли тесты? Какие имели предупреждения?
- Исследуйте различные линзы (Слой модели, Тип материализации, Ресурс). Какую информацию вы видите?
- Исследуйте Родословную на уровне столбцов
- Перейдите на страницу Model resource модели и исследуйте Родословную на уровне столбцов первичного ключа
Мульти-проект
Используйте dbt Explorer, чтобы получить более глубокое понимание всех ваших проектов dbt Cloud с его возможностями мульти-проекта.
- Смотрите количество публичных, защищенных и частных моделей, а также метрики для каждого проекта.
- Просматривайте родословную между проектами и переходите между графами родословной отдельных проектов.
- Исследуйте родословную на уровне столбцов между проектами.
Практическое задание
- В графе родословной отфильтруйте родословную на уровне проекта для публичных моделей, используя фильтр
access:public
- Обратите внимание, какие модели ссылаются на аналитический проект.
- Исследуйте родословную аналитического проекта
- Выберите модель в платформенном проекте, на которую ссылается аналитический проект.
- Посмотрите на мульти-проектную родословную на уровне столбцов ее первичного ключа.