Быстрый старт для воркшопа dbt Catalog
Введение
Откройте для себя возможности Catalog в рамках практического воркшопа, предназначенного для аналитических инженеров, аналитиков данных, стейкхолдеров и руководителей по данным.
Этот гайд быстрого старта сопровождает практический воркшоп Catalog и помогает погрузиться в реализацию Mesh производственного уровня, а также понять, как исследовать ваши data workflow. Независимо от того, хотите ли вы упростить операции с данными, повысить качество данных или самостоятельно получать информацию о вашей data‑платформе, этот воркшоп даст вам инструменты и знания, необходимые для вывода dbt‑проектов на новый уровень.
К концу изучения руководства и прохождения воркшопа вы будете понимать, как использовать Catalog, и уверенно ориентироваться в нескольких dbt‑проектах, отслеживать зависимости и находить возможности для улучшения производительности и качества данных.
Чему вы научитесь
В этом руководстве вы узнаете, как:
- Навигироваться между несколькими dbt‑проектами с помощью Catalog
- Самостоятельно работать с документацией по данным
- Отслеживать зависимости на уровне моделей и колонок
- Выявлять возможности для улучшения производительности и качества данных
Предварительные требования
- Базовое знакомство с платформами данных
Настройка
Теперь мы создадим ваш аккаунт dbt и подключим его к хранилищу данных.
- Перейдите по этому URL (выйдите из системы, если вы уже вошли): https://cloud.getdbt.com/coalesce-workshop-signup
- Введите ваше имя и фамилию.
- Выберите опцию Exploring a Mesh implementation with Catalog.
- Используйте код доступа, предоставленный ведущим воркшопа.
- Примите условия использования и нажмите кнопку Complete Registration.
- Подождите около 30 секунд — вы окажетесь в аккаунте dbt для этого воркшопа, уже подключенном к хранилищу данных.
- Переключитесь в Platform project. Перейдите на вкладку Orchestration и выберите Jobs в выпадающем меню.
- Запустите каждую доступную задачу, кликнув по ней и выбрав Run now. Это запустит job upstream‑проекта как в production, так и в staging‑окружении.
- Переключитесь в Analytics project. Перейдите на вкладку Orchestration и выберите Jobs в выпадающем меню.
- Запустите каждую доступную задачу, кликнув по ней и выбрав Run now. Это запустит job downstream‑проекта как в production, так и в staging‑окружении.
Производительность
Catalog показывает в одном месте самые часто выполняемые модели проекта, модели с самым длительным временем выполнения, модели и тесты с наибольшим числом ошибок, а также самые часто используемые модели — всё это доступно на вкладке Performance.
Практическая часть
- Повторно запустите Daily Prod job.
- Изучите вкладку Performance на странице Project details.
- Какая модель выполнялась дольше всего за последние две недели? За последний месяц?
- Какая модель чаще всего падала по тестам?
- Нажмите на модель с самым долгим временем выполнения в графике Longest model executions.
- Какова средняя длительность выполнения за последние две недели? За последний месяц?
- Как часто собирается эта модель? Каков показатель Model Test Failure Rate?
Ресурсы
С помощью Catalog вы можете просматривать ресурсы проекта (например, модели, тесты и метрики), их lineage, а также потребление моделей, чтобы лучше понимать текущее состояние production.
Навигация и управление проектами в dbt помогают вам и другим разработчикам данных, аналитикам и потребителям данных находить и эффективно использовать dbt‑ресурсы.
Практическая часть
- Изучите вкладку Model
- Выберите модель. Какое у неё количество строк?
- Используйте выпадающий список с результатами тестов, чтобы проверить, прошли ли тесты этой модели. От каких других моделей она зависит?
- Изучите вкладку Tests
- Какие тесты вы видите? Какие тесты имеют предупреждения? Ошибки?
- Изучите вкладку Sources
- Какие источники доступны? У каких источников устаревшие данные? У каких данные свежие?
- Изучите Exposures
- Используйте граф lineage, чтобы найти exposure. На какие модели и метрики ссылается этот Exposure?
Lineage
Catalog предоставляет интерактивную визуализацию DAG вашего проекта. Узлы в графе lineage представляют ресурсы проекта, а рёбра — связи между ними. Узлы имеют цветовую кодировку и иконки в зависимости от типа ресурса.
- Используйте строку поиска и node selectors для фильтрации DAG.
- Lenses упрощают понимание контекстных метаданных проекта в большом масштабе, особенно для выделения конкретной модели или подмножества моделей.
- Применение lens добавляет теги к узлам, показывая метаданные (например, значения layer) с цветовой кодировкой.
- Используйте функцию advanced search для поиска ресурсов в проекте.
- Выполняйте строгие поиски и поиски по ключевым словам.
- Все имена ресурсов, имена колонок, описания ресурсов, warehouse‑связи и код, соответствующие критериям поиска, будут отображаться в центре страницы.
- Применяйте фильтры для более точного поиска.
- При поиске по имени колонки результаты показывают все реляционные узлы, содержащие эту колонку в своих схемах.
Практическая часть
- Изучите Project-Level lineage
- Выберите модель и посмотрите её upstream‑ и downstream‑зависимости
- От каких источников зависит эта модель? Какие модели зависят от неё?
- Изучите Lenses
- Примените Test Status Lenses. Какие модели прошли тесты? У каких были предупреждения?
- Изучите другие lenses (Model Layer, Materialization Type, Resource). Какую информацию они показывают?
- Изучите Column-Level Lineage
- Перейдите на страницу Model resource выбранной модели и изучите Column-Level Lineage для колонки с primary key
Мультипроектность
Используйте Catalog, чтобы глубже понять все ваши проекты dbt с помощью его возможностей мультипроектности.
- Просматривайте количество public, protected и private моделей, а также метрики для каждого проекта.
- Анализируйте lineage между проектами и переходите между графами lineage отдельных проектов.
- Изучайте column-level lineage между проектами.
Практическая часть
- В графе lineage отфильтруйте Project-Level Lineage Platform Project по public‑моделям с помощью фильтра
access:public- Отметьте, какие модели используются analytics‑проектом.
- Изучите lineage Analytics Project
- Выберите модель в Platform project, на которую ссылается Analytics project.
- Посмотрите мультипроектный column-level lineage её primary key.
- Откройте граф lineage Analytics project. На какие модели он ссылается?
Рекомендации по проекту
Эти рекомендации предназначены для повышения доверия к проекту и уменьшения путаницы.
Чтобы узнать больше о конкретных рекомендациях и причинах их появления, ознакомьтесь с нашей документацией.
Практическая часть
- Просмотрите рекомендации для вашего проекта.
- Найдите рекомендацию для модели
agg_daily_returned_orders. - Добавьте документацию к этой модели в файле
aggregates.yml.
Что дальше
Поздравляем! Вы завершили воркшоп Catalog. Теперь у вас есть инструменты и знания, чтобы работать с несколькими dbt‑проектами, отслеживать зависимости и находить возможности для улучшения производительности и качества данных.
Вы научились:
- Использовать Catalog для визуализации lineage проекта и работы с DAG
- Искать ресурсы в проекте и применять фильтры для уточнения результатов
- Изучать lenses и находить table‑materialization в текущем проекте
- Навигироваться между несколькими dbt‑проектами с помощью Catalog
- Отслеживать зависимости на уровне моделей и колонок
- Анализировать рекомендации по проекту и внедрять улучшения
В качестве следующих шагов вы можете ознакомиться с документацией по Catalog и FAQ, чтобы узнать больше о возможностях Catalog.
Следите за выходом новых функций, таких как:
- Визуализация downstream exposures и интеграции (например, Tableau).
- История запросов моделей для дополнительных хранилищ (например, Redshift и Databricks)
- Улучшения data health tiles





