Перейти к основному содержимому

Быстрый старт для воркшопа dbt Catalog

Explorer
Snowflake
dbt platform
Quickstart
Catalog
Beginner
Menu

    Введение

    Откройте для себя возможности Catalog в рамках практического воркшопа, предназначенного для аналитических инженеров, аналитиков данных, стейкхолдеров и руководителей по данным.

    Этот гайд быстрого старта сопровождает практический воркшоп Catalog и помогает погрузиться в реализацию Mesh производственного уровня, а также понять, как исследовать ваши data workflow. Независимо от того, хотите ли вы упростить операции с данными, повысить качество данных или самостоятельно получать информацию о вашей data‑платформе, этот воркшоп даст вам инструменты и знания, необходимые для вывода dbt‑проектов на новый уровень.

    К концу изучения руководства и прохождения воркшопа вы будете понимать, как использовать Catalog, и уверенно ориентироваться в нескольких dbt‑проектах, отслеживать зависимости и находить возможности для улучшения производительности и качества данных.

    Чему вы научитесь

    В этом руководстве вы узнаете, как:

    • Навигироваться между несколькими dbt‑проектами с помощью Catalog
    • Самостоятельно работать с документацией по данным
    • Отслеживать зависимости на уровне моделей и колонок
    • Выявлять возможности для улучшения производительности и качества данных

    Предварительные требования

    • Базовое знакомство с платформами данных

    Настройка

    Теперь мы создадим ваш аккаунт dbt и подключим его к хранилищу данных.

    1. Перейдите по этому URL (выйдите из системы, если вы уже вошли): https://cloud.getdbt.com/coalesce-workshop-signup
    2. Введите ваше имя и фамилию.
    3. Выберите опцию Exploring a Mesh implementation with Catalog.
    4. Используйте код доступа, предоставленный ведущим воркшопа.
    5. Примите условия использования и нажмите кнопку Complete Registration.
    6. Подождите около 30 секунд — вы окажетесь в аккаунте dbt для этого воркшопа, уже подключенном к хранилищу данных.
    7. Переключитесь в Platform project. Перейдите на вкладку Orchestration и выберите Jobs в выпадающем меню.
    8. Запустите каждую доступную задачу, кликнув по ней и выбрав Run now. Это запустит job upstream‑проекта как в production, так и в staging‑окружении.
    9. Переключитесь в Analytics project. Перейдите на вкладку Orchestration и выберите Jobs в выпадающем меню.
    10. Запустите каждую доступную задачу, кликнув по ней и выбрав Run now. Это запустит job downstream‑проекта как в production, так и в staging‑окружении.
    Запуск задачЗапуск задач

    Производительность

    Вкладка Performance в dbt CatalogВкладка Performance в dbt Catalog

    Catalog показывает в одном месте самые часто выполняемые модели проекта, модели с самым длительным временем выполнения, модели и тесты с наибольшим числом ошибок, а также самые часто используемые модели — всё это доступно на вкладке Performance.

    Практическая часть

    • Повторно запустите Daily Prod job.
    • Изучите вкладку Performance на странице Project details.
      • Какая модель выполнялась дольше всего за последние две недели? За последний месяц?
      • Какая модель чаще всего падала по тестам?
      • Нажмите на модель с самым долгим временем выполнения в графике Longest model executions.
        • Какова средняя длительность выполнения за последние две недели? За последний месяц?
        • Как часто собирается эта модель? Каков показатель Model Test Failure Rate?

    Ресурсы

    С помощью Catalog вы можете просматривать ресурсы проекта (например, модели, тесты и метрики), их lineage, а также потребление моделей, чтобы лучше понимать текущее состояние production.

    Навигация и управление проектами в dbt помогают вам и другим разработчикам данных, аналитикам и потребителям данных находить и эффективно использовать dbt‑ресурсы.

    Вкладка Models в dbt CatalogВкладка Models в dbt Catalog

    Практическая часть

    • Изучите вкладку Model
      • Выберите модель. Какое у неё количество строк?
      • Используйте выпадающий список с результатами тестов, чтобы проверить, прошли ли тесты этой модели. От каких других моделей она зависит?
    • Изучите вкладку Tests
      • Какие тесты вы видите? Какие тесты имеют предупреждения? Ошибки?
    • Изучите вкладку Sources
      • Какие источники доступны? У каких источников устаревшие данные? У каких данные свежие?
    • Изучите Exposures
      • Используйте граф lineage, чтобы найти exposure. На какие модели и метрики ссылается этот Exposure?

    Lineage

    Catalog предоставляет интерактивную визуализацию DAG вашего проекта. Узлы в графе lineage представляют ресурсы проекта, а рёбра — связи между ними. Узлы имеют цветовую кодировку и иконки в зависимости от типа ресурса.

    • Используйте строку поиска и node selectors для фильтрации DAG.
    • Lenses упрощают понимание контекстных метаданных проекта в большом масштабе, особенно для выделения конкретной модели или подмножества моделей.
      • Применение lens добавляет теги к узлам, показывая метаданные (например, значения layer) с цветовой кодировкой.
    Граф lineage в dbt CatalogГраф lineage в dbt Catalog
    • Используйте функцию advanced search для поиска ресурсов в проекте.
      • Выполняйте строгие поиски и поиски по ключевым словам.
      • Все имена ресурсов, имена колонок, описания ресурсов, warehouse‑связи и код, соответствующие критериям поиска, будут отображаться в центре страницы.
      • Применяйте фильтры для более точного поиска.
    • При поиске по имени колонки результаты показывают все реляционные узлы, содержащие эту колонку в своих схемах.
    Функция расширенного поиска в dbt CatalogФункция расширенного поиска в dbt Catalog

    Практическая часть

    • Изучите Project-Level lineage
      • Выберите модель и посмотрите её upstream‑ и downstream‑зависимости
      • От каких источников зависит эта модель? Какие модели зависят от неё?
    • Изучите Lenses
      • Примените Test Status Lenses. Какие модели прошли тесты? У каких были предупреждения?
      • Изучите другие lenses (Model Layer, Materialization Type, Resource). Какую информацию они показывают?
    • Изучите Column-Level Lineage
      • Перейдите на страницу Model resource выбранной модели и изучите Column-Level Lineage для колонки с primary key

    Мультипроектность

    Используйте Catalog, чтобы глубже понять все ваши проекты dbt с помощью его возможностей мультипроектности.

    • Просматривайте количество public, protected и private моделей, а также метрики для каждого проекта.
    • Анализируйте lineage между проектами и переходите между графами lineage отдельных проектов.
    • Изучайте column-level lineage между проектами.

    Практическая часть

    • В графе lineage отфильтруйте Project-Level Lineage Platform Project по public‑моделям с помощью фильтра access:public
      • Отметьте, какие модели используются analytics‑проектом.
    • Изучите lineage Analytics Project
      • Выберите модель в Platform project, на которую ссылается Analytics project.
      • Посмотрите мультипроектный column-level lineage её primary key.
      • Откройте граф lineage Analytics project. На какие модели он ссылается?

    Рекомендации по проекту

    Эти рекомендации предназначены для повышения доверия к проекту и уменьшения путаницы.

    Чтобы узнать больше о конкретных рекомендациях и причинах их появления, ознакомьтесь с нашей документацией.

    Вкладка рекомендаций проекта в dbt CatalogВкладка рекомендаций проекта в dbt Catalog

    Практическая часть

    • Просмотрите рекомендации для вашего проекта.
    • Найдите рекомендацию для модели agg_daily_returned_orders.
    • Добавьте документацию к этой модели в файле aggregates.yml.

    Что дальше

    Поздравляем! Вы завершили воркшоп Catalog. Теперь у вас есть инструменты и знания, чтобы работать с несколькими dbt‑проектами, отслеживать зависимости и находить возможности для улучшения производительности и качества данных.

    Вы научились:

    • Использовать Catalog для визуализации lineage проекта и работы с DAG
    • Искать ресурсы в проекте и применять фильтры для уточнения результатов
    • Изучать lenses и находить table‑materialization в текущем проекте
    • Навигироваться между несколькими dbt‑проектами с помощью Catalog
    • Отслеживать зависимости на уровне моделей и колонок
    • Анализировать рекомендации по проекту и внедрять улучшения

    В качестве следующих шагов вы можете ознакомиться с документацией по Catalog и FAQ, чтобы узнать больше о возможностях Catalog.

    Следите за выходом новых функций, таких как:

    Нашли ошибку?

    0