Часто задаваемые вопросы о dbt Mesh

Каковы основные преимущества внедрения dbt Mesh?

Что такое контракты моделей?

Что такое версии моделей?

Что такое модификаторы доступа к моделям?

Что такое группы моделей?

Какие потенциальные проблемы могут возникнуть при использовании dbt Mesh?

Как это связано с концепцией data mesh?

Может ли dbt Mesh обрабатывать циклические зависимости между проектами?

Возможно ли, чтобы несколько проектов напрямую ссылались на общий источник?

Что если модель, на которую я уже построил из другого проекта, позже становится защищенной?

Если я запущу `dbt build --select +model`, вызовет ли это запуск моделей в других проектах?

Если у каждого проекта/домена есть собственное хранилище данных, возможно ли все еще строить модели между ними?

Могу ли я запускать тесты, которые включают таблицы из нескольких разных проектов?

Какую схему данных создаст dbt Mesh для команды?

Можно ли применять model contracts к source-данным?

Можно ли применять contracts частично?

Можно ли указать нескольких владельцев в группе?

Можно ли назначить контракты индивидуальным владельцам?

Могу ли я сделать модель “публичной” только для использования определенными командами?

Возможно ли оркестровать выполнение заданий между несколькими разными проектами?

Доступны ли интеграции между dbt Discovery API и другими инструментами для кросс-проектного lineage?

Как работает пересчёт данных (data restatement) в dbt Mesh, особенно при исправлении бага в датасете?

Как dbt обрабатывает логи выполнения заданий и может ли он передавать их в стандартные инструменты мониторинга, отчеты и т.д.?

Может ли dbt Mesh ссылаться на модели в других аккаунтах в рамках одной платформы данных?

Как работают разрешения на доступ пользователей в dbt Mesh?

Как взаимодействуют между собой разные типы «доступа»?

Существует доступ на уровне моделей в dbt, ролевой доступ для пользователей и групп в dbt, а также доступ к базовым данным на стороне платформы данных.

Прежде всего: доступ к базовым данным всегда определяется и обеспечивается самой платформой данных (например, BigQuery, Databricks, Redshift, Snowflake, Starburst и т.д.). Такой доступ управляется через выполнение DCL-команд (в первую очередь grant). dbt упрощает этот процесс, позволяя настраивать grants для моделей, чтобы выдавать доступ к данным другим ролям, пользователям или группам в хранилище данных. При этом dbt не определяет и не синхронизирует такие права автоматически, если они не настроены явно. Ориентируйтесь на внутренние процессы вашей организации для управления правами доступа в хранилище данных.

Тарифы dbt Enterprise и Enterprise+ поддерживают ролевую модель доступа (RBAC), которая позволяет управлять детальными правами пользователей и групп. Вы можете контролировать, какие пользователи могут просматривать или редактировать различные части проекта в dbt. Уровень доступа пользователя к проектам в dbt также определяет, может ли он детально «исследовать» (explore) этот проект. Роли, пользователи и группы настраиваются внутри приложения dbt через интерфейс или через интеграцию с провайдером идентификации.

Доступ к моделям определяет, где именно модели могут быть использованы через ref. Он также влияет на их обнаруживаемость в Catalog. Параметр access для модели задаётся в коде — так же, как и любые другие настройки модели (materialized, tags и т.д.).

Public: Модели с уровнем доступа public могут использоваться везде. Это «продукты данных» вашей организации.
Protected: Модели с уровнем доступа protected могут использоваться только внутри одного проекта. Это уровень доступа по умолчанию.
В будущем мы обсуждаем расширение protected, чтобы такие модели можно было использовать в определённых downstream-проектах. Подробнее см. GitHub issue. Если этот сценарий вам интересен — поставьте апвоут или оставьте комментарий.
Private: Механизм groups позволяет более тонко контролировать использование private-моделей. Определив группу и назначив модели в эту группу, вы можете запретить другим моделям (не входящим в ту же группу) ссылаться на любые private-модели внутри неё. Группы также предоставляют стандартный механизм для задания owner всех ресурсов, которые они содержат.

В Catalog модели с уровнем доступа public доступны для обнаружения всем пользователям аккаунта dbt — каждая публичная модель отображается в режиме «multi-project». В отличие от них, protected и private-модели видны только тем пользователям, у которых есть доступ к соответствующему проекту (включая доступ только для чтения).

Поскольку dbt не синхронизирует автоматически grants на уровне хранилища данных с параметром access на уровне моделей, между ними возможны расхождения. Например, метаданные public-модели видны всем пользователям dbt, любой может написать ref на такую модель, но при фактическом запуске или предпросмотре выясняется, что у пользователя нет доступа к данным в хранилище. Это сделано намеренно. Такой подход позволяет сохранять принцип минимально необходимого доступа к данным, одновременно обеспечивая прозрачность и обнаруживаемость данных для всей организации. Зная, какие «продукты данных» (публичные модели) существуют — их описания, владельцев и набор колонок — аналитик из другой команды может подготовить обоснованный запрос на доступ к исходным данным.

Можно ли запрашивать права доступа у других команд прямо в dbt?

Как участник центральной data-команды, могу ли я сохранять видимость всего DAG организации?

Как ограничить доступ разработчиков к чувствительным production-данным при ссылках на другие проекты?

Работает ли dbt Mesh, если проекты 'дублируются' (проект разработки <> проект производства)?

Как dbt Semantic Layer связан с dbt Mesh и как они работают вместе?

Semantic Layer и dbt Mesh — это взаимодополняющие механизмы, предоставляемые dbt, которые совместно улучшают управление, удобство использования и управление данными (governance) в масштабных средах данных.

Semantic Layer в dbt позволяет командам централизованно определять бизнес‑метрики и измерения. Это обеспечивает единообразие и надежность определений метрик в различных аналитических инструментах и платформах.

Mesh позволяет организациям разделять архитектуру данных на несколько доменно‑ориентированных проектов, сохраняя при этом возможность ссылаться на «публичные» модели между проектами. Также возможно ссылаться на «публичную» модель из другого проекта с целью определения семантических моделей и метрик. Ваша организация может иметь несколько dbt‑проектов, которые наполняют единый семантический слой, обеспечивая согласованное и однозначное определение и понимание метрик и измерений во всех этих доменах.

При использовании Семантического слоя dbt в контексте dbt Mesh, мы рекомендуем следующее:

У вас есть один отдельный проект, который содержит ваши семантические модели и метрики.
Затем, по мере построения Semantic Layer, вы можете делать кросс‑ссылки на dbt‑модели между различными проектами или пакетами, чтобы создавать семантические модели, используя двухаргументную функцию ref (ref('project_name', 'model_name')).
Проект dbt Semantic Layer служит глобальным источником истины для всех остальных ваших проектов.

Пример использования

Например, предположим, у вас есть публичная модель (fct_orders), которая находится в проекте jaffle_finance. При создании вашей семантической модели используйте следующий синтаксис для ссылки на модель:

models/metrics/semantic_model_name.yml

semantic_models:
  - name: customer_orders
    defaults:
      agg_time_dimension: first_ordered_at
    description: |
      Март на уровне клиентов, агрегирующий заказы клиентов.
    model: ref('jaffle_finance', 'fct_orders') # ref('project_name', 'model_name')
    entities:
      ...остальная часть конфигурации...
    dimensions:
      ...остальная часть конфигурации...
    measures:
      ...остальная часть конфигурации...

Обратите внимание, что в параметре model мы используем функцию ref с двумя аргументами для ссылки на публичную модель fct_orders, определенную в проекте jaffle_finance.

Как dbt Catalog соотносится с dbt Mesh и как они работают вместе?

Как dbt CLI соотносится с dbt Mesh и как они работают вместе?

Требует ли dbt Mesh использования определенной версии dbt?

Есть ли способ использовать возможности dbt Mesh в dbt Core?

Хотя dbt Core определяет ряд базовых элементов для dbt Mesh, dbt предлагает расширенный пользовательский опыт, который использует эти элементы для масштабируемого взаимодействия между несколькими командами. Это достигается за счёт мультипроектного обнаружения в Catalog, настроенного в соответствии с уровнем доступа каждого пользователя.

Несколько ключевых компонентов, лежащих в основе паттерна dbt Mesh, включая контракты моделей, версии и модификаторы доступа, определены и реализованы в dbt Core. Мы считаем, что это элементы базового языка dbt, поэтому их реализации являются open source. Наша цель — определить стандартный паттерн, который аналитические инженеры по всему миру смогут использовать, расширять и помогать нам улучшать.

Для обращения к моделям, определённым в другом проекте, пользователи также могут использовать packages — давнюю функциональность dbt Core. При импорте апстрим‑проекта как пакета dbt загрузит все модели, определённые в этом проекте, что позволяет разрешать кросс‑проектные ссылки на эти модели. При необходимости доступ можно ограничить только моделями с уровнем доступа public.

Ключевое отличие связано с сервисом метаданных dbt, который является уникальной возможностью платформы dbt и позволяет разрешать ссылки только на публичные модели проекта. Этот сервис даёт пользователям возможность зависеть от апстрим‑проектов и ссылаться исключительно на их public‑модели, без необходимости загружать всю сложность этих апстрим‑проектов в локальную среду разработки.

Требуется ли для dbt Mesh определённый тариф dbt?

Есть ли рекомендованный процесс миграции или внедрения?

Есть ли инструменты, которые помогут мне мигрировать на dbt Mesh?

Моя команда не структурирована для необходимости нескольких проектов сегодня. Какие аспекты dbt Mesh актуальны для меня?

Часто задаваемые вопросы о dbt Mesh

Обзор Mesh

Как работает dbt Mesh

Разрешения и доступ

Совместимость с другими возможностями

Пример использования

Доступность

Советы по внедрению dbt Mesh

Нашли ошибку?

Начните работать с dbt.

Продукты

Сообщество

Поддержка

Наши соцсети

Обзор Mesh​

Как работает dbt Mesh​

Разрешения и доступ​

Совместимость с другими возможностями​

Пример использования​

Доступность​

Советы по внедрению dbt Mesh​

Нашли ошибку?

Продукты

Сообщество

Поддержка

Наши соцсети

Обзор Mesh

Как работает dbt Mesh

Разрешения и доступ

Совместимость с другими возможностями

Пример использования

Доступность

Советы по внедрению dbt Mesh