dbt Catalog FAQs
Catalog — это новая база знаний и инструмент визуализации lineage в dbt. Он предоставляет интерактивный и высокоуровневый обзор всего ландшафта данных вашей компании, позволяя углубляться в необходимый контекст, чтобы понимать и улучшать lineage, а значит — повышать доверие команд к данным, которые они используют для принятия решений.
Обзор
Как dbt Catalog помогает с качеством данных?
Catalog делает понимание всего lineage — от источников данных до слоя отчетности — простым и наглядным, чтобы вы могли отлаживать, улучшать и оптимизировать пайплайны. Благодаря встроенным возможностям, таким как рекомендации по проекту и анализ производительности моделей, вы можете быть уверены, что по всему ландшафту данных обеспечено достаточное покрытие тестами и документацией, а также быстро находить и устранять медленно выполняющиеся модели. Column-level lineage позволяет быстро определить потенциальное влияние изменений таблиц на downstream-зависимости или, наоборот, оперативно разобраться в первопричине инцидента. Catalog дает командам инсайты, необходимые для проактивного повышения качества данных, поддерживая высокую производительность пайплайнов и стабильное доверие к данным.
Как формируется стоимость dbt Catalog?
Catalog доступен во всех регионах и для всех типов развертывания на планах dbt уровня Enterprise и Starter. Некоторые возможности Catalog, такие как рекомендации по проекту, multi-project lineage, column-level lineage и другие, доступны только на планах Enterprise и Enterprise+.
Доступ к Catalog имеют пользователи с developer и read-only лицензиями.
Что произошло с dbt Docs?
Catalog является основным интерфейсом документации для клиентов dbt. dbt Docs по-прежнему доступен, но не предлагает той же скорости, объема метаданных и уровня видимости, что Catalog, и со временем станет legacy-функцией.
Как работает dbt Catalog
Можно ли использовать dbt Catalog on-premises или с self-hosted развертыванием dbt Core?
Нет. Catalog и все его возможности доступны только в рамках пользовательского интерфейса dbt. Catalog отражает метаданные ваших проектов dbt и их запусков.
Как dbt Catalog поддерживает окружения dbt?
Catalog поддерживает одно production или staging окружение развертывания для каждого проекта, который вы хотите исследовать. По умолчанию используется последнее состояние production или staging проекта. Для одного проекта dbt можно назначить только одно production и одно staging окружение.
Поддержка development-окружений (Cloud CLI и Studio IDE) появится в ближайшее время.
Как начать работу с Catalog? Как происходит обновление данных?
Просто выберите Explore в верхней навигационной панели dbt. Catalog автоматически обновляется после каждого запуска dbt в соответствующем окружении проекта (по умолчанию — production). Команды dbt, которые вы выполняете в рамках окружения, генерируют и обновляют метаданные в Catalog, поэтому убедитесь, что в джобах этого окружения запускается корректный набор команд. Подробнее см. в разделе Generate metadata.
Можно ли экспортировать lineage dbt во внешнюю систему или каталог?
Да. Lineage, на котором основан Catalog, также доступен через Discovery API.
Как dbt Catalog интегрируется со сторонними инструментами для отображения сквозного lineage?
Catalog отражает весь lineage, определенный внутри dbt-проекта. Наше видение Catalog заключается в том, чтобы со временем включать дополнительные метаданные из внешних инструментов, таких как загрузчики данных (sources) и BI/аналитические инструменты (exposures), интегрированные с dbt, и бесшовно встраивать их в lineage проекта dbt.
Почему ранее видимые данные исчезли из dbt Catalog?
Catalog автоматически удаляет устаревшие метаданные через 3 месяца, если за это время не выполнялись джобы для их обновления. Чтобы избежать этого, убедитесь, что джобы с необходимыми командами запускаются чаще, чем раз в 3 месяца.
Ключевые возможности
Поддерживает ли dbt Catalog multi-project discovery (dbt Mesh)?
Да. Подробнее см. в разделе Explore multiple projects.
Какие возможности поиска поддерживает dbt Catalog?
Поиск ресурсов поддерживает ключевые слова, частичные совпадения (fuzzy search) и логические операторы, такие как OR. Поиск по lineage поддерживает использование dbt selectors. Подробности см. в разделе Keyword search.
Можно ли просматривать информацию о выполнении моделей для джобы, которая сейчас выполняется?
dbt обновляет графики производительности и метрики после завершения выполнения джобы.
Можно ли проанализировать количество успешных запусков моделей за месяц?
График моделей, собранных по месяцам, доступен в дашборде dbt.
Можно ли редактировать описания моделей или колонок прямо в dbt?
Да. На сегодняшний день вы можете редактировать описания в Studio IDE или Cloud CLI, изменяя YAML-файлы в рамках dbt-проекта. В будущем Catalog будет поддерживать дополнительные способы редактирования описаний.
Откуда берутся рекомендации? Можно ли их настраивать?
Рекомендации в основном повторяют правила best practices из пакета dbt_project_evaluator. В настоящее время рекомендации нельзя настраивать. В будущем Catalog вероятно будет поддерживать возможности кастомизации рекомендаций (например, через код проекта).
Lineage на уровне колонок
Какие основные сценарии использования column-level lineage в dbt Catalog?
Column-level lineage в Catalog можно использовать для улучшения многих процессов разработки данных, включая:
- Audit — визуализация того, как данные перемещаются и используются в dbt-проекте
- Root cause — сокращение времени обнаружения и устранения проблем с качеством данных за счет трассировки до источника
- Impact analysis — отслеживание трансформаций и использования, чтобы избежать проблем для потребителей данных
- Efficiency — удаление ненужных колонок для снижения затрат и нагрузки на команду данных
Остается ли column-level lineage рабочим, если имена колонок различаются между моделями?
Да. Column-level lineage корректно обрабатывает изменения имен колонок в разных местах dbt-проекта.
Могут ли несколько проектов использовать одно и то же определение колонки?
Нет. Cross-project column lineage поддерживается только в контексте просмотра того, как публичная модель используется в разных проектах, но не на уровне отдельных колонок.
Могут ли описания колонок автоматически распространяться downstream по lineage?
Да. Повторно используемая колонка, помеченная как passthrough или rename, наследует описание из source или upstream-модели. Иными словами, колонки источников и upstream-моделей передают свои описания downstream всякий раз, когда они не трансформируются, поэтому вам не нужно вручную задавать описание. Подробнее см. в разделе Inherited column descriptions.
Доступен ли column-level lineage на вкладке development?
В настоящее время — нет, но в будущем мы планируем добавить awareness column-level lineage во все возможности dbt.
Доступность, доступ и права
Как пользователи без developer-роли могут взаимодействовать с dbt Catalog?
Пользователи с read-only доступом могут просматривать метаданные в Catalog. Более специализированные сценарии и способы исследования для аналитиков и менее технических участников будут добавлены в будущем.
Требуется ли определенный план dbt для использования dbt Catalog?
Catalog доступен на плане dbt Starter и на всех планах Enterprise. Некоторые возможности Catalog, такие как рекомендации по проекту, multi-project lineage, column-level lineage и другие, доступны только на планах Enterprise и Enterprise+.
Смогут ли пользователи dbt Core воспользоваться новыми возможностями dbt Catalog?
Нет. Catalog — это продукт, доступный только в рамках dbt.
Можно ли получить доступ к dbt Catalog с read-only лицензией?
Да, пользователи с read-only доступом могут использовать Catalog. Доступность конкретных функций Catalog зависит от вашего плана dbt.
Есть ли простой способ поделиться полезным контентом dbt Catalog с людьми вне dbt?
Возможность встраивания и шаринга представлений рассматривается как потенциальная функция в будущем.
Доступен ли dbt Catalog из других разделов внутри dbt?
Да, вы можете получить доступ к Catalog из различных функций dbt, что обеспечивает бесшовную навигацию между ресурсами и lineage в рамках проекта.
Хотя основной способ доступа к Catalog — это ссылка Explore в навигации, вы также можете открыть его из Studio IDE, вкладки lineage в jobs и вкладки model timing в jobs.