Перейти к основному содержимому

Линейная зависимость на уровне столбцов, производительность моделей и рекомендации: создавайте надежные продукты данных с dbt Explorer

· 8 мин. чтения
Dave Connors

Что такое платформа данных?

Создание проекта dbt — это тяжелая работа. Мы, как специалисты по данным, вложили много усилий в создание успешных и здоровых продуктов данных, и мы должны гордиться теми инсайтами, которые они принесли. Конечно, это было не без трудностей — мы помним ужасные два года, когда мы усердно работали, чтобы платформа просто начала работать. Мы помним тревожные подростковые годы, когда тесты постоянно проваливались, как будто назло нам. Много крови, пота и слез пролито в служении чистым данным!

Когда проект смог самостоятельно одеваться и питаться, мы также усердно работали, чтобы заручиться поддержкой наших коллег, которые доверяли нашему маленькому проекту. Без глубокого доверия и понимания того, что мы построили, наши коллеги, которые зависят от ваших данных (или даже те, кто участвует в их разработке вместе с вами — в конце концов, это требует усилий всей команды!), скорее всего, будут обращаться к вам с вопросами, чем использовать свои BI-инструменты для генерации инсайтов.

Когда наши коллеги спрашивают, откуда берутся данные в их отчетах, насколько они свежи или как правильно рассчитать метрику, это радость! Это означает, что они хотят использовать то, что мы построили, с пользой — проблема в том, что, исторически, ответить на эти вопросы было не так уж просто. Это часто означало ручной, кропотливый процесс проверки журналов выполнения и вашего сайта документации dbt, чтобы предоставить заинтересованной стороне необходимую информацию.

Встречайте dbt Explorer! dbt Explorer централизует документацию, зависимость и метаданные выполнения, чтобы уменьшить объем работы, необходимой для быстрой доставки надежных продуктов данных.

dbt Explorer: обновление для поиска данных

В прежние времена, чтобы ответить на вопрос о вашей платформе данных, возможно, требовалось немного криптографии, просеивание, возможно, актуальной документации в вашей внутренней вики, журналов выполнения, чтобы выяснить, когда были выполнены ваши модели, и обращение к члену команды данных с наибольшим стажем. В последние несколько лет dbt Docs помог централизовать рабочий процесс документации и значительно улучшил процесс документирования. Хотя это полезно, dbt Docs всегда предоставлял только снимок в один момент времени и не имел никакой информации о развертывании и выполнении вашей платформы. dbt Explorer усиливает опыт работы с документами, предоставляя осведомленность о состоянии вашей платформы, делая поддержку и устранение неполадок вашей платформы проще, чем когда-либо — он даже проактивно сообщает вам, на что следует обратить внимание, чтобы создать еще более качественные продукты данных!

Откуда эти данные?

Ваши заинтересованные стороны и коллеги-разработчики нуждаются в способе ориентироваться в вашем проекте dbt и знать полное происхождение числа, смотрящего на них из их таблицы. Откуда эта информация? Включает ли она источник данных XYZ или только ABC?

Это классический вопрос заинтересованной стороны не просто так! Знание происхождения данных автоматически увеличивает уровень доверия к отчетности, которую вы используете для принятия правильных решений. dbt DAG долгое время служил картой ваших потоков данных, отслеживая поток от необработанных данных до готового к запросу хранилища данных.

Посмотрите на эту зависимость!Посмотрите на эту зависимость!

dbt Explorer развивает этот опыт тремя ключевыми способами:

  • Зависимость 🤝 Документы - зависимость в dbt Explorer встроена в страницу документации для каждого ресурса, что означает, что нет необходимости переключаться между вашим DAG и вашими документами и терять ценный контекст. Аналогично, когда вы просматриваете DAG в полноэкранном режиме, нажатие на ресурс в вашем проекте загружает панель с краткой информацией о наиболее важной информации о ресурсе, который вас интересует (включая статус выполнения, информацию о контракте данных и т.д.). Понимание зависимости через DAG и контекста из вашей письменной документации — это один рабочий процесс в Explorer, а не два.
  • Зависимость между проектами - если вы используете новую архитектуру dbt Mesh, вы можете проследить свои данные до конца DAG и обнаружить, что их источник — это не необработанные данные, а фактически результат другого проекта dbt другой команды! К счастью, dbt Explorer предоставляет первоклассную поддержку для визуализации и понимания зависимости между проектами при использовании dbt Mesh:
    • Обзор учетной записи + DAG проекта: dbt Explorer предоставляет более высокий уровень обзора отношений между всеми вашими проектами в вашей учетной записи dbt Cloud — вы можете проследить зависимость между проектами и легко углубиться в каждый проект. Когда вы нажимаете на проект в этом представлении, боковая панель включает список всех доступных для использования публичных моделей. Двойное нажатие открывает зависимость для этого конкретного проекта, что облегчает перемещение по графу знаний вашей организации!
    • Иконки межпроектных связей: Когда вы находитесь в зависимости проекта, dbt Explorer отмечает межпроектные отношения, чтобы было ясно, когда существуют зависимости, охватывающие несколько проектов. Заинтересованные стороны могут быстро понять, с какими владельцами проектов им, возможно, нужно связаться, если им нужна дополнительная информация о наборе данных.
  • Зависимость на уровне столбцов - давние слушатели подкаста знают, что зависимость на уровне столбцов — это часто запрашиваемая функция в dbt. Одно дело знать, как данные перемещаются между моделями, но отношения на уровне столбцов помогают понять точно, как данные используются в моделях — это значительно упрощает отладку проблем с данными! Мы рады сообщить, что dbt Explorer предлагает эту функцию, встроенную вместе с зависимостью вашей модели.
Вы можете проследить данные в столбце от источника до конца вашего DAG!Вы можете проследить данные в столбце от источника до конца вашего DAG!

С dbt Explorer вы можете ответить на любой вопрос о происхождении ваших данных на любом уровне детализации, будь то проект к проекту, модель к модели или столбец к столбцу.

Хорошо, но свежие ли они? Они правильные?

Когда путь данных к вашему BI-инструменту ясен, возникает естественный второй вопрос, который можно задать перед их использованием — это, эээ, хорошие данные? Просто знать, откуда они пришли, недостаточно, чтобы построить доверие к продукту данных — вам нужно знать, своевременны ли они и точны.

dbt Explorer объединяет метаданные выполнения с опытом работы с документацией — он отражает последнее состояние вашего проекта по всем вашим запускам заданий в вашей производственной среде и встраивает информацию о выполнении по всему продукту. Для каждой модели, семени или снимка Explorer отображает их последний статус выполнения, а также статусы для любых тестов, проведенных против этих ресурсов. Источники показывают последнюю информацию о свежести источника, а экспозиции встраивают агрегированную информацию о тестах и свежести прямо на страницу с деталями! Больше не нужно покидать сайт документации, чтобы проверить последние журналы и увидеть, что свежо, а что нет — Explorer централизует все, чтобы вам не пришлось!

модель прошла! тесты прошли!модель прошла! тесты прошли!
вы когда-нибудь видели более свежий источник?вы когда-нибудь видели более свежий источник?

Здоров ли проект? Мы правильно его управляем?

Помимо создания надежных продуктов данных и обеспечения их доверия и использования, разработчикам нужно знать, как они могут улучшить качество своих проектов или на какие области следует обратить внимание для рефакторинга и оптимизации в следующем квартале. Всегда существует баланс между поддержанием платформы данных и добавлением новых функций. Исторически было трудно точно знать, куда инвестировать время и усилия для улучшения здоровья вашего проекта — dbt Explorer предоставляет две функции, которые освещают возможные области для улучшения в вашем проекте.

Рекомендации

Один из более популярных пакетов с открытым исходным кодом dbt — это dbt_project_evaluator, который тестирует ваш проект на соответствие набору хорошо установленных лучших практик dbt. Теперь dbt Explorer отображает многие из тех же рекомендаций прямо в интерфейсе Explorer, используя метаданные из Discovery API, без необходимости загружать и запускать пакет!

Каждая модель и источник имеют вкладку Рекомендации на странице деталей ресурса, с конкретными рекомендациями по улучшению качества этого ресурса. Explorer также предлагает глобальный обзор, показывающий все рекомендации по проекту, и включает некоторые ключевые метрики, измеряющие покрытие тестами и документацией моделей в вашем проекте. Эти рекомендации предоставляют информацию о том, как вы можете создать более хорошо документированный, хорошо протестированный и хорошо построенный проект, что приведет к меньшему количеству путаницы и большему доверию.

Сводка рекомендаций — у меня есть над чем поработать!Сводка рекомендаций — у меня есть над чем поработать!

Тенденции производительности моделей

Большая проблема для аналитиков — попытка понять, становятся ли модели dbt медленнее или работают менее эффективно со временем. Модель, которая отлично работала, когда ваши данные были небольшими, может не работать так же хорошо, когда ваша платформа созревает! Если только вещи не начинают активно ломаться, может быть трудно понять, на чем сосредоточить свою работу по рефакторингу.

Теперь dbt Explorer отображает метаданные выполнения моделей, чтобы исключить догадки из тонкой настройки ваших запусков dbt. Появилась новая страница с общим обзором, чтобы выделить модели, которые занимают больше всего времени на выполнение, чаще всего выдают ошибки и имеют самый высокий уровень отказов тестов. Каждая страница деталей модели также имеет новую вкладку Производительность, которая показывает историю выполнения этой конкретной модели за последние три месяца запусков заданий. Обнаружение зловещего медленного увеличения времени выполнения может указывать на то, что пришло время для рефакторинга — больше не нужно самостоятельно просматривать бесчисленные файлы run_results.json! dbt Explorer предоставляет вам данные, которые вам нужны, там, где они вам нужны.

может, мне стоит проверить этот долгий запуск!может, мне стоит проверить этот долгий запуск!

Счастливого пути!

Говорят, что лучшее время для инвестирования посадки дерева документирования вашего проекта dbt — это вчера, а второе лучшее время — сегодня. С учетом всех наворотов, которые усиливают ваш опыт работы с документацией в dbt Explorer, нет времени лучше, чем настоящее! Использование вашей документации и использование ваших метаданных в dbt Explorer приведет к более быстрому выпуску лучших продуктов данных — выходите и исследуйте!

Comments

Loading