Линейная зависимость на уровне столбцов, производительность моделей и рекомендации: создавайте надежные продукты данных с dbt Explorer
Что такое платформа данных?
Создание проекта dbt — это тяжелая работа. Мы, как специалисты по данным, вложили много усилий в создание успешных и здоровых продуктов данных, и мы должны гордиться теми инсайтами, которые они принесли. Конечно, это было не без трудностей — мы помним ужасные два года, когда мы усердно работали, чтобы платформа просто начала работать. Мы помним тревожные подростковые го ды, когда тесты постоянно проваливались, как будто назло нам. Много крови, пота и слез пролито в служении чистым данным!
Когда проект смог самостоятельно одеваться и питаться, мы также усердно работали, чтобы заручиться поддержкой наших коллег, которые доверяли нашему маленькому проекту. Без глубокого доверия и понимания того, что мы построили, наши коллеги, которые зависят от ваших данных (или даже те, кто участвует в их разработке вместе с вами — в конце концов, это требует усилий всей команды!), скорее всего, будут обращаться к вам с вопросами, чем использовать свои BI-инструменты для генерации инсайтов.
Когда наши коллеги спрашивают, откуда берутся данные в их отчетах, насколько они свежи или как правильно рассчитать метрику, это радость! Это означает, что они хотят использовать то, что мы построили, с пользой — проблема в том, что, исторически, ответить на эти вопросы было не так уж просто. Это часто означало ручной, кропотливый процесс проверки журналов выполнения и вашего сайта документации dbt, чтобы предоставить заинтересованной стороне необходимую информацию.
Встречайте dbt Explorer! dbt Explorer централизует документацию, зависимость и метаданные выполнения, чтобы уменьшить объем работы, необходимой для быстрой доставки надежных продуктов данных.
dbt Explorer: обновление для поиска данных
В прежние времена, чтобы ответить на вопрос о вашей платформе данных, возможно, требовалось немного криптографии, просеивание, возможно, актуальной документации в вашей внутренней вики, журналов выполнения, чтобы выяснить, когда были выполнены ваши модели, и обращение к члену команды данных с наибольшим стажем. В последние несколько лет dbt Docs помог централизовать рабочий процесс документации и значительно улучшил процесс документирования. Хотя это полезно, dbt Docs всегда предоставлял только снимок в один момент времени и не имел никакой информации о развертывании и выполнении вашей платформы. dbt Explorer усиливает опыт работы с документами, предоставляя осведомленность о состоянии вашей платформы, делая поддержку и устранение неполадок вашей платформы проще, чем когда-либо — он даже проактивно сообщает вам, на что следует обратить внимание, чтобы создать еще более качественные продукты данных!
Откуда эти данные?
Ваши заинтересованные стороны и коллеги-разработчики нуждаются в способе ориентироваться в вашем проекте dbt и знать полное происхождение числа, смотрящего на них из их таблицы. Откуда эта информация? Включает ли она источник данных XYZ или только ABC?
Это классический вопрос заинтересованной стороны не просто так! Знание происхождения данных автоматически увеличивает уровень доверия к отчетности, которую вы используете для принятия правильных решений. dbt DAG долгое время служил картой ваших потоков данных, отслеживая поток от необработанных данных до готового к запросу хранилища данных.
dbt Explorer развивает этот опыт тремя ключевыми способами:
- Зависимость 🤝 Документы - зависимость в dbt Explorer встроена в страницу документации для каждого ресурса, что означает, что нет необходимости переключаться между вашим DAG и вашими документами и терять ценный контекст. Аналогично, когда вы просматриваете DAG в полноэкранном режиме, нажатие на ресурс в вашем проекте загружает панель с краткой информацией о наиболее важной информации о ресурсе, который вас интересует (включая статус выполнения, информацию о контракте данных и т.д.). Понимание зависимости через DAG и контекста из вашей письменной документации — это один рабочий процесс в Explorer, а не два.
- Зависимость между проектами - если вы используете новую архитектуру dbt Mesh, вы можете проследить свои данные до конца DAG и обнаружить, что их источник — это не необработанные данные, а фактически результат другого проекта dbt другой команды! К счастью, dbt Explorer предоставляет первоклассную поддержку для визуализации и понимания зависимости между проектами при и спользовании dbt Mesh:
- Обзор учетной записи + DAG проекта: dbt Explorer предоставляет более высокий уровень обзора отношений между всеми вашими проектами в вашей учетной записи dbt Cloud — вы можете проследить зависимость между проектами и легко углубиться в каждый проект. Когда вы нажимаете на проект в этом представлении, боковая панель включает список всех доступных для использования публичных моделей. Двойное нажатие открывает зависимость для этого конкретного проекта, что облегчает перемещение по графу знаний вашей организации!
- Иконки межпроектных связей: Когда вы находитесь в зависимости проекта, dbt Explorer отмечает межпроектные отношения, чтобы было ясно, когда существуют зависимости, охватывающие несколько проектов. Заинтересованные стороны могут быстро понять, с какими владельцами проектов им, возможно, нужно связаться, если им нужна дополнительная информация о наборе данных.
- Зависимость на уровне столбцов - давние слушатели подкаста знают, что зависимость на уровне столбцов — это часто запрашиваемая функция в dbt. Одно дело знать, как данные перемещаются между моделями, но отношения на уровне столбцов помогают понять точно, как данные используются в моделях — это значительно упрощает отладку проблем с данными! Мы рады сообщить, что dbt Explorer предлагает эту функцию, встроенную вместе с зависимостью вашей модели.
С dbt Explorer вы можете ответить на любой вопрос о происхождении ваших данных на любом уровне детализации, будь то проект к проекту, модель к модели или столбец к столбцу.