Быстрый старт с dbt и BigQuery
Введение
В этом кратком руководстве вы узнаете, как использовать dbt с BigQuery. В нём показано, как:
- Создать проект в Google Cloud Platform (GCP).
- Получить доступ к примерным данным в публичном датасете.
- Подключить dbt к BigQuery.
- Взять пример запроса и превратить его в модель в вашем dbt‑проекте. Модель в dbt — это оператор
select. - Добавить тесты к вашим моделям.
- Задокументировать ваши модели.
- Запланировать выполнение задания.
Вы можете бесплатно ознакомиться с Основами dbt, если вас интересует обучение с видео.
Предварительные требования
- У вас есть dbt аккаунт.
- У вас есть аккаунт Google.
- Для настройки BigQuery вы можете использовать личный или рабочий аккаунт через Google Cloud Platform (GCP).
Связанные материалы
- Узнайте больше с курсами dbt Learn
- CI задания
- Развертывание заданий
- Уведомления о заданиях
- Актуальность источников
Создание нового проекта GCP
- Перейдите в Консоль BigQuery после входа в ваш аккаунт Google. Если у вас несколько аккаунтов Google, убедитесь, что вы используете правильный.
- Создайте новый проект на странице управления ресурсами. Для получения дополнительной информации обратитесь к Создание проекта в документации Google Cloud. GCP автоматически заполняет поле имени проекта для вас. Вы можете изменить его на более описательное для вашего использования. Например,
dbt Learn - BigQuery Setup.
Создание наборов данных BigQuery
-
В Консоли BigQuery нажмите Редактор. Убедитесь, что выбран ваш недавно созданный проект, который доступен в верхней части страницы.
-
Убедитесь, что вы можете выполнять SQL-запросы. Скопируйте и вставьте эти запросы в редактор запросов:
select * from `dbt-tutorial.jaffle_shop.customers`;
select * from `dbt-tutorial.jaffle_shop.orders`;
select * from `dbt-tutorial.stripe.payment`;Нажмите Выполнить, затем проверьте результаты запросов. Например:
-
Создайте новые наборы данных в Консоли BigQuery. Для получения дополнительной информации обратитесь к Создание наборов данных в документации Google Cloud. Наборы данных в BigQuery эквивалентны схемам в традиционной базе данных. На странице Создать набор данных:
- ID набора данных — Введите имя, соответствующее цели. Это имя используется как схема в полностью квалифицированных ссылках на ваши объекты базы данных, такие как
database.schema.table. В качестве примера для этого руководства создайте один дляjaffle_shop, а затем другой дляstripe. - Расположение данных — Оставьте пустым (по умолчанию). Это определяет местоположение GCP, где хранятся ваши данные. Текущее местоположение по умолчанию — многорегион США. Все таблицы в этом наборе данных будут использовать это местоположение.
- Включить истечение срока действия таблицы — Оставьте невыбранным (по умолчанию). По умолчанию срок действия таблицы выставления счетов составляет 60 дней. Поскольку выставление счетов не включено для этого проекта, GCP по умолчанию устаревшие таблицы.
- Ключ шифрования, управляемый Google — Эта опция доступна в разделе Дополнительные параметры. Разрешите Google управлять шифрованием (по умолчанию).
- ID набора данных — Введите имя, соответствующее цели. Это имя используется как схема в полностью квалифицированных ссылках на ваши объекты базы данных, такие как
-
После создания набора данных
jaffle_shopсоздайте один дляstripeс теми же значениями, кроме ID набора данных.
Генерация учетных данных BigQuery
Чтобы dbt мог подключиться к вашему хранилищу, вам нужно будет сгенерировать файл ключа. Это аналогично использованию имени пользователя и пароля базы данных с большинством других хранилищ данных.
- Запустите мастер учетных данных GCP. Убедитесь, что ваш новый проект выбран в заголовке. Если вы не видите свой аккаунт или проект, нажмите на изображение профиля справа и убедитесь, что вы используете правильный адрес электронной почты. Для Тип учетных данных:
- В выпадающем списке Выберите API выберите BigQuery API
- Выберите Данные приложения для типа данных, к которым вы будете получать доступ
- Нажмите Далее, чтобы создать новую учетную запись службы.
- Создайте учетную запись службы для вашего нового проекта на странице учетных записей службы. Для получения дополнительной информации обратитесь к Создание учетной записи службы в документации Google Cloud. В качестве примера для этого руководства вы можете:
- Введите
dbt-userкак Имя учетной записи службы - В выпадающем списке Выберите роль выберите роли Пользователь заданий BigQuery и Редактор данных BigQuery и нажмите Продолжить
- Оставьте поля Предоставить пользователям доступ к этой учетной записи службы пустыми
- Нажмите Готово
- Введите
- Создайте ключ учетной записи службы для вашего нового проекта на странице учетных записей службы. Для получения дополнительной информации обратитесь к Создание ключа учетной записи службы в документации Google Cloud. При загрузке файла JSON убедитесь, что используете имя файла, которое вы легко запомните. Например,
dbt-user-creds.json. По соображениям безопасности dbt Labs рекомендует защищать этот файл JSON так же, как вы защищаете свои учетные данные; например, не добавляйте файл JSON в ваше программное обеспечение для управления версиями.
Подключение dbt к BigQuery
- Создайте новый проект в dbt. Перейдите в Account settings (кликнув по имени вашего аккаунта в левом меню) и нажмите + New project.
- Введите имя проекта и нажмите Continue.
- В качестве хранилища данных выберите BigQuery, затем нажмите Next, чтобы настроить подключение.
- В настройках нажмите Upload a Service Account JSON File.
- Выберите JSON-файл, который вы скачали на шаге Generate BigQuery credentials, и dbt автоматически заполнит все необходимые поля.
- Необязательно — тарифы dbt Enterprise могут настроить developer OAuth с BigQuery, что обеспечивает дополнительный уровень безопасности. Подробнее см. в разделе Set up BigQuery OAuth.
- Нажмите Test Connection. Это проверит, что dbt имеет доступ к вашему аккаунту BigQuery.
- Если тест прошёл успешно, нажмите Next. Если тест не удался, возможно, потребуется вернуться назад и заново сгенерировать учётные данные BigQuery.
Настройка репозитория под управлением dbt
При разработке в dbt вы можете использовать Git для управления версиями вашего кода.
Чтобы подключиться к репозиторию, вы можете либо настроить размещённый в dbt managed repository, либо напрямую подключиться к поддерживаемому git‑провайдеру. Managed repositories — это отличный способ попробовать dbt без необходимости создавать новый репозиторий. В долгосрочной перспективе лучше подключиться к поддерживаемому git‑провайдеру, чтобы использовать такие возможности, как автоматизация и непрерывная интеграция.
Чтобы настроить управляемый репозиторий:
- В разделе "Настроить репозиторий" выберите Управляемый.
- Введите имя для вашего репозитория, например,
bbaggins-dbt-quickstart. - Нажмите Создать. Создание и импорт вашего репозитория займет несколько секунд.
- Как только вы увидите сообщение "Репозиторий успешно импортирован", нажмите Продолжить.
Инициализация вашего проекта dbt и начало разработки
Теперь, когда у вас настроен репозиторий, вы можете инициализировать ваш проект и начать разработку в dbt Cloud:
Инициализируйте ваш dbt‑проект и начните разработку
Теперь, когда репозиторий настроен, вы можете инициализировать проект и начать разработку в dbt:
- Нажмите Start developing in the Studio IDE. При первом запуске это может занять несколько минут, так как система устанавливает подключение к git, клонирует репозиторий и проверяет соединение с хранилищем данных.
- В левой части интерфейса, над деревом файлов, нажмите Initialize dbt project. Это создаст структуру папок с примерами моделей.
- Сделайте первый коммит, нажав Commit and sync. Используйте сообщение коммита
initial commitи нажмите Commit. Это создаст первый коммит в управляемом репозитории и позволит открыть ветку, в которой вы сможете добавлять новый dbt‑код. - Теперь вы можете напрямую выполнять запросы к вашему хранилищу данных и запускать
dbt run. Вы можете попробовать это прямо сейчас:- Нажмите + Create new file, добавьте этот запрос в новый файл и нажмите Save as, чтобы сохранить файл:
select * from `dbt-tutorial.jaffle_shop.customers` - В командной строке внизу введите
dbt runи нажмите Enter. Вы должны увидеть сообщениеdbt run succeeded.
- Нажмите + Create new file, добавьте этот запрос в новый файл и нажмите Save as, чтобы сохранить файл:
Создание вашей первой модели
У вас есть два варианта работы с файлами в Studio IDE:
- Создать новую ветку (рекомендуется) — Создайте новую ветку, чтобы редактировать файлы и коммитить изменения. Перейдите в раздел Version Control на левой боковой панели и нажмите Create branch.
- Редактировать в защищённой основной ветке — Если вы предпочитаете редактировать, форматировать или линтить файлы, а также выполнять команды dbt напрямую в вашей основной git-ветке. Studio IDE не позволяет выполнять коммиты в защищённую ветку, поэтому вам будет предложено закоммитить изменения в новую ветку.
Назовите новую ветку add-customers-model.
- Нажмите ... рядом с директорией
models, затем выберите Создать файл. - Назовите файл
customers.sql, затем нажмите Создать. - Скопируйте следующий запрос в файл и нажмите Сохранить.
with customers as (
select
id as customer_id,
first_name,
last_name
from `dbt-tutorial`.jaffle_shop.customers
),
orders as (
select
id as order_id,
user_id as customer_id,
order_date,
status
from `dbt-tutorial`.jaffle_shop.orders
),
customer_orders as (
select
customer_id,
min(order_date) as first_order_date,
max(order_date) as most_recent_order_date,
count(order_id) as number_of_orders
from orders
group by 1
),
final as (
select
customers.customer_id,
customers.first_name,
customers.last_name,
customer_orders.first_order_date,
customer_orders.most_recent_order_date,
coalesce(customer_orders.number_of_orders, 0) as number_of_orders
from customers
left join customer_orders using (customer_id)
)
select * from final
- Введите
dbt runв командной строке внизу экрана. Вы должны получить успешное выполнение и увидеть три модели.
Позже вы сможете подключить ваши инструменты бизнес-аналитики (BI) к этим представлениям и таблицам, чтобы они читали только очищенные данные, а не сырые данные в вашем инструменте BI.
Часто задаваемые вопросы
Изменение способа материализации вашей модели
Одной из самых мощных функций dbt является возможность изменять способ материализации модели в вашем хранилище данных, просто изменяя значение конфигурации. Вы можете переключаться между таблицами и представлениями, изменяя ключевое слово, вместо того чтобы писать язык определения данных (DDL) для выполнения этого за кулисами.
По умолчанию все создается как представление. Вы можете переопределить это на уровне директории, чтобы все в этой директории материализовалось по-другому.
-
Отредактируйте ваш файл
dbt_project.yml.-
Обновите имя вашего проекта на:
dbt_project.ymlname: 'jaffle_shop' -
Настройте
jaffle_shopтак, чтобы всё внутри него материализовалось как таблица; и настройтеexampleтак, чтобы всё внутри него материализовалось как представление (view). Обновите конфигурациюmodelsв YAML-файле проекта следующим образом:dbt_project.ymlmodels:
jaffle_shop:
+materialized: table
example:
+materialized: view -
Нажмите Сохранить.
-
-
Введите команду
dbt run. Ваша модельcustomersтеперь должна быть построена как таблица!к сведениюДля этого dbt сначала должен был выполнить оператор
drop view(или API вызов на BigQuery), затем операторcreate table as. -
Отредактируйте
models/customers.sql, чтобы переопределитьdbt_project.ymlтолько для моделиcustomers, добавив следующий фрагмент в начало, и нажмите Сохранить:models/customers.sql{{
config(
materialized='view'
)
}}
with customers as (
select
id as customer_id
...
) -
Введите команду
dbt run. Ваша модельcustomersтеперь должна быть построена как представление.- Пользователям BigQuery необходимо выполнить
dbt run --full-refreshвместоdbt run, чтобы полностью применить изменения материализации.
- Пользователям BigQuery необходимо выполнить
-
Введите команду
dbt run --full-refresh, чтобы изменения вступили в силу в вашем хранилище данных.
Часто задаваемые вопросы
Удаление примерных моделей
Теперь вы можете удалить файлы, которые dbt создал при инициализации проекта:
-
Удалите директорию
models/example/. -
Удалите ключ
example:из вашего файлаdbt_project.yml, а также любые конфигурации, которые перечислены под ним.dbt_project.yml# до
models:
jaffle_shop:
+materialized: table
example:
+materialized: viewdbt_project.yml# после
models:
jaffle_shop:
+materialized: table -
Сохраните изменения.
Часто задаваемые вопросы
Построение моделей на основе других моделей
Как лучшая практика в SQL, следует разделять логику, которая очищает ваши данные, от логики, которая трансформирует ваши данные. Вы уже начали делать это в существующем запросе, используя общие табличные выражения (CTE).
Теперь вы можете поэкспериментировать, разделив логику на отдельные модели и используя функцию ref для построения моделей на основе других моделей:
-
Создайте новый SQL файл,
models/stg_customers.sql, с SQL из CTEcustomersв нашем оригинальном запросе. -
Создайте второй новый SQL файл,
models/stg_orders.sql, с SQL из CTEordersв нашем оригинальном запросе.models/stg_customers.sqlselect
id as customer_id,
first_name,
last_name
from `dbt-tutorial`.jaffle_shop.customersmodels/stg_orders.sqlselect
id as order_id,
user_id as customer_id,
order_date,
status
from `dbt-tutorial`.jaffle_shop.orders -
Отредактируйте SQL в вашем файле
models/customers.sqlследующим образом:models/customers.sqlwith customers as (
select * from {{ ref('stg_customers') }}
),
orders as (
select * from {{ ref('stg_orders') }}
),
customer_orders as (
select
customer_id,
min(order_date) as first_order_date,
max(order_date) as most_recent_order_date,
count(order_id) as number_of_orders
from orders
group by 1
),
final as (
select
customers.customer_id,
customers.first_name,
customers.last_name,
customer_orders.first_order_date,
customer_orders.most_recent_order_date,
coalesce(customer_orders.number_of_orders, 0) as number_of_orders
from customers
left join customer_orders using (customer_id)
)
select * from final -
Выполните
dbt run.На этот раз, когда вы выполнили
dbt run, были созданы отдельные представления/таблицы дляstg_customers,stg_ordersиcustomers. dbt определил порядок выполнения этих моделей. Посколькуcustomersзависит отstg_customersиstg_orders, dbt строитcustomersпоследним. Вам не нужно явно определять эти зависимости.
Построение моделей поверх источников данных
Источники позволяют задавать имена и описывать данные, загруженные в ваш хранилище с помощью инструментов извлечения и загрузки (extract & load). Объявляя эти таблицы как источники в dbt, вы можете:
- выбирать данные из исходных таблиц в своих моделях с помощью функции
{{ source() }}, что помогает определить lineage (происхождение и зависимости) ваших данных - проверять свои предположения о данных в источниках
- вычислять актуальность (freshness) данных в источниках
-
Создайте новый YML-файл
models/sources.yml. -
Объявите источники, скопировав следующий код в файл и нажав Save.
models/sources.yml
sources:
- name: jaffle_shop
description: This is a replica of the Postgres database used by our app
database: dbt-tutorial
schema: jaffle_shop
tables:
- name: customers
description: One record per customer.
- name: orders
description: One record per order. Includes cancelled and deleted orders. -
Отредактируйте файл
models/stg_customers.sql, чтобы выбирать данные из таблицыcustomersисточникаjaffle_shop.models/stg_customers.sqlselect
id as customer_id,
first_name,
last_name
from {{ source('jaffle_shop', 'customers') }} -
Отредактируйте файл
models/stg_orders.sql, чтобы выбирать данные из таблицыordersисточникаjaffle_shop.models/stg_orders.sqlselect
id as order_id,
user_id as customer_id,
order_date,
status
from {{ source('jaffle_shop', 'orders') }} -
Выполните команду
dbt run.Результаты выполнения
dbt runбудут точно такими же, как и на предыдущем шаге. Моделиstg_customersиstg_ordersпо‑прежнему будут обращаться к тем же самым исходным данным в BigQuery. Однако использованиеsourceпозволяет тестировать и документировать «сырые» данные, а также лучше понимать lineage ваших источников данных.
FAQs
Добавьте тесты к вашим моделям
Добавление data tests в проект помогает убедиться, что ваши модели работают корректно.
Чтобы добавить data tests в проект:
-
Создайте новый YAML-файл в директории
models, назвав егоmodels/schema.yml. -
Добавьте в файл следующее содержимое:
models/schema.ymlversion: 2
models:
- name: customers
columns:
- name: customer_id
data_tests:
- unique
- not_null
- name: stg_customers
columns:
- name: customer_id
data_tests:
- unique
- not_null
- name: stg_orders
columns:
- name: order_id
data_tests:
- unique
- not_null
- name: status
data_tests:
- accepted_values:
arguments: # available in v1.10.5 and higher. Older versions can set the <argument_name> as the top-level property.
values: ['placed', 'shipped', 'completed', 'return_pending', 'returned']
- name: customer_id
data_tests:
- not_null
- relationships:
arguments:
to: ref('stg_customers')
field: customer_id -
Запустите
dbt testи убедитесь, что все ваши тесты прошли успешно.
Когда вы запускаете dbt test, dbt проходит по вашим YAML-файлам и создает запрос для каждого теста. Каждый запрос вернет количество записей, которые не прошли тест. Если это число равно 0, то тест считается успешным.
Часто задаваемые вопросы
Документируйте ваши модели
Добавление документации в ваш проект позволяет подробно описывать ваши модели и делиться этой информацией с вашей командой. Здесь мы добавим базовую документацию в наш проект.
-
Обновите ваш файл
models/schema.yml, чтобы включить в него некоторые описания, как показано ниже.models/schema.ymlversion: 2
models:
- name: customers
description: Одна запись на каждого клиента
columns:
- name: customer_id
description: Первичный ключ
data_tests:
- unique
- not_null
- name: first_order_date
description: NULL, если клиент еще не сделал заказ.
- name: stg_customers
description: Эта модель очищает данные о клиентах
columns:
- name: customer_id
description: Первичный ключ
data_tests:
- unique
- not_null
- name: stg_orders
description: Эта модель очищает данные о заказах
columns:
- name: order_id
description: Первичный ключ
data_tests:
- unique
- not_null
- name: status
data_tests:
- accepted_values:
arguments: # available in v1.10.5 and higher. Older versions can set the <argument_name> as the top-level property.
values: ['placed', 'shipped', 'completed', 'return_pending', 'returned']
- name: customer_id
data_tests:
- not_null
- relationships:
arguments:
to: ref('stg_customers')
field: customer_id -
Запустите
dbt docs generate, чтобы сгенерировать документацию для вашего проекта. dbt анализирует ваш проект и ваш склад данных, чтобы создать JSON файл с подробной документацией о вашем проекте.
- Нажмите на значок книги в интерфейсе Develop, чтобы открыть документацию в новой вкладке.
Часто задаваемые вопросы
Зафиксируйте изменения
Теперь, когда вы построили модель customers, нужно закоммитить внесённые в проект изменения, чтобы в репозитории оказался ваш актуальный код.
Если вы редактировали прямо в защищённой основной ветке:
- Нажмите кнопку Commit and sync git. Это действие подготовит ваши изменения к коммиту.
- Появится модальное окно Commit to a new branch.
- В модальном окне задайте имя новой ветки
add-customers-model. Эта ветка будет создана от вашей основной ветки вместе с новыми изменениями. - Добавьте сообщение коммита, например «Add customers model, tests, docs», и закоммитьте изменения.
- Нажмите Merge this branch to main, чтобы добавить эти изменения в ветку main вашего репозитория.
Если вы создали новую ветку до редактирования:
- Поскольку вы уже ответвились от защищённой основной ветки, слева перейдите в Version Control.
- Нажмите Commit and sync, чтобы добавить сообщение.
- Добавьте сообщение коммита, например «Add customers model, tests, docs».
- Нажмите Merge this branch to main, чтобы добавить эти изменения в ветку main вашего репозитория.
Разверните dbt
Используйте Scheduler в dbt, чтобы уверенно разворачивать продакшен‑джобы и добавлять наблюдаемость в ваши процессы. В следующих шагах вы научитесь создавать deployment environment и запускать job.
Создайте окружение развертывания (deployment environment)
- В главном меню перейдите в Orchestration > Environments.
- Нажмите Create environment.
- В поле Name введите имя окружения развертывания. Например, «Production».
- В поле dbt Version выберите последнюю версию из выпадающего списка.
- В разделе Deployment connection укажите имя датасета, который вы хотите использовать как target, например «Analytics». Это позволит dbt собирать объекты и работать с этим датасетом. В некоторых хранилищах данных целевой датасет может называться «schema».
- Нажмите Save.
Создайте и запустите job
Jobs — это набор команд dbt, которые вы хотите запускать по расписанию. Например, dbt build.
По мере того как бизнес jaffle_shop получает больше клиентов, а эти клиенты создают больше заказов, в исходных данных будет появляться больше записей. Поскольку вы материализовали модель customers как таблицу, вам нужно периодически пересобирать её, чтобы данные оставались актуальными. Это обновление будет происходить при запуске job.
- После создания окружения развертывания вы должны попасть на страницу нового окружения. Если нет — в главном меню выберите Orchestration, затем нажмите Jobs.
- Нажмите Create job > Deploy job.
- Укажите имя job (например, «Production run») и выберите окружение, которое вы только что создали.
- Прокрутите вниз до раздела Execution settings.
- В разделе Commands добавьте эту команду как часть job, если её нет:
dbt build
- Выберите опцию Generate docs on run, чтобы автоматически генерировать обновлённую документацию проекта при каждом запуске job.
- Для этого упражнения не задавайте расписание запуска проекта — хотя проекты в вашей организации должны выполняться регулярно, нет необходимости запускать этот примерный проект по расписанию. Планирование job иногда называют развёртыванием проекта.
- Нажмите Save, затем Run now, чтобы запустить job.
- Откройте запуск и следите за прогрессом в Run summary.
- Когда запуск завершится, нажмите View Documentation, чтобы посмотреть документацию проекта.
Поздравляем 🎉! Вы только что развернули свой первый dbt‑проект!


