SQL-модели

Начало работы

Создание ваших первых моделей

Если вы новичок в dbt, мы рекомендуем вам прочитать руководство по быстрому старту, чтобы создать ваш первый проект dbt с моделями.

Возможности Python в dbt являются расширением его возможностей с SQL моделями. Если вы новичок в dbt, мы рекомендуем сначала прочитать эту страницу, прежде чем переходить к: "Python модели".

SQL модель — это оператор select. Модели определяются в файлах .sql (обычно в вашем каталоге models):

Каждый файл .sql содержит одну модель / оператор select.
Имя модели наследуется от имени файла.
Мы настоятельно рекомендуем использовать подчеркивания в именах моделей, а не точки. Например, используйте models/my_model.sql вместо models/my.model.sql.
Модели могут быть вложены в подкаталоги внутри каталога models.

SQL‑модель — это select‑запрос. Модели определяются в файлах .sql (как правило, в директории models):

Каждый файл .sql содержит одну модель / один select‑запрос
Имя модели наследуется от имени файла и должно совпадать с именем файла модели — с учётом регистра. Несовпадение регистра может помешать dbt корректно применять конфигурации и повлиять на метаданные в Catalog.
Мы настоятельно рекомендуем использовать подчёркивания в именах моделей, а не точки. Например, используйте models/my_model.sql вместо models/my.model.sql.
Модели могут быть вложены в поддиректории внутри директории models.

Когда вы выполняете команду dbt run, dbt создаст эту модель data warehouse обернув её в оператор create view as или create table as.

Например, рассмотрим эту модель customers:

models/customers.sql

with customer_orders as (
    select
        customer_id,
        min(order_date) as first_order_date,
        max(order_date) as most_recent_order_date,
        count(order_id) as number_of_orders

    from jaffle_shop.orders

    group by 1
)

select
    customers.customer_id,
    customers.first_name,
    customers.last_name,
    customer_orders.first_order_date,
    customer_orders.most_recent_order_date,
    coalesce(customer_orders.number_of_orders, 0) as number_of_orders

from jaffle_shop.customers

left join customer_orders using (customer_id)

Когда вы выполняете dbt run, dbt создаст это как представление с именем customers в вашей целевой схеме:

create view dbt_alice.customers as (
    with customer_orders as (
        select
            customer_id,
            min(order_date) as first_order_date,
            max(order_date) as most_recent_order_date,
            count(order_id) as number_of_orders

        from jaffle_shop.orders

        group by 1
    )

    select
        customers.customer_id,
        customers.first_name,
        customers.last_name,
        customer_orders.first_order_date,
        customer_orders.most_recent_order_date,
        coalesce(customer_orders.number_of_orders, 0) as number_of_orders

    from jaffle_shop.customers

    left join customer_orders using (customer_id)
)

Почему представление с именем dbt_alice.customers? По умолчанию dbt будет:

Создавать модели как представления
Создавать модели в целевой схеме, которую вы определяете
Использовать имя вашего файла как имя представления или table в базе данных

Вы можете использовать конфигурации, чтобы изменить любое из этих поведений — об этом позже.

Часто задаваемые вопросы

Как посмотреть SQL, который выполняет dbt?

Нужно ли создавать целевую схему перед запуском dbt?

Если я перезапущу dbt, будет ли простой, пока модели перестраиваются?

Что произойдет, если в моем SQL-запросе ошибка или я получу ошибку базы данных?

В каком SQL-диалекте писать мои модели? Или какой SQL-диалект использует dbt?

dbt может казаться магией, но на самом деле это не так. Под капотом он выполняет SQL в вашем собственном хранилище данных — ваши данные не обрабатываются за пределами вашего хранилища.

Таким образом, ваши модели должны использовать SQL-диалект вашей собственной базы данных. Затем, когда dbt оборачивает ваши select выражения в соответствующие DDL или DML, он будет использовать правильный DML для вашего хранилища — вся эта логика уже заложена в dbt.

Вы можете найти больше информации о базах данных, платформах и движках запросов, которые поддерживает dbt, в документации Поддерживаемые платформы данных.

Хотите углубиться в то, как это работает? Рассмотрим фрагмент SQL, который работает на каждом хранилище:

models/test_model.sql

select 1 as my_column

Чтобы заменить существующую table, вот иллюстративный пример SQL, который dbt выполнит на разных хранилищах (фактический SQL может быть гораздо сложнее этого!)

Redshift
BigQuery
Snowflake

-- на redshift нельзя создать или заменить, поэтому используйте транзакцию для выполнения этого атомарно

begin;

create table "dbt_alice"."test_model__dbt_tmp" as (
    select 1 as my_column
);

alter table "dbt_alice"."test_model" rename to "test_model__dbt_backup";

alter table "dbt_alice"."test_model__dbt_tmp" rename to "test_model"

commit;

begin;

drop table if exists "dbt_alice"."test_model__dbt_backup" cascade;

commit;

-- Сделайте API-вызов для создания набора данных (нет интерфейса DDL для этого)!!;

create or replace table `dbt-dev-87681`.`dbt_alice`.`test_model` as (
  select 1 as my_column
);

create schema if not exists analytics.dbt_alice;

create or replace table analytics.dbt_alice.test_model as (
    select 1 as my_column
);

Настройка моделей

Конфигурации — это «настройки моделей», которые вы можете задавать в файле dbt_project.yml, а также непосредственно в файле модели с помощью блока config. Примеры таких конфигураций включают:

Изменение materialization используемого моделью — материализация определяет SQL, который dbt использует для создания модели в вашем хранилище данных.
Создание моделей в отдельных схемах.
Применение тегов к модели.

Следующая диаграмма показывает пример структуры каталогов папки models:

models
├── staging
└── marts
    └── marketing

Ниже приведён пример конфигурации модели:

dbt_project.yml

name: jaffle_shop
config-version: 2
...

models:
  jaffle_shop: # это соответствует `name:`` конфигурации
    +materialized: view # это применяется ко всем моделям в текущем проекте
    marts:
      +materialized: table # это применяется ко всем моделям в каталоге `marts/`
      marketing:
        +schema: marketing # это применяется ко всем моделям в каталоге `marts/marketing/`

models/customers.sql

{{ config(
    materialized="view",
    schema="marketing"
) }}

with customer_orders as ...

Важно отметить, что конфигурации применяются иерархически — конфигурация, примененная к подкаталогу, переопределит любые общие конфигурации.

Вы можете узнать больше о конфигурациях в справочной документации.

Часто задаваемые вопросы

Какие материализации доступны в dbt?

Какие существуют конфигурации моделей?

Построение зависимостей между моделями

Вы можете строить зависимости между моделями, используя функцию ref вместо имен таблиц в запросе. Используйте имя другой модели в качестве аргумента для ref.

Модель
Скомпилированный код в dev
Скомпилированный код в prod

models/customers.sql

with customers as (

    select * from {{ ref('stg_customers') }}

),

orders as (

    select * from {{ ref('stg_orders') }}

),

...

create view dbt_alice.customers as (
  with customers as (

      select * from dbt_alice.stg_customers

  ),

  orders as (

      select * from dbt_alice.stg_orders

  ),

  ...
)

...

create view analytics.customers as (
  with customers as (

      select * from analytics.stg_customers

  ),

  orders as (

      select * from analytics.stg_orders

  ),

  ...
)

...

dbt использует функцию ref для:

Определения порядка выполнения моделей, создавая ориентированный ациклический граф (DAG).

DAG для нашего dbt проекта

Управления отдельными средами — dbt заменит модель, указанную в функции ref, на имя базы данных для table (или представления). Важно, что это учитывает среду — если вы запускаете dbt с целевой схемой, названной dbt_alice, он будет выбирать из вышестоящей таблицы в той же схеме. Посмотрите на вкладки выше, чтобы увидеть это в действии.

Кроме того, функция ref поощряет вас писать модульные преобразования, чтобы вы могли повторно использовать модели и уменьшить повторяющийся код.

Тестирование и документирование моделей

Вы также можете документировать и тестировать модели — перейдите к разделу о тестировании и документировании для получения дополнительной информации.

Дополнительные часто задаваемые вопросы

Есть ли примеры dbt моделей?

Да!

Учебное руководство по быстрому старту: Вы можете создать свой собственный пример проекта dbt, следуя руководству по быстрому старту
Jaffle Shop: Демонстрационный проект (тесно связанный с учебным руководством) для вымышленного интернет-магазина (основной исходный код и исходный код с использованием duckdb)
GitLab: Внутренний проект dbt компании GitLab является открытым исходным кодом и является отличным примером использования dbt в масштабах (исходный код)
dummy-dbt: Контейнеризированный проект dbt, который заполняет базу данных Sakila в Postgres и заполняет dbt seeds, модели, снимки и тесты. Проект может быть использован для тестирования и экспериментов (исходный код)
Google Analytics 4: Демонстрационный проект, который преобразует экспорт Google Analytics 4 в BigQuery в различные модели (исходный код, документация)
Make Open Data: Производственный ELT с тестами, документацией и CI/CD (GHA) о французских открытых данных (жилье, демография, география и т.д.). Может быть использован для обучения с объемными и неоднозначными данными. Приветствуются вклады (исходный код, документация)

Если у вас есть пример проекта, который вы хотите добавить в этот список, предложите правку, нажав Edit this page ниже.

Могу ли я хранить свои модели в директории, отличной от `models`, в моем проекте?

Могу ли я создавать свои модели в схеме, отличной от целевой, или распределять модели по нескольким схемам?

Должны ли имена ресурсов, используемых в ref, быть уникальными?

Как удалить удаленные модели из моего хранилища данных?

Как я должен организовать свой проект, когда создаю больше моделей? Как я должен называть свои модели?

Если модели могут быть только `select` запросами, как вставлять записи?

Почему я не могу просто писать DML в своих трансформациях?

Операторы `select` делают трансформации доступными

Больше людей умеют писать операторы select, чем DML, что делает слой трансформации доступным для большего числа людей!

Написание хорошего DML сложно

Если вы сами пишете DDL / DML, вы можете столкнуться с такими проблемами, как:

Что произойдет, если table уже существует? Или эта таблица уже существует как view, но теперь я хочу, чтобы это была таблица?
Что если схема уже существует? Или, стоит ли мне проверять, существует ли схема?
Как я могу заменить модель атомарно (так, чтобы не было простоя для тех, кто запрашивает таблицу)?
Что если я хочу параметризовать свою схему, чтобы запускать эти трансформации в среде разработки?
В каком порядке мне нужно запускать эти операторы? Если я запускаю cascade, не сломает ли это другие вещи?

Каждую из этих проблем можно решить, но вряд ли это будет лучшим использованием вашего времени.

dbt делает больше, чем просто генерирует SQL

Вы можете тестировать свои модели, генерировать документацию, создавать снимки и многое другое!

Вы уменьшаете зависимость от поставщика

Диалекты SQL, как правило, больше всего расходятся в DML и DDL (а не в операторах select) — посмотрите пример здесь. Пишя меньше SQL, вы можете облегчить миграцию на новую технологию баз данных.

Если вам действительно нужно написать пользовательский DML, в dbt есть способы сделать это с помощью пользовательских материализаций.

Как задать типы столбцов?

Нашли ошибку?

Создать GitHub Issue

SQL-модели

Начало работы

Часто задаваемые вопросы

Настройка моделей

Часто задаваемые вопросы

Построение зависимостей между моделями

Тестирование и документирование моделей

Дополнительные часто задаваемые вопросы

Операторы `select` делают трансформации доступными

Написание хорошего DML сложно

dbt делает больше, чем просто генерирует SQL

Вы уменьшаете зависимость от поставщика

Нашли ошибку?

Начните работать с dbt.

Продукты

Сообщество

Поддержка

Наши соцсети

Связанные справочные документы​

Начало работы​

Часто задаваемые вопросы​

Настройка моделей​

Часто задаваемые вопросы​

Построение зависимостей между моделями​

Тестирование и документирование моделей​

Дополнительные часто задаваемые вопросы​

Операторы select делают трансформации доступными​

Написание хорошего DML сложно​

dbt делает больше, чем просто генерирует SQL​

Вы уменьшаете зависимость от поставщика​

Нашли ошибку?

Продукты

Сообщество

Поддержка

Наши соцсети

Связанные справочные документы

Начало работы

Часто задаваемые вопросы

Настройка моделей

Часто задаваемые вопросы

Построение зависимостей между моделями

Тестирование и документирование моделей

Дополнительные часто задаваемые вопросы

Операторы `select` делают трансформации доступными

Написание хорошего DML сложно

dbt делает больше, чем просто генерирует SQL

Вы уменьшаете зависимость от поставщика