О подключениях к платформам данных в dbt Core
dbt Core может подключаться к различным поставщикам платформ данных, включая:
- Amazon Redshift
- Apache Spark
- Azure Synapse
- Databricks
- Google BigQuery
- Microsoft Fabric
- PostgreSQL
- Snowflake
- Starburst или Trino
dbt взаимодействует с различными платформами данных, используя для каждой из них отдельный адаптер. При установке dbt Core вам также потребуется установить адаптер, соответствующий вашей платформе данных, подключить его к dbt Core и настроить файл profiles.yml. Это можно сделать с помощью командной строки (CLI).
Платформы данных, поддерживаемые в dbt Core, могут быть проверены в рамках нашей программы Trusted Adapter Program и поддерживаются dbt Labs, партнёрами или участниками сообщества.
Эти инструкции по подключению описывают базовые поля, необходимые для настройки подключения к платформе данных в dbt. Более подробные руководства, включая демонстрационные данные проекта, см. в наших Quickstart guides.
Профили подключения
Если вы используете dbt из командной строки (CLI), вам понадобится файл profiles.yml, содержащий данные для подключения к вашей платформе данных. Когда вы запускаете dbt из CLI, он читает ваш файл dbt_project.yml, чтобы найти имя профиля, а затем ищет профиль с тем же именем в вашем файле profiles.yml. Этот профиль содержит всю информацию, необходимую dbt для подключения к вашей платформе данных.
Для получения подробной информации вы можете обратиться к Профили подключения.
Возможности адаптеров
Следующая таблица перечисляет доступные возможности для адаптеров:
| Loading table... |
Каталог
Для адаптеров, которые это поддерживают, вы можете частично построить каталог. Это позволяет построить каталог только для выбранного количества моделей через dbt docs generate --select .... Для адаптеров, которые не поддерживают частичное создание каталога, необходимо выполнить dbt docs generate, чтобы построить полный каталог.
Свежесть источника
Вы можете измерить свежесть источника, используя таблицы метаданных хранилища на поддерживаемых адаптерах. Это позволяет рассчитывать свежесть источника без использования loaded_at_field и без прямого запроса к таблице. Это быстрее и более гибко (хотя иногда может быть неточно, в зависимости от того, как хранилище отслеживает измененные таблицы). Вы можете переопределить это с помощью loaded_at_field в конфигурации источника. Если адаптер это не поддерживает, вы все равно можете использовать loaded_at_field.