Настройка Apache Spark
profiles.yml
предназначен только для пользователей dbt CoreЕсли вы используете dbt Cloud, вам не нужно создавать файл profiles.yml
. Этот файл предназначен только для пользователей dbt Core. Чтобы подключить вашу платформу данных к dbt Cloud, обратитесь к разделу О платформах данных.
dbt-databricks
Если вы используете Databricks, рекомендуется использовать адаптер dbt-databricks
вместо dbt-spark
. Если вы все еще используете dbt-spark с Databricks, рассмотрите возможность миграции с адаптера dbt-spark на адаптер dbt-databricks.
Для версии этой страницы для Databricks обратитесь к разделу Настройка Databricks.
- Поддерживается: dbt Labs
- Авторы: core dbt maintainers
- Репозиторий на GitHub: dbt-labs/dbt-spark
- Пакет на PyPI:
dbt-spark
- Канал в Slack: db-databricks-and-spark
- Поддерживаемая версия dbt Core: v0.15.0 и новее
- Поддержка dbt Cloud: Supported
- Минимальная версия платформы данных: n/a
Установка dbt-spark
Используйте pip
для установки адаптера. До версии 1.8 установка адаптера автоматически устанавливала dbt-core
и любые дополнительные зависимости. Начиная с версии 1.8, установка адаптера не устанавливает автоматически dbt-core
. Это связано с тем, что адаптеры и версии dbt Core были разделены, и мы больше не хотим перезаписывать с уществующие установки dbt-core.
Используйте следующую команду для установки:
Конфигурация dbt-spark
Для конфигурации, специфичной для Spark, пожалуйста, обратитесь к конфигурациям Spark.
Если вы подключаетесь к Databricks через ODBC-драйвер, потребуется pyodbc
. В зависимости от вашей системы, вы можете установить его отдельно или через pip. Подробности установки для различных ОС смотрите в wiki pyodbc
.
Если вы подключаетесь к Databricks через ODBC-драйвер, потребуется библиотека pyodbc
. В зависимости от вашей системы вы можете установить её отдельно или через pip. Подробности установки для разных операционных систем смотрите на странице вики pyodbc
.
Если вы подключаетесь к кластеру Spark через общие методы thrift или http, потребуется PyHive
.
# odbc соединения
$ python -m pip install "dbt-spark[ODBC]"
# thrift или http соединения
$ python -m pip install "dbt-spark[PyHive]"
# session соединения
$ python -m pip install "dbt-spark[session]"