SQL LOWER

Мы все были в такой ситуации:

В форме регистрации пользователь A ввел свое имя как Kira Furuichi, пользователь B ввел его как john blust, а пользователь C написал DAvid KrevitT (что с тобой, Дэвид??)
Ваши инженеры бэкенд-приложений настаивают, чтобы электронные письма клиентов были написаны заглавными буквами
Все ваши имена для отслеживания событий написаны в нижнем регистре

В реальном мире человеческих несовершенств, мнений и ошибок строковые значения, вероятно, будут иметь непоследовательное написание в верхнем и нижнем регистре в разных источниках данных (или даже в одном и том же источнике данных). Всегда есть немного отсутствия логики в том, почему некоторые значения передаются в верхнем или нижнем регистре, и не стоит ломать голову, чтобы это выяснить.

Так как же создать единообразие для строковых значений, которые вы собираете из всех ваших источников данных? Функция LOWER!

Использование функции LOWER для строкового значения вернет ввод в виде строки в нижнем регистре. Это эффективный способ создать единообразное написание строковых значений в ваших данных.

Как использовать функцию SQL LOWER

Синтаксис для использования функции LOWER выглядит следующим образом:

lower(<string_column>)

Выполнение этой команды в операторе SELECT вернет версию входной строки в нижнем регистре. Вы также можете использовать функцию LOWER в предложениях WHERE и на значениях для соединения.

Давайте рассмотрим практический пример использования функции LOWER.

Пример функции SQL LOWER

Вы можете привести к нижнему регистру имя и фамилию в модели customers Jaffle Shop с помощью следующего кода:

select 
	customer_id,
	lower(first_name) as first_name,
	lower(last_name) as last_name
from {{ ref('customers') }}

После выполнения этого запроса таблица customers будет выглядеть примерно так:

customer_id	first_name	last_name
1	michael	p.
2	shawn	m.
3	kathleen	p.

Loading table...

Теперь все символы в столбцах first_name и last_name находятся в нижнем регистре.

Приведение всех строковых колонок к нижнему регистру для обеспечения единообразия данных из разных источников обычно выполняется в staging‑моделях нашего dbt‑проекта. На это есть несколько причин: очистка и стандартизация данных — такие операции, как алиасинг, приведение типов и перевод в нижний регистр — в идеале должны происходить именно в staging‑моделях. Это позволяет обеспечить единообразие для downstream‑моделей и улучшить их производительность.

Синтаксис функции SQL LOWER в Snowflake, Databricks, BigQuery и Redshift

Google BigQuery, Amazon Redshift, Snowflake, Postgres и Databricks поддерживают функцию LOWER. Кроме того, синтаксис использования LOWER одинаков для всех них.

Примеры использования функции LOWER

Вернемся к нашему хаотичному трио пользователей A, B и C, которые все использовали разное написание в верхнем и нижнем регистре для ввода своих имен. Если вы не создадите единообразное написание строковых значений, как бизнес-пользователь узнает, что фильтровать в своем BI-инструменте? Бизнес-пользователь может отфильтровать поле имени по "John Blust", так как он ожидает, что оно будет выглядеть именно так, но в итоге не получит никаких результатов. Создавая единообразный формат написания (в верхнем или нижнем регистре) для всех строковых значений в ваших моделях данных, вы создаете определенные ожидания для бизнес-пользователей в вашем BI-инструменте.

Скорее всего, никогда не будет 100% согласованности в ваших моделях данных, но делая все возможное, чтобы уменьшить этот хаос, вы облегчите жизнь себе и вашим бизнес-пользователям. Используйте функцию LOWER, чтобы создать единообразное написание для всех строк в ваших источниках данных.

Нашли ошибку?

Создать GitHub Issue

SQL LOWER

Как использовать функцию SQL LOWER

Пример функции SQL LOWER

Синтаксис функции SQL LOWER в Snowflake, Databricks, BigQuery и Redshift

Примеры использования функции LOWER

Нашли ошибку?

Начните работать с dbt.

Продукты

Сообщество

Поддержка

Наши соцсети

Как использовать функцию SQL LOWER​

Пример функции SQL LOWER​

Синтаксис функции SQL LOWER в Snowflake, Databricks, BigQuery и Redshift​

Примеры использования функции LOWER​

Нашли ошибку?

Продукты

Сообщество

Поддержка

Наши соцсети

Как использовать функцию SQL LOWER

Пример функции SQL LOWER

Синтаксис функции SQL LOWER в Snowflake, Databricks, BigQuery и Redshift

Примеры использования функции LOWER