Учебный курс «Запросы в Apache Impala»
Краткое содержание: базовый синтаксис запросов в Apache Impala, ORDER BY, GROUP BY и HAVING, оконные функции, подзапросы и CTE, команды DML, производительность запросов в Apache Impala.
Общие данные:
Если у вас на предприятии развернута система на основе Apache Impala, пользователи должны уметь писать запросы к данным Impala. В Impala предусмотрен свой SQL-диалект для запросов, особенности которого «методом тыка» осваивать бывает сложно. Рекомендуем познакомиться со всеми особенностями запросов к Apache Impala на нашем обучении.
Продолжительность: 2 дня (16 учебных часов).
В курсе 13 модулей, 8 лабораторных работ (на практические работы, выполняемые под руководством преподавателя, отводится 50 % времени учебного курса).
Для кого предназначен: пользователи, которым необходимо писать запросы в системе Apache Impala
План курса:
- Что такое Apache Impala и в каких ситуациях используется. Архитектура Hadoop/HIive/Impala. Как развернуть Impala.
- Средства для написания запросов в Apache Impala. DBeaver, impala-shell, HUE
- Метрики для запросов Impala. Получение информации о планах, времени выполнения и профилях запросов. EXPLAIN и графические планы выполнения запросов в Coordinator Executor.
- Расчет табличной и колоночной статистики. Проверка наличия статистики. Команда COMPUTE STATS и параметр TABLESAMPLE. Влияние статистики на планы выполения запросов.
- Введение в запросы Apache Impala. Отличия от запросов в традиционных СУБД. Базовый синтаксис запросов в Apache Impala.
- Просмотр получение информации о структуре и режимах хранения таблиц. Влияние режимов хранения PARQUET, ORC, KUDU и других на скорость выполнения запросов. запросы к таблицам на внешних движках Impala.
- Фильтрация данных в запросах Impala. Применение MIN/MAX индексов в таблицах PARQUET. Применение секционирования для ускорения запросов с фильтрами. Фильтрация времени выполнения (Runime Filtering).
- Сортировка в запросах Impala и выражение ORDER BY. Оптимизация запросов с сортировками.
- Группировка в запросах Impala и фильтрация по группам при помощи HAVING. Агрегатные функции. Применение оконных функций. Выражение DISTINCT.
- Ограничение выводимых записей. LIMIT и OFFSET. TABLESAMPLE.
- Декомпозиция сложных запросов в Apache Impala. Применение подзапросов, CTE (выражение WITH). Чем заменить временные таблицы.
- Особенности операций по изменению данных в Apache Impala. Команды INSERT, UPDATE, DELETE, UPSERT, TRUNCATE TABLE, LOAD DATA и особенности их работы в разных форматах хранения таблиц.
- Встроенные функции Apache Impala SQL: строковые, математические, даты-времени, функции для работы с условиями. Ситуации для применения функций. Особенности работы с русским языком и кодировками.