Учебный курс «Запросы в Apache Impala»

Краткое содержание: базовый синтаксис запросов в Apache Impala, ORDER BY, GROUP BY и HAVING, оконные функции, подзапросы и CTE, команды DML, производительность запросов в Apache Impala.

Общие данные:

Если у вас на предприятии развернута система на основе Apache Impala, пользователи должны уметь писать запросы к данным Impala. В Impala предусмотрен свой SQL-диалект для запросов, особенности которого «методом тыка» осваивать бывает сложно. Рекомендуем познакомиться со всеми особенностями запросов к Apache Impala на нашем обучении.

Продолжительность: 2 дня (16 учебных часов).

В курсе 13 модулей, 8 лабораторных работ (на практические работы, выполняемые под руководством преподавателя, отводится 50 % времени учебного курса).

Для кого предназначен: пользователи, которым необходимо писать запросы в системе Apache Impala

План курса:

  1. Что такое Apache Impala и в каких ситуациях используется. Архитектура Hadoop/HIive/Impala. Как развернуть Impala.
  2. Средства для написания запросов в Apache Impala. DBeaver, impala-shell, HUE
  3. Метрики для запросов Impala. Получение информации о планах, времени выполнения и профилях запросов. EXPLAIN и графические планы выполнения запросов в Coordinator Executor.
  4. Расчет табличной и колоночной статистики. Проверка наличия статистики. Команда COMPUTE STATS и параметр TABLESAMPLE. Влияние статистики на планы выполения запросов.
  5. Введение в запросы Apache Impala. Отличия от запросов в традиционных СУБД. Базовый синтаксис запросов в Apache Impala.
  6. Просмотр получение информации о структуре и режимах хранения таблиц. Влияние режимов хранения PARQUET, ORC, KUDU и других на скорость выполнения запросов. запросы к таблицам на внешних движках Impala.
  7. Фильтрация данных в запросах Impala. Применение MIN/MAX индексов в таблицах PARQUET. Применение секционирования для ускорения запросов с фильтрами. Фильтрация времени выполнения (Runime Filtering).
  8. Сортировка в запросах Impala и выражение ORDER BY. Оптимизация запросов с сортировками.
  9. Группировка в запросах Impala и фильтрация по группам при помощи HAVING. Агрегатные функции. Применение оконных функций. Выражение DISTINCT.
  10. Ограничение выводимых записей. LIMIT и OFFSET. TABLESAMPLE.
  11. Декомпозиция сложных запросов в Apache Impala. Применение подзапросов, CTE (выражение WITH). Чем заменить временные таблицы.
  12. Особенности операций по изменению данных в Apache Impala. Команды INSERT, UPDATE, DELETE, UPSERT, TRUNCATE TABLE, LOAD DATA и особенности их работы в разных форматах хранения таблиц.
  13. Встроенные функции Apache Impala SQL: строковые, математические, даты-времени, функции для работы с условиями. Ситуации для применения функций. Особенности работы с русским языком и кодировками.