Учебный курс «Работа с Airflow»

Краткое содержание: Airflow: оркестрация и ETL, Airflow Server, Broker, Scheduler, Worker, Flower, развертывание Airflow, работа с DAG, расписания и XCOM

Общие данные:

Если на вашем предприятии используются слова «оркестрация», «пайпланы», ETL, хранилища данных — то без Airflow вам не обойтись. Этот учебный курс позволит сэкономить вам множество времени, которое пришлось бы потратить на самостоятельное освоение Airflow. Вы не только познакомитесь с возможностями Airflow, но и узнаете про практический опыт применения этого продукта на многих предприятиях. Заказывайте обучение!

Продолжительность: 3 дня (24 учебных часа).

В курсе 6 модулей, 10 лабораторных работ (на лабораторные работы, выполняемые под руководством преподавателя, отводится 50 % времени учебного курса).

Для кого предназначен: дата-инженеры, разработчики, администраторы, специалисты службы сопровождения

План курса:

  1. Введение в Airflow
    • Назначение Airflow и решаемые задачи: оркестрация, ETL, другие задачи
    • Основные компоненты Airflow: Server, Broker, Scheduler, Worker, Flower, база метаданных
    • Архитектура Airflow: DAG (Directed Acyclic Graphs, операторы, жизненный цикл задач)
  2. Развертывание Airflow 
    • Системные требования для Airflow
    • Подготовка среды развертывания: операционные системы, база данных для хранения метаданных, учетные записи пользователей
    • Развертывание кластера Airflow
    • Проверка успешности установки. Знакомство с WebUI и CLI
  3. Основы работы с Airflow
    • Создание первого DAG
    • Задачи, операторы, зависимости и хуки
    • Применение встроенных операторов: Python, Bash, SQL, Email
    • Операторы баз данных
    • Преобразование данных с помощью Pandas и SQL-запросов
    • Загрузка обработанных данных в хранилища данных
    • Интеграции и ожидание внешних событий: Sensors, Connections и Trigger Rules
    • Шаблоны и макросы
    • Использование внешних API
    • Управление зависимостями задач
    • Запуск пайплайнов
  4. Планирование и мониторинг рабочих процессов
    • Планирование и мониторинг рабочих процессов: Настройка расписаний задач с помощью Cron и Timetables
    • Мониторинг выполнения DAG в пользовательском интерфейсе Airflow
    • Обработка сбоев и повторных попыток задач
    • Параллельное выполнение и очереди задач
    • Использование XCom для обмена данными между задачами
  5. Масштабирование и интеграция с большими данными 
    • Взаимодействие с HDFS и Apache Ozone
    • Взаимодействие с Kafka
    • Взаимодействие с NiFi
  6. Безопасность, логирование и оптимизация Airflow
    • реализация аутентификации и управления доступом на основе ролей
    • логирование и мониторинг
    • методы настройки и оптимизации производительности
    • управление большими рабочими процессами и производительностью DAG
    • решение распространенных проблем Airflow