Учебный курс «Работа с Airflow»
Краткое содержание: Airflow: оркестрация и ETL, Airflow Server, Broker, Scheduler, Worker, Flower, развертывание Airflow, работа с DAG, расписания и XCOM
Общие данные:
Если на вашем предприятии используются слова «оркестрация», «пайпланы», ETL, хранилища данных — то без Airflow вам не обойтись. Этот учебный курс позволит сэкономить вам множество времени, которое пришлось бы потратить на самостоятельное освоение Airflow. Вы не только познакомитесь с возможностями Airflow, но и узнаете про практический опыт применения этого продукта на многих предприятиях. Заказывайте обучение!
Продолжительность: 3 дня (24 учебных часа).
В курсе 6 модулей, 10 лабораторных работ (на лабораторные работы, выполняемые под руководством преподавателя, отводится 50 % времени учебного курса).
Для кого предназначен: дата-инженеры, разработчики, администраторы, специалисты службы сопровождения
План курса:
- Введение в Airflow
- Назначение Airflow и решаемые задачи: оркестрация, ETL, другие задачи
- Основные компоненты Airflow: Server, Broker, Scheduler, Worker, Flower, база метаданных
- Архитектура Airflow: DAG (Directed Acyclic Graphs, операторы, жизненный цикл задач)
- Развертывание Airflow
- Системные требования для Airflow
- Подготовка среды развертывания: операционные системы, база данных для хранения метаданных, учетные записи пользователей
- Развертывание кластера Airflow
- Проверка успешности установки. Знакомство с WebUI и CLI
- Основы работы с Airflow
- Создание первого DAG
- Задачи, операторы, зависимости и хуки
- Применение встроенных операторов: Python, Bash, SQL, Email
- Операторы баз данных
- Преобразование данных с помощью Pandas и SQL-запросов
- Загрузка обработанных данных в хранилища данных
- Интеграции и ожидание внешних событий: Sensors, Connections и Trigger Rules
- Шаблоны и макросы
- Использование внешних API
- Управление зависимостями задач
- Запуск пайплайнов
- Планирование и мониторинг рабочих процессов
- Планирование и мониторинг рабочих процессов: Настройка расписаний задач с помощью Cron и Timetables
- Мониторинг выполнения DAG в пользовательском интерфейсе Airflow
- Обработка сбоев и повторных попыток задач
- Параллельное выполнение и очереди задач
- Использование XCom для обмена данными между задачами
- Масштабирование и интеграция с большими данными
- Взаимодействие с HDFS и Apache Ozone
- Взаимодействие с Kafka
- Взаимодействие с NiFi
- Безопасность, логирование и оптимизация Airflow
- реализация аутентификации и управления доступом на основе ролей
- логирование и мониторинг
- методы настройки и оптимизации производительности
- управление большими рабочими процессами и производительностью DAG
- решение распространенных проблем Airflow