Desplegando Apache Airflow con Docker Compose
Un workflow –flujo de trabajo– es una secuencia orquestada de pasos que conforman un proceso de negocio. Los workflows ayudan a definir, implementar y automatizar estos procesos de negocio, mejorando la eficiencia y la sincronización entre sus componentes. Un workflow ETL consiste en recoger datos de distintas fuentes, procesarlos y extraer valor de ellos, almacenando los resultados en un data warehouse, para que después puedan ser consultados por terceros. Los procesos ETL ofrecen una ventaja competitiva a las compañías que los usan, ya que facilitan la recolección de datos y su posterior almacenamiento, análisis y explotación, con el fin de mejorar la inteligencia de negocio.
Apache Airflow es una herramienta open source para diseñar, planificar y monitorizar workflows. Desarrollada en 2014 por Airbnb, y posteriormente liberada como código abierto, Airflow se ha convertido en una solución muy popular, con más de 16 000 estrellas en su repositorio de GitHub. Es una solución escalable, flexible, extensible y elegante, donde los flujos de trabajo se diseñan en Python, y se monitorizan, planifican y gestionan con una interfaz web. Airflow puede integrarse fácilmente con fuentes de datos como APIs HTTP, bases de datos (MySQL, SQLite, Postgres…) y mucho más. Si quieres aprender más sobre todo lo que puedes hacer con esta herramienta, echa un vistazo a este tutorial (en castellano) o a este otro (en inglés).
A pesar de ser una gran herramienta, hay algunas cosas de Airflow que no nos gustan mucho:
- Por defecto, Airflow utiliza una base de datos SQLite como backend, ofreciendo un bajo rendimiento
- Datos sensibles como credenciales se almacenan en la base de datos como texto plano, sin encriptar
- XCom, la cola de mensajes de Airflow, tiene un límite de tamaño de 65KB, lo cual puede ser un problema cuando se trabaja con grandes cantidades de datos
En este artículo, aprenderemos a crear nuestra propia imagen de Airflow en Docker, y a utilizar Docker Compose para automatizar el despliegue de esta herramienta junto con un backend MySQL, a fin de mejorar el rendimiento. También implementaremos un sistema criptográfico para almacenar las credenciales de forma segura, y aumentaremos el límite de tamaño de XCom a 4GB.
Spoiler: si quieres ir directo al grano y montar todo sin seguir este tutorial, al final tienes un enlace a un repositorio en GitHub con todos los archivos necesarios.
¡Manos a la obra!
En primer lugar, empezaremos por crear una imagen de Airflow en Docker. Podríamos usar la imagen oficial en DockerHub, pero creando la nuestra propia aprenderemos a instalar Airflow en cualquier entorno. A partir de la imagen oficial de Python 3.7 (la 3.8 presenta algunos problemas de compatibilidad con Airflow), instalaremos esta herramienta con el administrador de paquetes pip y haremos la configuración inicial básica. Nuestro Dockerfile se vería así:
FROM python:3.7 RUN pip3 install 'apache-airflow' RUN airflow initdb CMD (airflow scheduler &) && airflow webserver
Si quisiésemos desplegar ahora mismo un contenedor, escribiríamos las siguientes dos líneas en un terminal, creando la imagen desde el Dockerfile y, a continuación, ejecutando un contenedor con dicha imagen, mapeando el puerto 8080 y creando un volumen para persistir los datos de Airflow:
docker build . -t airflow docker run -it -p 8080:8080 -v :/root/airflow airflow
Sin embargo, como vimos antes, en este caso Airflow está utilizando una base de datos SQLite como backend, cuyo rendimiento es bastante menor que si utilizásemos, por ejemplo, un servidor MySQL. De nuevo, mediante Docker podemos desplegar un contenedor MySQL con una base de datos llamada “airflowdb” y un usuario con permisos completos en esa base de datos.
docker run -d -p 3306:3306 -v :/var/lib/mysql --env-file mysql.env mysql:latest
Junto con el archivo mysql.env en el que se definen el nombre de la base de datos, el usuario y la contraseña (puedes cambiarlos por lo que tú quieras):
MYSQL_ROOT_PASSWORD=sOmErAnDoMsTuFF MYSQL_DATABASE=airflowdb MYSQL_USER=airflower MYSQL_PASSWORD=eirfloub!*
Llegados a este punto, tiene sentido usar Docker Compose para orquestar el despliegue de estos dos contenedores. El siguiente archivo docker-compose.yml desplegará ambos contenedores y los interconectará con una red bridge llamada airflow-backend. También mapea los volúmenes necesarios para ambos contenedores, abre el puerto 8080 para Airflow, y en MySQL establece “mysql_native_password” como plugin de autenticación, ya que el “caching_sha2_password” utilizado por defecto no se lleva bien con Apache Airflow:
version: "3.7" services: airflow-backend: image: mysql:latest command: --default-authentication-plugin=mysql_native_password networks: - airflow-backend volumes: - "airflow-backend:/var/lib/mysql" env_file: - mysql.env airflow-engine: build: ./airflow-engine depends_on: - airflow-backend init: true networks: - airflow-backend volumes: - "airflow-engine:/root/airflow/" ports: - "8080:8080" env_file: - mysql.env networks: airflow-backend: volumes: airflow-engine: airflow-backend:
Además de este archivo, tenemos que crear dos carpetas: airflow-engine, con el Dockerfile de Airflow, y airflow-backend, con el Dockerfile para la base de datos y el archivo airflow.sql. Aun así, queda algo de trabajo por hacer… ¿No sería maravilloso que la conexión con el contenedor de MySQL se estableciera automáticamente? Pues no te preocupes, porque es muy sencillo. Airflow tiene un archivo llamado airflow.cfg donde almacena configuraciones clave-valor, incluyendo la URL del backend. En este caso, el nombre del contenedor de MySQL es airflow-backend, y la URL completa de la base de datos es mysql://airflower:eirfloub!*@airflow-backend/airflowdb (si has usado los mismos nombres que en este tutorial). Estos archivos clave-valor pueden ser fácilmente modificados con la librería configparser de Python. El siguiente script de Python, mysqlconnect.py, en la carpeta airflow-engine, hará el trabajo por nosotros:
from os import environ as env import configparser # Open the Airflow config file config = configparser.ConfigParser() config.read('/root/airflow/airflow.cfg') # Store the URL of the MySQL database config['core']['sql_alchemy_conn'] = 'mysql://{user}:{password}@airflow-backend/{db}'.format(user=env.get('MYSQL_USER'), password=env.get('MYSQL_PASSWORD'), db=env.get('MYSQL_DATABASE')) config['core']['executor'] = 'LocalExecutor' with open('/root/airflow/airflow.cfg', 'w') as f: config.write(f)
Con este cambio, el contenedor MySQL quedaría configurado como backend, pero las credenciales seguirían almacenándose como texto plano. Para arreglarlo, modificaremos de nuevo el archivo airflow.cfg con otro script de Python, llamado fernet.py, que generará una clave Fernet aleatoria, con la que Airflow encriptará todos los datos sensibles:
from cryptography.fernet import Fernet import configparser # Generate a random Fernet key fernet_key = Fernet.generate_key().decode() # Store the key config = configparser.ConfigParser() config.read(‘/root/airflow/airflow.cfg’) config[‘core’][‘fernet_key’] = fernet_key with open(‘/root/airflow/airflow.cfg’, ‘w’) as f: config.write(f)
La pregunta ahora es, ¿cómo ejecutamos estos scripts? ¡Bash al rescate! Escribiremos un script en Bash que se ejecutará cada vez que se lance el contenedor de Airflow. Se llamará airflow.sh y se guardará en la carpeta airflow-engine. Este script Bash comprobará si es la primera vez que se ejecuta el contenedor; si es así, hará la configuración inicial de Airflow y llamará a los dos scripts Python anteriores. A continuación, ejecutará el scheduler y el servidor web de Airflow.
INIT_FILE=.airflowinitialized if [ ! -f «$INIT_FILE» ]; then # Create all Airflow configuration files airflow initdb rm /root/airflow/airflow.db # Secure the storage of connections’ passwords python fernet.py # Wait until the DB is ready apt update && apt install -y netcat while ! nc -z airflow-backend 3306; do sleep 1 done apt remove -y netcat # Setup the DB python mysqlconnect.py airflow initdb # This configuration is done only the first time touch «$INIT_FILE» fi # Run the Airflow webserver and scheduler airflow scheduler & airflow webserver & wait
¡Casi listo! Todavía hay algo que podríamos mejorar… Por defecto, XCom, el sistema de colas de mensajes de Airflow, tiene un límite de 65KB para los objetos, lo cual puede ser insuficiente cuando se trabaja con grandes cantidades de datos. Esto sucede porque XCom funciona sobre el backend MySQL, donde el valor de cada objeto es modelado por una columna de tipo BLOB. Cambiando el tipo de columna a LONGBLOB, el límite se incrementará hasta los 4GB. Esta modificación puede ser automatizada dentro del script Bash anterior, introduciendo estas líneas antes del “touch “$INIT_FILE””:
# Allow XComs to store objects bigger than 65KB apt update && apt install -y default-mysql-client mysql –host airflow-backend –user=root –password=MYSQL_DATABASE –execute=»ALTER TABLE xcom MODIFY value LONGBLOB;» apt remove -y default-mysql-client
Si has seguido todos los pasos, deberías tener los siguientes ficheros:
airflow-engine: - airflow.sh - Dockerfile - fernet.py - mysqlconnect.py docker-compose.yml mysql.env
Solo queda un último paso, que es modificar el archivo airflow-engine/Dockerfile para que ejecute los scripts de Bash y Python que preparamos en los pasos anteriores:
# Airflow seems to crash with Python 3.8, it's important to use version 3.7 instead FROM python:3.7 # Install and setup Airflow RUN pip3 install ‘apache-airflow[mysql,crypto]’ mysql-connector-python # Configure Airflow: connect to backend WORKDIR /root/airflow/ COPY airflow.sh airflow.sh RUN chmod +x airflow.sh COPY fernet.py fernet.py COPY mysqlconnect.py mysqlconnect.py CMD ./airflow.sh
¡Ya está todo listo para desplegar tu Apache Airflow revitalizado! Abre una terminal dentro de la carpeta raíz en la que has ido creando todos los archivos del tutorial y escribe:
docker-compose build docker-compose up
Ahora ya estás listo para empezar a usar esta potente herramienta y orquestar workflows. Si no has sido capaz de seguir todos los pasos en el tutorial, no te preocupes, tienes todo en este repositorio de GitHub.
Autor: Rafael P. Martínez Álvarez, Responsable Técnico de Big Data Analytics y Guillermo Barreiro Fernández, Becario del Área de Sistemas Inteligentes