El futuro de la ciberseguridad, ¿inteligencia artificial?
Cuando William Gibson escribió Neuromante en el año 1984, años antes del nacimiento de la World Wide Web, no fue solamente capaz de anticiparse a un mundo hiperconectado, empleando el término “ciberespacio”, sino que adivinó también los problemas de ciberseguridad asociados. En la novela, Casi, el antihéroe y hacker (cybercowboy en el texto de Gibson) es contratado para vulnerar la seguridad de un sistema crítico de una gran corporación. Este tipo de ataques técnicamente avanzados, empleando el ciberespacio, bien financiados y auspiciados por gobiernos o grandes corporaciones no es desconocido hoy en día, de hecho nos referimos la ellos cómo Amenazas Avanzadas Persistentes (APT, Advanced Persistent Threats).
En la novela de Gibson, las corporaciones protegen sus sistemas más críticos empleando herramientas de detección y neutralización de ataques, conocidas por el acrónimo ICE (Intrusion Countermeasures Electronics). El equivalente en nuestra realidad serían los sistemas de detección o prevención de intrusión (IDS, Intrusion Detection System o IPS, Intrusion Protection System). En Neuromante, las versiones más avanzadas de ICE, denominadas Black ICE, capaces no solamente de evitar el ataque, sino de llegar a matar a la persona que lo realiza, están controladas mediante Inteligencia Artificial. Aunque desde el punto de vista de la ciberseguridad el objetivo no es matar al atacante sino identificar, detener y extraer inteligencia del ataque, ¿estaba Gibson en el cierto? ¿Qué papel juega o podría jugar la Inteligencia Artificial en el campo de la ciberseguridad, y en particular en los sistemas de detección de intrusión?
Aplicación de la inteligencia artificial a la ciberseguridad
Por ciberseguridad entendemos el conjunto de tecnologías empleadas para proteger a las redes y sus nodos de ataques, daños y accesos o modificaciones no autorizados. Entre estas tecnologías destacan los sistemas de detección de intrusiones (IDS) tanto en redes como en nodos de la red. Actualmente existen tres tipos de IDS en función de las tecnologías subyacentes en la detección: basados en firmas, basados en detección de anomalías y sistemas híbridos.
Los sistemas basados en firmas se emplean especialmente para detectar ataques conocidos. Como por ejemplo: un virus que contiene un determinado fichero o un ataque de SQL Injection que contiene una determinada cadena de texto conocida. Estos sistemas requieren que las firmas sean actualizadas constantemente, y por supuesto no pueden detectar ataques no conocidos (zeroday attacks). Los sistemas basados en detección de anomalías identifican patrones de comportamiento que representen una desviación de la “normalidad”. Estos sistemas son más potentes que los basados en firmas ya que permiten detectar ataques desconocidos a priori por el sistema. Otra importante ventaja es que la “normalidad” se define para cada sistema, dificultando a los atacantes la preparación de herramientas que pasen desapercibidas por el IDS. Los sistemas híbridos combinan la detección basada en firmas con la detección basada en anomalías. En la práctica apenas existen sistemas basados en detección de anomalías puros.
La detección de anomalías se puede realizar empleando distintas técnicas, como cálculos puramente estadísticos y minería de datos (data mining), pero las técnicas basadas en Inteligencia Artificial, como Machine Learning (ML), se están revelando especialmente prometedoras. Actualmente nos encontramos dentro de un instante de maduración de la tecnología, por lo que las técnicas ML aún pueden presentar una tasa alta de falsas alarmas, dificultando de este modo el trabajo de los analistas de seguridad, pero la investigación está avanzando con rapidez en la dirección correcta para conseguir cada vez mejores niveles de sensibilidad, proporcionando un alto grado de anomalías detectadas y una baja tasa de falsas alarmas.
La investigación en Gradiant: Red ICE
Aprovechando la experiencia de Gradiant en el diseño de sistemas de Machine Learning y otras soluciones de Inteligencia Artificial, y en el desarrollo de tecnologías que mejoren la ciberseguridad, acabamos de completar una prueba de concepto de un motor de Machine Learning para validar la aplicación de técnicas de ML a la detección de intrusiones.
El primer paso fue decidir qué fuentes de datos se usarían como entrada para el sistema. Antivirus, cortafuegos, sistemas de detección de intrusiones, proxies, gestión de eventos e información de seguridad (SIEM, Security Information Event Management)… Existen muchos tipos de fuentes de datos en el campo de la ciberseguridad. Para dotar a nuestra plataforma de información válida y confiable, seleccionamos software de referencia de código abierto que cubre diferentes objetivos: IDS de red (Suricata y BRO), IDS de host (OSSIM) y los logs del proxy de red (Squid).
El segundo paso fue definir un lenguaje común normalizado al que transformar las distintas fuentes de datos. El lenguaje elegido está inspirado en Apache Spot Open Fecha Model, una iniciativa que está dando los primeros pasos hacia una taxonomía común para describir los datos de telemetría de seguridad utilizados para detectar amenazas.
Una vez normalizados los datos se pueden introducir Red ICE, en el motor de machine learning diseñado por Gradiant. Este motor incorpora distintos algoritmos propios de aprendizaje automático, orientados a la detección de intrusiones. A modo de ejemplo, mencionar un algoritmo que modela el papel de cada host en la red, es decir, si el host es principalmente un productor de datos o un consumidor de datos. A continuación, el algoritmo busca cambios de papel para detectar posibles intrusiones.
Otra funcionalidad soportada por el motor de Gradiant es el resumen de los registros de eventos. Los sistemas de detección de intrusos suelen activar miles de alertas cada día. Debido a esa cantidad de información, las alertas importantes pueden pasar desapercibidas para el administrador de la red. La configuración personalizada del IDS o el post-procesamiento de salida son tareas costosas que requieren conocimientos expertos. A cuyo objeto, se aplicaron técnicas de minería de patrones y de clusterización de textos para resumir las alertas y resaltar los valores atípicos de las mismas.
Las alertas también fueron analizadas con técnicas de minería de procesos. El algoritmo genera modelo de procesos que representan estrategias de ataque. A continuación, el flujo de datos se puede analizar en tiempo real para detectar un proceso de ataque y reaccionar al mismo antes de que el ataque se complete.
Los siguientes pasos para ampliar la capacidad del sistema pasan principalmente por ampliar las fuentes de información, incluyendo flujos de datos de red, capturas de paquetes de red e información de antivirus y registros de actividad de sistema. Los buenos resultados obtenidos en la prueba de concepto sirven como indicador de la conveniencia de emplear técnicas de Inteligencia Artificial a la ciberseguridad. Para continuar con esta línea de investigación, Gradiant, dentro de un potente consorcio europeo, acaba de solicitar financiación a la Unión Europea a través del programa de apoyo a investigación H2020.
El futuro
Paseando por cualquiera de las ferias de seguridad informática es fácil ver que los principales fabricantes, especialmente los emergentes, están apostando por la Inteligencia Artificial para mejorar las capacidades de sus productos, ya sean antivirus, sistemas de detección de intrusiones, sistemas de gestión de eventos de seguridades, cortafuegos, detectores de spam, etc., pero por el momento son fundamentalmente pequeñas funcionalidades construidas sobre el núcleo de sus productos. Los algoritmos de Inteligencia Artificial, por su capacidad de aprendizaje, se presentan como una tecnología idónea para un problema, los ciberataques, que evolucionan constantemente para evadir las herramientas de detección. Buscamos, por tanto, invertir el paradigma clásico de la ciberseguridad según el cual las medidas defensivas siempre van por detrás de los atacantes. La aplicación de la IA a la ciberseguridad es un campo emergente, aderezado también, por supuesto, polo efecto en el marketing del Machine Learning, Deep Learning, etc. Así, con la aplicación de la IA se espera una nueva generación de productos que mejoren la seguridad y disminuyan los costes necesarios para su gestión.
Autores: Luis Pérez Freire, Director General; Juan González Martínez, Responsable de Seguridad y Privacidad; Carlos Giraldo Rodríguez, Investigador
Publicado originalmente en la revista A Nosa Rede especial monográfica Noite Galega 2017, editada por Colexio Oficial/Asociación de Enxeñeiros de Telecomunicación Galicia.