Anonimización en entornos Big Data: un reto para cumplir el RGPD
Si pensamos en la información que ciertas compañías como Facebook o Amazon manejan diariamente, seguramente nos venga un concepto a la mente: el Big Data. Con el incremento de la potencia computacional y la reducción de los costes de almacenamiento, así como el desarrollo de campos como la computación en la nube o el Internet de las cosas, el Big Data ha adquirido especial importancia en los últimos años.
El concepto de Big Data se refiere a grandes volúmenes de datos complejos que deben ser procesados a gran velocidad. De esta definición podemos extraer tres propiedades principales del Big Data, también conocidas como las tres Vs: volumen, variedad y velocidad. El Big Data ha permitido el desarrollo de campos como el aprendizaje automático, el aprendizaje profundo, la ciencia de datos, etc. Estas tecnologías han tenido un impacto directo en nuestra vida cotidiana, en servicios de salud, coches autónomos o las llamadas FinTech.
A pesar de que el Big Data ha tenido un gran impacto en el mundo y ha aportado grandes beneficios, también ha abierto las puertas a nuevos retos. La introducción del Big Data ha jugado un papel importante en la creciente preocupación de los usuarios sobre la privacidad de los datos, es decir, sobre cómo sus datos personales son recolectados, tratados y para qué son utilizados, dando lugar a la aparición de nuevas regulaciones sobre protección de datos y privacidad, como el Reglamento General de Protección de Datos (RGPD) en 2018. El RGPD introduce nuevos requisitos para permitir el procesado de datos personales, a los que tienen que adaptarse tanto las empresas como investigadores e ingenieros de datos.
Uno de los mecanismos para aumentar la privacidad de un conjunto de datos son las técnicas de anonimización. Llevada a cabo correctamente, la anonimización hace que resulte imposible identificar a un individuo particular dentro de un conjunto de datos. Los datos anonimizados no son considerados datos personales, por lo que no entran dentro del contexto de aplicación del RGPD. Sin embargo, según el RGPD, para que los datos sean considerados realmente anónimos es necesario que la solución de anonimización implementada cumpla unos ciertos requisitos, de forma que una tercera parte no pueda realizar las siguientes acciones:
- Identificar a un individuo en el conjunto de datos, es decir, aislar cierta información de forma que se pueda identificar a un individuo.
- Enlazar dos entradas de la base de datos que pertenecen a la misma persona, incluso si su identidad sigue siendo desconocida.
- Inferir cualquier tipo de información en dicho conjunto de datos, deduciendo el valor de un atributo a partir de otro conjunto de atributos.
Retos de la anonimización en contextos Big Data
Diseñar una solución de anonimización efectiva se convierte en una tarea particularmente difícil en entornos Big Data, debido a las propiedades anteriormente mencionadas. En primer lugar, para escoger el método de anonimización adecuado es importante realizar un extenso análisis de los datos a anonimizar. Este análisis a priori permite identificar la información personal, así como cualquier otro tipo de información que podría ser utilizada para identificar unívocamente a un individuo. Cuando el volumen de datos aumenta, este análisis se vuelve más costoso y complejo.
Además, los datos anonimizados deben garantizar que un individuo no puede ser identificado cuando se cruzan con otros conjuntos de datos. Se ha demostrado que eliminar los identificadores directos, como el nombre, el DNI, o el número de teléfono, no es suficiente para preservar la privacidad, puesto que un atacante podría tener información adicional que podría permitir la re-identificación de los individuos de la base de datos. Por ejemplo, un código postal de 5 dígitos, una fecha de nacimiento y el género bastan para identificar a cerca del 80 por ciento de la población de Estados Unidos. Por tanto, es crucial identificar cualquier tipo de dato que pudiese ser potencialmente utilizado para distinguir a un individuo, teniendo en cuenta la posible información que un atacante sea capaz de recabar de fuentes externas.
Además, el crecimiento del Big Data ha supuesto un incremento de la información disponible públicamente que podría ser utilizada para cruzar datos para re-identificar a usuarios. Un ejemplo de esto es el caso de Netflix: Arvind Narayanan y Vitaly Shmatikov de la Universidad de Texas fueron capaces de re-identificar usuarios de una base de datos de películas de Netflix supuestamente anonimizadas cruzando los datos con otra base de datos disponible públicamente de IMDb.
Además, determinar el riesgo de re-identificación (la probabilidad de identificar a un individuo en particular de la base de datos) de un conjunto de datos es crucial para verificar que los datos han sido anonimizados correctamente. En un contexto Big Data, evaluar este riesgo es computacionalmente complejo, debido, de nuevo, a las propiedades inherentes a este tipo de datos. El mismo problema se presenta cuando se trata de calcular la utilidad del conjunto de datos. Asimismo, la mayoría de los algoritmos de anonimización existentes están pensados para conjuntos de datos homogéneos. Sin embargo, la propiedad de variedad del Big Data implica que los datos son generalmente heterogéneos.
Por último, la propiedad de velocidad implica que los datos deben ser procesados rápidamente. Por esta razón, normalmente son procesados en tiempo real. Esto hace que sea incluso más complejo llevar a cabo el análisis de los datos para seleccionar la mejor estrategia de anonimización, así como calcular las métricas de privacidad y utilidad pertinentes, puesto que los datos estarán incompletos en el momento de procesarlos. Se han desarrollado algunas soluciones para afrontar estos problemas, sin embargo, aun quedan muchos retos por delante, como reducir la complejidad temporal y espacial de los algoritmos existentes.
En conclusión, el crecimiento del Big Data ha tenido un gran impacto en la privacidad de los datos, puesto que las propiedades inherentes a esta tecnología hace que preservar la privacidad sea especialmente difícil. Existe una clara necesidad de desarrollar algoritmos más eficientes y escalables.
Autora: Sara El Kortbi Martínez, ingeniera-investigadora del área de Seguridad y Privacidad de Gradiant
Gradiant participa actualmente en el proyecto H2020 INFINITECH (Grant Agreement 856632) desarrollando diferentes algoritmos de anonimización. El objetivo es implementar una herramienta de anonimización que ayudará a automatizar el proceso de anonimización, así como facilitar la anonimización del Big Data en streaming.