Anonimización de datos: ¿de qué nos protege?
La compartición abierta de datos (lo que típicamente se conoce como “open data”) es fundamental para el avance tecnológico y científico, y en muchos casos resulta imprescindible para la realización de estudios o el desarrollo de nuevas aplicaciones que impactan beneficiosamente en el conjunto de la sociedad. Sin embargo, esta compartición debe realizarse tomando las medidas y precauciones adecuadas, especialmente en aquellos casos en que los datos empleados contienen información personal.
Anonimización: protección de la privacidad
La anonimización de datos consiste en aplicar un conjunto de técnicas para proteger la privacidad de los datos personales, y es especialmente relevante cuando se quieren compartir con terceros. Su objetivo no es otro que el de minimizar el riesgo de identificar a las personas que aparecen en dichos datos. En este contexto, la identificación se debe de entender en su sentido más amplio, ya que no sólo se refiere a descubrir directamente el nombre o el número de DNI de una persona, sino también al hecho de llegar a deducir la identidad de alguien debido a que tenga ciertas características que lo hagan único (como por ejemplo, la combinación de su fecha de nacimiento y código postal).
Para poder realizar una anonimización adecuada, existen diferentes técnicas que se pueden aplicar. Estas técnicas típicamente modifican los datos, bien sea cambiando su valor (por ejemplo, añadiendo ruido que distorsione un valor numérico) o eliminándolo por completo. En general, cuanto más distorsionamos los datos mayores serán nuestras garantías privacidad, aunque si los modificamos en exceso podrían llegar a perder totalmente su valor de cara a los estudios y aplicaciones que mencionábamos antes. Este problema es lo que en anonimización se conoce típicamente como el balance entre la privacidad y utilidad de los datos, y encontrar su equilibrio óptimo es una tarea complicada.
Por otra parte, es importante destacar que para que un proceso de anonimización sea correcto, éste debe ser irreversible, y el simple hecho de eliminar un identificador (como un DNI) o cambiarlo por otro valor asociado (lo que se conoce como pseudonimizar) no es suficiente para garantizar la privacidad. Para anonimizar correctamente unos datos necesitamos gestionarlos en su conjunto y entender bien el riesgo al que pueden estar sujetos. Si, idealmente, conseguimos transformarlos hasta el punto en que se encuentran totalmente anonimizados, los datos dejarán de ser considerados personales ya que, teóricamente, no será posible deshacer su anonimización e identificar a qué personas pertenecen.
Avances tecnológicos en anonimización de datos
¿Cómo podemos garantizar que nuestros datos son realmente anónimos o que no hay ningún riesgo para la privacidad? La respuesta a esta pregunta es sencilla: las garantías absolutas no existen.
Aunque a día de hoy consigamos hacer una anonimización perfecta, hay ciertos aspectos que siempre se escaparán de nuestro control. Por ejemplo, dentro de unos años alguien podría liberar otro conjunto de datos que, si se cruzase con nuestra base de datos anonimizada, podría derivar en la reidentificación de una persona teóricamente anónima. Por tanto, lo mejor que podemos hacer es seguir una aproximación basada en riesgos y adaptar el proceso de anonimización a cada caso particular, aplicando las técnicas más avanzadas que nos permitan obtener a día de hoy el mejor balance entre la privacidad y utilidad, y medir de forma periódica el riesgo al que se ven sujetos los datos.
En ese sentido, desde Gradiant trabajamos en soluciones avanzadas de anonimización que permiten automatizar este complejo proceso, y en el desarrollo de métricas para estimar el riesgo y cómo de útiles son los datos después de haber sido anonimizados. En la actualidad, participamos en el europeo proyecto INFINITECH, investigando en nuevas técnicas avanzadas que permitan anonimizar datos personales, incluyendo datos de geoposicionamiento.
Autora: Lilian Adkinson, responsable de Analítica en Seguridad y Privacidad en Gradiant