FARO: Herramienta para la detección de información sensible en documentos

Hoy en día, cualquier organización puede llegar a generar y gestionar una cantidad considerable de documentación directamente relacionada con su actividad diaria. Es habitual que una parte importante de esos documentos posea un carácter estratégico o confidencial: contratos, acuerdos, facturas, cuentas de resultados, presupuestos, datos personales de empleados, etc. Todos ellos son ejemplos de documentación que, mal custodiada, puede llegar a suponer un importante problema de reputación/seguridad para la organización.

Cada vez existe una mayor preocupación por proteger adecuadamente la documentación sensible, en parte fruto a la regulación como la RGPD (Reglamento General de Protección de Datos) que obliga a las organizaciones a tomar medidas proactivas para asegurar dicha protección.

Sin embargo, la realidad es que no abundan soluciones que permitan su gestión de manera simple y menos aún soluciones que una pequeña organización pueda permitirse utilizar.

Conscientes de esta necesidad, desde TEGRA vamos a presentar un acercamiento técnico al problema de la detección de información sensible dentro de los documentos. Se trata de una prueba de concepto que hemos bautizado como FARO que nace con la idea de servir de punto de partida para pequeñas organizaciones que aún teniendo dicha sensibilidad se ven huérfanas de alternativas para ir mejorando este aspecto de la seguridad de su organización.

FARO

Desde TEGRA hemos optado por realizar un sistema basado en la extracción de entidades y sus relaciones (p.ej. personas en una organización con el cargo que ocupan en la misma) y a la extracción de una serie de patrones (p.e. números de teléfono, emails, cuentas bancarias, documentos de identidad, etc) para generar indicadores objetivos que permitan detectar documentos sensibles en una organización. Estos indicadores son comunes a todo tipo de organizaciones, por lo que es más fácil emplearla sin costosas adaptaciones a cada caso concreto.

En la siguiente figura podemos ver un esquema del flujo de la herramienta FARO.

Cómo usar FARO

Para usar FARO, tras clonarlo desde GitHub e instalar sus dependencias, solo hay que invocarlo con las opciones adecuadas, como, por ejemplo:

./faro_spider.sh <directorio>

FARO generará una carpeta output en el directorio raíz del proyecto con dos ficheros de resultados:

  • output/scan.$CURRENT_TIME.csv: fichero resumen de la ejecución con el score final de cada documento y el número de ocurrencias de cada tipo de entidad
  • output/scan.$CURRENT_TIME.entity: fichero de detalle con formato json que desglosa un listado de las entidades detectadas para cada documento origen

Para aquellos lectores interesados en profundizar en los aspectos técnicos de FARO, en este enlace podéis encontrar un pequeño informe sobre la tecnología, modos de uso y posibles líneas de evolución.

Conclusiones

La detección y posterior protección de la información sensible de una organización es un elemento clave dentro de su plan integral de seguridad, no solamente por la pérdida reputacional que una filtración puede acarrear sino también por las sanciones a las que se enfrenta dentro del marco regulatorio GDPR.

Desde TEGRA, optamos por orientar nuestra prueba de concepto a organizaciones pequeñas o con menores recursos. En España el 46% de las empresas son pymes (de ellas, el 86% son micropymes). Enfocarnos a empresas con pocos recursos pero que son conscientes de la dificultad en el control de la información con la presencia de herramientas en la nube, de las dinámicas de trabajo remoto y tendencias como BYOD que a menudo diluyen la barrera entre la esfera profesional y personal de un empleado o directivo.

Se trata de una prueba de concepto y debe entenderse como tal, con sus limitaciones y potencial de mejora. Sin embargo, ha sido desarrollada tratando de ofrecer un primer accionable para aquellas organizaciones que partan de una situación de protección de la información muy desfavorable y quieran dar un primer paso adelante.

En definitiva, FARO busca ayudar a un responsable informático/sistemas de una organización que parte de una situación de ausencia de medidas de clasificación documental. FARO le permitirá dar visibilidad de los riesgos actuales ante sus superiores y poder diseñar medidas que ayuden a controlar dicho riesgo en el futuro.

TEGRA cybersecurity center se enmarca en la unidad mixta de investigación en ciberseguridad IRMAS (Information Rights Management Advanced Systems), que está cofinanciada por la Unión Europea, en el marco del Programa Operativo FEDER Galicia 2014-2020, para promover el desarrollo tecnológico, la innovación y una investigación de calidad.


Autores: Juan Elosua Tomé,  director por parte de ElevenPaths del centro I+D en Ciberseguridad TEGRA de Galicia; Rafael P. Martínez Álvarez, investigador de ciberseguridad del centro tecnológico Gradiant, partner de ElevenPaths en TEGRA y Héctor Cerezo Costas, Investigador de ciberseguridad del centro tecnológico Gradiant, partner de ElevenPaths en TEGRA.