Vivimos en un mundo en el que resulta cada vez más difícil mantener el anonimato. Nuestra información personal está en los ficheros de numerosas empresas o administraciones públicas. Sin embargo, el RPGD y la LOPDGDD obligan a estas entidades a preservar la privacidad de los datos del individuo. Y ahí es donde entra la K-anonimidad.
En este artículo hablamos de:
¿Qué es la K-anonimidad?
La K-anonimidad es una técnica que permite cuantificar y aplicar un determinado grado de anonimidad a la información de los sujetos que figuran en una determinada base de datos. Para ello, se eliminan los datos identificadores y se aplican métodos que evitan que los datos cuasi-identificadores se puedan relacionar con los datos sensibles.
Para entender mejor este último párrafo, hay que saber distinguir entre datos identificadores, cuasi-identificadores y sensibles:
- Datos identificadores: aquellos que permiten identificar de forma inequívoca a una persona. nombre, DNI, número de teléfono, etc. La K-anonimidad NO trabaja con estos datos, los desecha directamente.
- Cuasi-identificadores: son datos que no permiten una identificación directa del individuo pero que, en conjunto con otros datos, pueden llegar a señalar a una persona claramente, por ejemplo, la fecha de nacimiento, el municipio de residencia, el Código Postal o el género. La K-anonimidad SÍ trabaja con este tipo de datos.
- Información sensible: son datos que pueden resultar muy comprometidos para la privacidad del individuo. La K-anonimidad busca que este tipo de datos NO puedan ser relacionados con los cuasi-identificadores.
Por tanto, la K-anonimidad se centra en los datos cuasi-ídentificadores, y su objetivo es que no se pueda identificar una persona a través de ellos, ni relacionar con sus datos sensibles.
La K-anonimidad sirve para medir la vulnerabilidad de aquellos datos que ya han pasado por un proceso de anonimización.
La K-anonimidad mide las probabilidades de que un tercero pueda relacionados los datos de una persona que hayan sido tratados, y la posibilidad de que pueda llegar a un perfil al que se atribuyen dichos datos.
El grado de probabilidad de que se pueda identificar a una persona a través de datos cuasi-identificadores (los que no relacionan al sujeto de manera directa) se determina a través de la proporción 1/K, de manera que un valor alto de K garantiza una correcta anonimización.
Como decimos, para garantizar la seguridad a la hora de realizar un tratamiento de datos se debe establecer un valor mínimo de “K”. En este sentido, la anonimidad del individuo en una base de datos estará garantizada siempre que existan K-1 sujetos con valores idénticos en la base de datos.
De esta manera, la probabilidad de identificar a un sujeto según los cuasi-identificadores será de 1/K. Cuanto más riesgo haya para la privacidad de los datos y mayor nivel de anonimización se quiera aplicar, mayor será también el valor de “K”.
Código postal | Edad | ¿Diabético? |
---|---|---|
33007 | 37 | SI |
33207 | 41 | NO |
33401 | 39 | SI |
33007 | 37 | NO |
33460 | 41 | SI |
33207 | 31 | NO |
Código postal | Edad | ¿Diabético? |
---|---|---|
33*** | 31-40 | SI |
33*** | 31-50 | NO |
33*** | 31-40 | SI |
33*** | 31-40 | NO |
33*** | 31-50 | SI |
33*** | 31-40 | NO |
Código postal | Edad | ¿Diabético? |
---|---|---|
33*** | 31-40 | SI |
33*** | 4-50 | NO |
33*** | 31-40 | SI |
33*** | 31-40 | NO |
33*** | 31-50 | SI |
33*** | 31-40 | NO |
Métodos de K-anonimización
Hasta ahora todo suena muy teórico, pero en este punto vamos a ver qué técnicas de K-anonimización se utilizan y unos ejemplos de su aplicación.
Para conseguir que las bases de datos cuenten con datos cuasi-identificadores repetidos, que impidan la identificación directa de un individuo relacionando estos datos cuasi-identificadores entre sí, se recurre a dos técnicas: la generalización y la eliminación.
Generalización
Consiste en limitar la precisión de los datos cuasi-identificadores. Se hace a través del establecimiento de una jerarquía, en el que cierto atributos dentro de un mismo grupo comparten valores. Estos valores no estarán completamente visibles, sino que solo serán identificables parcialmente.
Imagina que existe una base de datos con datos cuasi-identificadores como el Código postal y la edad, los cuáles están unidos a un dato sensibles relacionado con la salud. Por ejemplo si tienen problemas de diabetes. Por ejemplo, sobre personas con diabetes en Asturias.
Veamos la base de datos “en bruto”:
Ahora, apliquemos la generalización al Código Postal y a la edad. Para generalizar la edad, se puede ampliar el rango, cubriendo un mayor espectro de años, en vez de mostrar la edad exacta.
Para el Código Postal, se parte de una jerarquización, en la que se limita la visibilidad de los datos cuasi-identificadores.
Teniendo en cuenta esto, la base de datos quedaría como la siguiente tabla.
Como puedes ver, ahora la identificación de los sujetos presentes en la tabla sería más complicada, ya que no figura el Código Postal exacto, y tampoco se conoce su edad real, sino que se trabaja sobre un rango determinado..
Eliminación
Otra manera de aplicar la K-anonimidad es eliminar de la base de datos aquellos registros con valores poco usuales y diferenciados de los demás, que podría favorecer la identificación del sujeto.
Siguiendo con el ejemplo anterior, podríamos eliminar de la base de datos la información de los sujetos que figura en rojo en la tabla.
Limitaciones
¿Qué consecuencias podría tener el uso de técnicas de K-anonimización? ¿Cuáles son sus principales limitaciones?
En el caso de la generalización, lo que se provoca es que no se pueda realizar un análisis en base a los datos atomizados, con lo cual se evita que esta INFO pueda ser relacionada con otros datos cuasi-identificadores.
Por su parte, la eliminación es otra técnica de K-anonimato que introduce un sesgo informativo, es decir, limita los números de resultados en las bases de datos, de forma que no figuren aquellos sujetos cuyos datos son muy diferentes al resto y, por tanto, serían más fáciles de identificar.
Cabe decir que no son dos técnicas excluyentes y que se pueden aplicar ambas de forma simultánea para aumentar los niveles de K-anonimity.
Herramientas existentes para la K-anonimidad
La Agencia Española de Protección de Datos (AEPD) recomienda una serie de herramientas para la anonimización de bases de datos. Muchas de ellas utilizan los denominados algoritmos de hash, como por ejemplo SHA1 o MD5
- ARX Data Anonymization Tool: un programa de código abierto con el que se pueden eliminar datos identificadores y aplicar criterios de uso para los cuasi-identificadores. Se puede integrar con Java y soporta grandes bases de datos.
- Amnesia: similar a la anterior, permite eliminar identificadores y modificar los cuasi-identificadores usando técnicas de K-anonimización. Tiene versión de escritorio y online.
- UTD herramienta de anonimización: otra herramienta open source que se emplea principalmente para la anonimización de datos de uso público.
Además de usar algoritmos de Hash para crear estructuras de datos, estos programas deben tener algoritmos de cifrado, sellos de tiempo para indicar cuando se ha realizado al anonimización, y diferentes capas para aplicación del K-anonimato.
Recomendaciones
Muchas entidades creen que para mantener lo sujetos de sus bases de datos en el anonimato es suficiente con eliminar los elementos identificadores. Sin embargo, esto no es suficiente. También hay que actuar sobre los datos cuasi-identificatorios.
Estos datos pueden tener gran interés para el análisis o el tratamiento de datos, pero es imprescindible que se puedan disociar totalmente de los sujetos a los que hace referencia. Esto obliga a implementar técnicas que eviten que se puedan establecer relaciones en base a datos cruzados o grupos de información.
Los responsables del tratamiento de datos deben realizar análisis que determinen las necesidades de la empresa en cuanto a la anonimización de información personal. En base a este análisis se decidirán el grado de precisión de las técnicas de K-anonimidad:
- Qué tipo de atributos cuasi-identificadores se escogen para la anonimización.
- Grado de profundidad de la generalización.
- Márgenes de eliminación.
Al realizar este análisis, los responsables de protección de datos tendrán que encontrar el equilibrio entre los intereses propios y legítimos de la empresa, y los derechos y libertades de los ciudadanos, entre los que se encuentran el derecho a la privacidad, la intimidad y a la propia imagen.