Mantener la privacidad de los datos y, a la vez, poder obtener de ellos información útil, que pueda aplicarse a los procesos de toma de decisión, requiere equilibrar la balanza entre proteger y mantener la privacidad de los individuos a quien pertenecen los datos y la necesidad de obtener resultados significativos de ellos. En este escenario, la privacidad diferencial puede suponer una solución interesante para garantizar la protección de la privacidad.
En este artículo hablamos de:
¿Qué es la privacidad diferencial?
La privacidad diferencial es un conjunto de técnicas que permiten analizar un conjunto de datos, manteniendo siempre la privacidad de los datos. Es decir, que, una vez aplicadas las técnicas de la privacidad diferencial, podemos obtener información útil del conjunto de datos, pero no podremos obtener información personal de los individuos que han proporcionado dichos datos.
Aunque se basa en el uso de algoritmos, es importante señalar que la privacidad diferencial no es un algoritmo, sino un marco o sistema de trabajo que usa técnicas matemáticas, en concreto, de estadística, para analizar conjuntos de datos sin comprometer la identidad y la privacidad de las personas que han proporcionado los datos.
La privacidad diferencial se emplea sobre todo en el machine learning o entrenamiento de algoritmos, para garantizar que con los datos empleados, no se puede identificar a los individuos, pero no es el único uso que se le da o se le podrá dar en el futuro. Hay que señalar que es un sistema relativamente reciente (como concepto surgió en 2006) y, aunque varias compañías, como Microsoft, Amazon, Meta o Apple, ya lo ponen en práctica, aún prosigue su desarrollo.
¿Cómo protege tus datos la privacidad diferencial?
Como decíamos, a través de la privacidad diferencial podemos extraer información que nos permita conocer mejor a nuestros usuarios en su conjunto, pero sin vulnerar la privacidad de los mismos. Para ello, la privacidad diferencial añade lo que se denomina ruido estadístico a los datos, ya sea en los datos iniciales o en los datos de salida, lo que, aplicado a los datos personales, hace que estos no se puedan vincular a los individuos que los facilitaron.
Usando las técnicas de privacidad diferencial, se garantiza de manera matemática que de los resultados del análisis de un conjunto de datos, no se podrá inferir información personal sobre un individuo cuyos datos formen parte del conjunto. Además, también garantiza mantener la privacidad en caso de sufrir filtraciones de la base de datos o que esta sea atacada.
A diferencia de las técnicas de seudonimización, que pueden revertirse para reidentificar a un individuo, la privacidad diferencial evita esta posibilidad.
De forma sencilla, la privacidad diferencial cambia los datos del conjunto de datos al aplicarles un valor aleatorio (ruido), que no alterará significativamente el resultado del análisis, pero sí que «oculta» el dato real originario.
¿Cómo funciona la privacidad diferencial?
Como decíamos, para proteger los datos y evitar la identificación de los individuos que los han proporcionado, lo que se hace es aplicar sobre los datos un valor aleatorio, positivo o negativo; para ello se pueden emplear diferentes algoritmos para introducir el ruido en todos los datos del conjunto, como, por ejemplo, la distribución de Laplace. La clave está en introducir esa aleatoriedad sobre los datos.
Por ejemplo, si queremos saber el nivel de ingresos mensuales medios de nuestros clientes, al recopilar este dato, se pide que se añada un valor aleatorio en un rango entre -500 y +500 a su nivel de ingresos. De esa forma se aleatoriza el dato, que sigue siendo útil para el análisis, porque los resultados que obtendremos de él estarán muy cerca de la media de ingresos que obtendríamos analizando los datos sin introducir el ruido.
La aleatoriedad se introduce determinando un parámetro ε (épsilon); cuanto más pequeño sea este parámetro, mayor privacidad se consigue para los datos, aunque menor precisión. Y cuanto mayor sea ε, más precisión en los resultados del análisis, pero menores garantías de privacidad. Así que la clave del sistema de privacidad diferencial está en determinar la intensidad del parámetro escogido (la cantidad de ruido que añadimos a los datos) para asegurar que al realizar diferentes consultas y cruzar información, no se pueda identificar a los individuos.
Como decíamos, la privacidad diferencial se basa en técnicas matemáticas para determinar la distribución de la que se sacan los valores de ε, que resultan complejas de explicar, pero si tenéis curiosidad, podéis consultar el paper del estudio original realizado por un equipo de Microsoft Research y la Universidad de Pensilvania.
Finalmente, existen dos modelos habituales de privacidad diferencial; el modelo global, en el que el ruido se aplica sobre el conjunto de datos ya recogido, de manera que existe una base de datos en bruto, que podría acabar filtrándose. Y el modelo local, que aplica el ruido en el momento de recoger los datos, es decir, el algoritmo que añade el valor aleatorio se instala en el dispositivo o sistema y ya no se envían los datos en bruto, sino que se envían procesados, de manera que los datos privados reales ya no son enviados. El modelo local ofrece una mayor garantía de privacidad, puesto que no hay una base de datos en bruto que pueda acabar en manos de terceros.
Beneficios de la privacidad diferencial
La privacidad diferencial puede aportar diferentes beneficios, siendo el mayor de ellos el de asegurar la privacidad de los datos, siendo más resistente a ataques de privacidad y de vinculación, que puedan conducir a la reidentificación de los individuos.
Otro de sus beneficios es que, pese a la aleatoriedad, los resultados obtenidos del análisis de datos siguen resultando útiles, especialmente en grandes muestras, donde el margen de diferencia entre el resultado de los datos aleatorizados y los datos originales sería menor. Además, a diferencia de la anonimización, que puede acabar haciendo que los datos sean poco útiles para su análisis, la privacidad diferencial mantiene la utilidad de los datos para poder inferir información sobre el conjunto analizado.
Este mantenimiento de la privacidad y la utilidad del análisis de los datos, convierte a la privacidad diferencial en una herramienta (o, mejor dicho, conjunto de herramientas) muy útil para llevar a cabo análisis de usuarios o clientes, sin vulnerar su privacidad o sus datos personales, puesto que no se podrá inferir información sobre un individuo determinado, sino sobre el conjunto al que pertenecen los datos analizados.
Como contrapartida a estos beneficios, la privacidad diferencial es, como decíamos, bastante reciente y el resultado de los análisis de datos diferencialmente privados no son precisos al cien por cien todavía, aunque ofrezcan una buena aproximación. Además, cuantas más consultas se hagan a la base de datos, más riesgo se corre de exponer la información privada. Esto hace que sea necesario aplicar otras técnicas, como ciertos tipos de encriptación, para poder seguir garantizando la privacidad.
En cualquier caso, es muy posible que con el desarrollo de la privacidad diferencial, las técnicas que la hacen posible y nuevas formas de encriptación más seguras, esta se convierta en uno de los sistemas más útiles para analizar conjuntos de datos personales, sin vulnerar la privacidad de los individuos.