Conoce Atico34 - Solicita presupuesto
Inteligencia artificialNuevas tecnologias

Datos sintéticos y protección de datos

El uso de datos sintéticos está cada vez más extendido, en gran medida debido al desarrollo de los modelos de IA y machine learning, aunque se pueden aplicar y usar en otros ámbitos. En este artículo explicamos qué son los datos sintéticos y su relación con la protección de datos.

¿Qué son los datos sintéticos?

La definición de datos sintéticos nos dice que son datos generados de manera artificial para simular los patrones existentes en los datos reales. Por lo tanto, estamos ante datos no reales que, para que resulten útiles, deben preservar las características y propiedades de los datos reales para casos de uso específicos.

Actualmente, los datos sintéticos se emplean en diferentes ámbitos, desde el aprendizaje automático o machine learning, hasta la creación de modelos de simulación para evaluar los efectos que podría tener una determinada acción sin llegar a realizarla en la realidad. Así mismo, y como veremos más adelante, los datos sintéticos también resultan útiles para la protección de la privacidad de la información, sea esta de carácter personal o de otra índole (propiedad intelectual, secretos comerciales, etc.).

Es importante señalar que los datos sintéticos no son datos aleatorios, sino que al crearse deben reproducir las características y la estructura de los datos reales, para que al ser analizados, permitan extraer conclusiones similares en casos de uso específicos. Por ejemplo, no se trata de escoger nombres y apellidos, junto a un código postal de manera aleatoria, para crear una base de datos de supuestos clientes, sino de «enriquecer» ese dato del código postal con el nivel de gasto asociado a esa área o su nivel de renta.

¿Cómo se crean los datos sintéticos?

La creación de datos sintéticos se basa en el uso de algoritmos avanzados y técnicas que permiten replicar la complejidad de los datos reales sin afectar a la privacidad de los mismos, es decir, que aunque se utilicen datos reales para crear datos sintéticos, la privacidad de los primeros no se verá comprometida (o no debería hacerlo si el proceso se ha realizado adecuadamente).

Si bien, la mayoría de datos sintéticos se producen manualmente usando bases de datos SQL para extraer y anonimizar datos y limpiarlos posteriormente usando lenguajes de programación estándar, actualmente se ha empezado a extender el uso de otras técnicas basadas en machine learning, como la Generación Adversarial (GAN); esta técnica, basada en redes neuronales, enfrenta a dos sistemas, un «generador» y un «discriminador», que trabajan de manera conjunta desafiándose mutuamente para obtener datos sintéticos de alta calidad.

En la Generación Adversarial, el generador crea datos que aspiran a ser indistinguibles de los datos reales, mientras que el discriminador debe evaluar esos datos para determinar si son reales o no. A través de muchas iteraciones, el generador y el discriminador mejoran su rendimiento, dando lugar a datos sintéticos cada vez «más reales» y de mejor calidad.

Es importante señalar que para que los datos sintéticos resulten útiles es fundamental preservar la estructura y las características esenciales de los conjuntos de datos originales, para ello se recurre a la replicación de patrones, distribuciones y correlaciones presentes en los datos reales.

Así mismo, dependiendo de para qué se vayan a utilizar los datos sintéticos, se puede considerar sintetizar todas las variables del conjunto de datos originales, obteniendo así un conjunto de datos completamente sintéticos, o sintetizar solo determinadas variables para obtener datos parcialmente sintéticos, de manera que se preserve la información más sensible.

Cabe señalar que la mayoría de conjuntos de datos sintéticos solo tienen valor y utilidad para los casos de uso específicos para los que se hayan creado, de manera que si se necesitan para otras finalidades, será necesario crear nuevos conjuntos de datos sintéticos bajo otros parámetros.

¿Para qué sirven los datos sintéticos?

Los datos sintéticos tienen múltiples usos y aplicaciones, especialmente dentro del ámbito de la inteligencia artificial y el aprendizaje automático; el uso de datos sintéticos permite llevar a cabo procesos de simulación, prueba y validación de modelos de IA cuando no hay datos reales en la cantidad necesaria o incluso no existen, ya que la situación que se quiere proyectar y simular no se ha producido en el mundo real o no hay suficientes históricos de datos para poder sacar conclusiones adecuadas.

En esta línea, los datos sintéticos también sirven para cumplir con las normativas de privacidad y protección de datos al entrenar modelos de IA y aprendizaje automático, puesto que se evita usar datos reales que podrían poner en riesgo la información personal de las personas y suponer una vulneración de la ley.

Así mismo, los datos sintéticos también se usan para verificar y validar sistemas que representan situaciones anómalas o atípicas, escenarios límite o que tienen muy poca probabilidad de suceder, para poder hacer proyecciones futuras y estar preparados si esos escenarios eventualmente se producen.

En relación con la economía de los datos y la creación de espacios de datos, donde las organizaciones pueden intercambiar este tipo de información, los datos sintéticos se convierten en un elemento valioso para evitar la filtración de información confidencial de las organizaciones que participan en estos espacios.

Además de estos usos, hay otras aplicaciones específicas para los datos sintéticos, entre las que destacamos las siguientes:

  • Desarrollo y prueba de algoritmos, ya que permiten probar y validar sistemas o modelos de IA antes de introducir datos reales.
  • Entrenamiento de modelos de aprendizaje automático sin comprometer la privacidad de la información.
  • Realización de pruebas de seguridad informática y de resiliencia al simular ciberataques en entornos controlados, para identificar vulnerabilidades y desarrollar estrategias de defensa acordes.
  • En investigaciones médicas y científicas sin poner en riesgo la privacidad de información sensible como son los datos de salud.
  • En la prueba y verificación de software y aplicaciones, para identificar situaciones y comportamientos de los usuarios y poder responder ante ellas.
  • Simulaciones en el ámbito empresarial e industrial para realizar análisis de riesgos y escenarios hipotéticos, que ayuden a tomar decisiones informadas futuras.

¿Cómo afecta la normativa de protección de datos a los datos sintéticos?

Aunque hablemos de datos sintéticos, estos no son ajenos a la normativa de protección de datos, puesto que para su creación se usan, en algunos casos, datos reales, lo que implica una actividad de procesamiento de datos que está sometida al RGPD.

Al crear datos sintéticos a partir de conjuntos de datos reales, se deben aplicar medidas de seguridad en base al riesgo de reidentificación que pueda existir. Por lo tanto, es necesario evaluar la anonimidad de los datos sintéticos obtenidos a partir de un conjunto de datos reales, para asegurar que estos no contienen información de personas identificadas o identificables.

Por el contrario, si los datos sintéticos no se han creado de conjuntos de datos reales, es decir, son completamente sintéticos, no sería de aplicación el RGPD.

tarifas proteccion datos

¿Por qué usar datos sintéticos?

El uso de datos sintéticos puede ayudar a responsables y encargados del tratamiento a aplicar un enfoque de privacidad desde el diseño para sus actividades de tratamiento (especialmente dentro del ámbito del desarrollo de IA y modelos de aprendizaje automático, así como otros tipos de soluciones de software), puesto que se evita el uso de datos reales o, como mínimo, se limita la exposición de información sensible.

Así mismo, al usar datos sintéticos se pueden suplir datos reales insuficientes o que ni siquiera existen, para poder simular y proyectar posibles escenarios en diferentes ámbitos, que ayuden a prepararse de cara al futuro y poder así tomar decisiones informadas en función del escenario que se produzca.