ChatGPT tiene respuesta casi para cualquier cosa que le preguntemos, casi, porque no está conectado a internet y su información alcanza solo hasta 2021. Pero ¿de dónde saca los datos ChatGPT? ¿Qué fuentes han alimentado a este modelo de lenguaje?
En este artículo hablamos de:
¿Qué datos usa ChatGPT?
ChatGPT usa datos publicados en internet, y estos datos pueden ser de cualquier tipo, incluidos datos personales que hayamos podido hacer públicos en alguna ocasión. Cuando hablamos de datos, nos referimos a todo tipo de información publicada en internet, desde noticias, ensayos, artículos, textos de ficción, entradas de blog, conversaciones, etc.
Y lo cierto es, cómo veremos en el siguiente punto, que es muy complicado determinar qué datos usa ChatGPT de manera concreta, porque esta información se mantiene o, al menos, se trata de mantener confidencial.
¿De dónde saca los datos ChatGPT?
Si le preguntamos de dónde saca los datos ChatGPT al propio ChatGPT, nos responderá que no «saca» los datos de ningún sitio, sino que ha sido alimentado «con una amplia variedad de texto tomado de Internet, que incluye libros, artículos, páginas web y muchas otras fuentes de información disponibles públicamente».
Si queremos profundizar un poco más y le preguntamos cuáles son esos textos que se han usado para entrenarlo, ChatGPT nos volverá a responder con ese listado, incluso puede que añada alguna fuente más, como conversaciones online. Sin embargo, no nos da una respuesta concreta porque no puede, ya que el propio modelo no tiene conocimiento de los textos específicos con los que le ha entrenado.
Esto quiere decir que saber de dónde saca ChatGPT los datos es una tarea compleja, aunque no imposible, como ha demostrado, en parte, una investigación publicada en el Washington Post, llevada a cabo con ayuda del Allen Institute for AI (decimos en parte, porque la fuente analizada para la investigación es solo una de las empleadas por IA como ChatGPT para entrenarlas).
Los investigadores pudieron analizar uno de los conjuntos de datos utilizados para entrenar IA (no solo ChatGPT, sino también las desarrolladas por Google o Meta), el Colossal Clean Crawled Corpus (C4) de Google, cuyos datos provienen de más de 15 millones de sitios web, si bien, durante el proceso de investigación y análisis se descartaron cinco millones de esos sitios por no poder categorizarlos.
De los sitios web que sí fueron analizados para el artículo del Washington Post, la mayoría eran páginas de medios de comunicación, de entretenimiento, de desarrollo de software y tecnología, de medicina y de creación de contenido. Si nos fijamos en el top 10 de dominios de los que se extraen datos para entrenar los modelos de lenguaje, siete de ellos son portales de noticias (entre ellos, los sitios online de The Guardian, HuffPost o el propio Washington Post), pero no son los medios los que ocupan el top 3; en las primeras posiciones está el dominio de patentes de Google, Wikipedia y Scribd.

Gráfico del top 15 de webs en el conjunto de datos C4 de Google. Fuente Washington Post
Así mismo, la investigación también detectó que algunas de las fuentes de ChatGPT presentan problemas de privacidad, ya que se encontraron dos sitios que alojaban copias privadas de bases de datos de registro de votantes, así como información confidencial alojada en Kickstarter y Patreon (dos sitios online para la búsqueda de financiación para proyectos, que podría suponer un problema con la propiedad intelectual y la propiedad industrial, si la información extraída de estos sitios es usada por ChatGPT para sugerir ideas a sus usuarios).
La investigación también detectó el peso de sitios de contenido religioso entre las fuentes de datos usadas para entrenar a ChatGPT. Estos sitios suman alrededor del 5% del contenido categorizado y de los 20 sitios religiosos principales, 14 eran cristianos, dos judíos, uno musulmán, uno mormón y uno de los testigos de Jehová. Esta disparidad podría crear sesgos en las respuestas que ofrece ChatGPT a sus usuarios.
Además, en los datos analizados por los investigadores, los blogs personales también ocupaban un lugar importante, con más de un millón y medio de ellos como fuentes (en torno al 3,8% de la información categorizada), con temáticas de lo más variado y, una vez más, pudiendo representar un problema para los derechos de autor, pero también para la información personal y la información sesgada o incorrecta.
Más allá de la investigación del Washington Post y volviendo a ChatGPT, al preguntarle sobre las conversaciones online utilizadas para su entrenamiento, nos responde que estas provienen de foros, chats, comunidades en línea, plataformas de pregunta y respuesta, etc. También menciona las redes sociales, pero esta información podría ser errónea, ya que técnicamente, redes sociales como Facebook y Twitter no permiten el uso de técnicas de scraping y, por tanto, el uso de sus datos conversacionales. Claro que tampoco tenemos muy claro que Meta y Google no estén usando este tipo de datos para entrenar sus modelos de IA.
¿ChatGPT roba datos?
Si ChatGPT roba datos, es una pregunta que no tiene respuesta simple. Técnicamente, los datos con los que se alimenta este modelo de lenguaje están publicados todos en internet, pero que estén publicados no significa que estén libres de derechos de autor y que puedan usarse sin permiso de sus creadores o de quienes ostentan los derechos de uso o explotación de los mismos.
El artículo del Washington Post cierra comentando que muchos expertos dicen que las compañías dedicadas al desarrollo y entrenamiento de IA «no documentan los contenidos con los que las entrenan, ni siquiera a nivel interno, por temor a encontrar datos personales sobre personas inidentificables, material protegido por derechos de autor y otros datos obtenidos sin consentimiento».
Es decir, que es muy probable que entre los millones de datos que se usan para entrenar a IA como ChatGPT haya también datos robados, lo que puede plantear un serio problema de privacidad pero también de propiedad intelectual.
¿La información de ChatGPT es correcta?
El propio ChatGPT ya nos advierte de ello al decirnos que puede cometer errores y que sus respuestas no siempre ofrecen información correcta, que esta puede estar sesgada o ser directamente falsa. De hecho, diferentes medios y usuarios han publicado conversaciones con ChatGPT en las que directamente se inventa la información. Además, cómo ya dijimos, la información con la que se le ha entrenado solo llega hasta 2021, lo que limita su «conocimiento» de la actualidad.
Además, y en línea con los sesgos, entre las fuentes de datos analizadas en la investigación del Washington Post, se detectaron fuentes problemáticas por su contenido, como medios de comunicación no confiables (especialmente medios propagandísticos) o sitios online de contenido problemático por racista, homófobo, tránsfobo o machista, así como de teorías de la conspiración (entre las fuentes de datos usadas hay páginas de supremacistas blancos y foros de 4chang.org en los que se han originado campañas de acoso contra determinadas personas).
Si bien es cierto que los datos de C4 están filtrados para eliminar ciertos contenidos y términos, los filtros no parecen ser todo lo eficientes que debieran, a la vista de lo expuesto en el párrafo anterior. Y aunque ChatGPT está programado para no dar respuestas ante determinados requerimientos (temas que se consideran inapropiados), el problema que presenta una información que ya puede estar sesgada es evidente.
Además, al imitar el lenguaje natural de manera bastante convincente y ofrecer respuestas bien escritas, es fácil acabar dando crédito a lo que nos dice y no comprobar si realmente la información es veraz y correcta o se la ha inventado. Esto hace que ChatGPT pueda usarse para crear información falsa, que después se use de manera más o menos convincente a través de otros medios.