TopeAzulMincyt_2022_2030_01

Entrenamiento de modelos de IA generativa y el riesgo del robo de datos

Por Gabriela Jiménez Ramírez

(Caracas, 6 de marzo 2025).- El entrenamiento de modelos de IA requiere a menudo de grandes cantidades de datos para aprender y mejorar sus capacidades. Este entrenamiento se logra con técnicas como el aprendizaje supervisado ¿En qué consiste? en utilizar información etiquetada para enseñar al modelo a hacer predicciones o tomar decisiones.

El aprendizaje no supervisado es cuando el modelo identifica patrones y relaciones en los datos sin etiquetas predefinidas.

Actualmente, una publicación en la revista Scientific American reseña que los principales desarrolladores de IA enfrentan múltiples demandas porque los modelos de aprendizaje automáticos son capaces de generar solo imágenes y texto debido a que han sido entrenados con trabajos creativos de personas reales, muchos de ellos protegidos por derechos de autor.

Las demandas han sido respaldadas por equipos independientes. En 2023, por ejemplo, The Atlantic informó que había descubierto que Meta entrenó su modelo de lenguaje grande (LLM) en parte
con un conjunto de datos llamado Books3, que contenía más de 170 mil libros ilegales y protegidos por derechos de autor.

Este mecanismo tiene el potencial de violar los derechos de autor tanto de libros como amenazar la privacidad de millones de personas que comparten información en línea.

Para la construcción de los modelos de IA generativa se necesita mucha información, pero ¿de dónde provienen?

No existe un único lugar. Estos datos, generalmente, pueden provenir de diversas fuentes, incluyendo datos disponibles públicamente en Internet, bases de datos comerciales y datos proporcionados voluntariamente por los usuarios.

También los desarrolladores, con herramientas automatizada, acumulan sus conjuntos de entrenamiento capaces de catalogar y extraer datos de internet.

Además, existen los “rastreadores” y raspadores web. Los primeros viajan de un enlace a otro indexando la ubicación de la información en una base de datos. Los segundos, descargan y extraen esa misma información.

Tanto los rastreadores como los raspadores pueden acceder a los datos desde casi cualquier lugar que no esté detrás de una página de inicio de sesión. Los perfiles en redes sociales configurados como privados no están incluidos. Pero si los datos que se pueden ver en un motor de búsqueda o un perfil público, asegura el investigador de aprendizaje automático Jesse Dodge, del Instituto Allen para IA.

Estas herramientas son capaces de camuflarse en cuentas pagas. «Te sorprendería saber hasta dónde están dispuestos a llegar estos
rastreadores y entrenadores de modelos para obtener más datos», manifiesta Ben Zhao, científico de la Universidad de Chicago.

OpenAI, Meta, X, Amazon y otras empresas han asegurado que utilizan datos de voz, interacciones con chatbots y publicaciones para entrenar su modelo de lenguaje.

¿Cómo se pueden proteger estos datos?

Parece haber pocas opciones para mantener las informaciones lejos de los tentáculos de los modelos de IA. Se han desarrollado herramientas, pero aún no se ha probado su eficacia.

Actualmente, no existen políticas de IA ni resoluciones que obliguen a las empresas a adoptar medidas. Sin embargo, es crucial que este proceso se realice de manera ética y responsable para proteger la privacidad y los derechos de las personas.

En términos de protección de datos, existen leyes que buscan garantizar que los datos se manejen de manera justa y transparente y que las personas tengan control sobre su información.

Igualmente el entrenamiento de la IA supone un robo de los derechos de autor, según un estudio europeo.

Un dictamen pericial ordenado por el Parlamento Europeo sobre el entrenamiento de modelos generativos de IA no tiene dudas de que en la mayoría de casos se violan los derechos de propiedad intelectual. Hasta hace poco, las empresas de IA estaban entrenando su tecnología con todos los datos que pescaban en la red, en lo que algunos especialistas han llamado el «mayor robo de la historia de internet».

Dirección: Av. Universidad, esquina El Chorro, Torre Ministerial. La Hoyada, Parroquia Catedral. Código Postal 1012 / Caracas - Venezuela.

Redes Sociales:

MINCYT | Ministerio del Poder Popular para Ciencia y Tecnología | RIF: 20013038-5