Estos últimos días está habiendo mucha controversia en Internet debido a la confirmación de que varias empresas entrenan sus modelos grandes de predicción con datos obtenidos de diferentes lugares en Internet, en algunas ocasiones sin permiso de sus autores. Una de esas empresas, es Apple.
Los modelos grandes de lenguaje o acción, también conocidos como LLM, necesitan de ingentes cantidades de datos sobre los que entrenar sus redes neuronales. Son estos sistemas los que permiten que las mal llamadas y As que abundan hoy en día, funcionen. Lo que hacen todas las empresas que desarrollan sistemas de inteligencia artificial es comprarlos a otras empresas especializadas en la obtención de los mismos.
El problema llega cuando uno de esos proveedores de datos consigue los mismos de maneras ilegales. Es importante dejar claro que no hay ningún problema de privacidad, todos los datos que utilizan son públicos, pero si hay un problema de copyright. Que algo esté publicado y disponible para cualquier usuario de YouTube, no significa que ese vídeo se pueda tomar y utilizar libremente, ni el vídeo, ni sus subtítulos ni lo que se dice en el mismo pueden utilizarse sin permiso de su autor.
Esto es exactamente lo que ha pasado esta semana. Se ha podido comprobar que las transcripciones de varios vídeos de famosos Youtubers han sido utilizadas para entrenar sistemas de inteligencia artificial. Estas transcripciones son subidas por los autores de los vídeos a TouTube, y en algunos casos para poder conseguirlas con buena calidad esos autores han pagado un dinero.
WIRED publicó un artículo indicando que Apple había utilizado sus datos para desarrollar sus IAs. Sin embargo, la compañía ha confirmado 9to5Mac, que eso no es enteramente cierto. Ninguna IAs de Apple Intelligence utiliza un modelo de aprendizaje entrenado en esos datos. Lo que sí ha utilizado esos datos obtenidos fraudulentamente es OpenELM, unos modelos de IA que Apple publica libremente y que utiliza para investigar estos sistemas, pero que no se utilizan ni utilizarán en iOS, iPadOS ni macOS.
La causa de todo este problema radica en las prácticas de honestas de estos proveedores de contenidos, pero en última instancia es Apple la que paga un dinero y acepta utilizar esos datos, así que se podría decir que ellos también tienen parte de responsabilidad. No obstante, muchas empresas han utilizado estos datos, entre ellas, Nvidia o Salesfrorce.