Un estudio de Apple pone en evidencia las limitaciones de los modelos LLM que hacen funcionar las inteligencias artificiales actuales

Todos los días leemos noticias sobre estas nuevas inteligencias artificiales, un nombre poco adecuado porque ni siquiera los expertos en estas cosas se ponen de acuerdo sobre qué es una inteligencia artificial, empezando por el propio concepto. Nosotros preferimos llamar a las actuales modelos generativos entrenados, o modelos grandes de lenguaje (LLM en inglés). Si bien es cierto que estos modelos que utilizamos hoy en día pueden dar resultados espectacularmente buenos en muchas tareas, también es cierto que en otras no son muy certeros en sus razonamientos, y esto es precisamente lo que Apple nos cuenta en un paper publicado hoy en el que cuestionan la efectividad de los modelos LLM.

Icono de LLM, Large Language Models
Icono de LLM, Large Language Models.

Lo que cuentan es que, simplificando mucho, pequeños cambios en la petición que se hace a un modelo LLM sobre un razonamiento matemático, cambian la efectividad (calidad o nivel de acierto) de la respuesta en más de un 10%. Un sinónimo menos común, o un prompt (petición escrita) escrito con poco cuidado puede dar resultados bastante diferentes, cuando se supone que teniendo el mismo objetivo, la respuesta no debería cambiar prácticamente en nada.

Este problema se vuelve más evidente cuando se introducen datos que no son necesarios o relevantes para resolver la petición. Por ejemplo, Llama (modelo de Meta) o ChatGPT (modelo o1 de OpenAI) dan respuestas de resultados diferentes sobre cuántos kiwis puede recolectar una persona a lo largo de varios días si se introduce un dato referente al tamaño de esos kiwis, aunque en el razonamiento que es necesario hacer el tamaño del fruto no sea relevante en absoluto. El modelo GPT-4o en ChatGPT da aún peores resultados.

ChatGPT de OpenAI

Es por razones como éstas que es importante tener siempre en cuenta que estas mal llamadas IAs no son mágicas en absoluto. También tienen sus limitaciones, igual que tienen sus puntos fuertes, pero en todo caso se trata de una nueva tecnología que ahora mismo está en sus primeros años de vida y que mejorará enormemente en unos pocos años más. Lo mismo ocurre con Apple Intelligence. Son herramientas útiles, pero (aún) no perfectamente válidas en todos los casos.

En este estudio Apple propone mezclar los actuales modelos LLM con otros tipos de razonamiento más tradicionales basados en símbolos con el objetivo de intentar mejorar las respuestas.

Si te preguntas por qué Apple publica este tipo de documentos, la respuesta está en que forma parte de sus investigaciones en modelos de aprendizaje y el compromiso de transparencia sobre qué intentan desarrollar e investigar para que todos aquellos que piensen que hay una conspiración detrás de estas inteligencias artificiales, pueda ver por sí mismo lo que hacen por dentro y cómo se desarrollan. Para perder el miedo a algo, lo más importante es entender bien cómo funciona.

Newsletter