Apple Study explora las limitaciones de los grandes modelos de razonamiento de Macmagazine AI

EL Manzana Publicado un nuevo estudio titulado «La ilusión del pensamiento» [PDF] en el que sus investigadores se centraron en las habilidades y limitaciones de Grandes modelos de razonamiento (Grandes modelos de razonamientoo LRMS), popularizado en los últimos meses en la mayoría de los chatbots de inteligencia artificiales (IA) en el mercado.
Los investigadores han llegado a la conclusión de que aunque estos modelos pueden, al final, mejorar en las pruebas punto de referencia o del razonamiento, «sus capacidades fundamentales, propiedades de escalabilidad y limitaciones aún no se entienden suficientemente».
Esto se debe a que los resultados actuales sufren de la «contaminación de datos» que se calcula, es decir, generalmente proporcionan respuestas a las matemáticas complejas o preguntas de programación basadas en datos en su base de entrenamiento (y no como el resultado de su «razonamiento»).
El experimento se realizó en entornos en los que los modelos se sometieron a desafíos lógicos controlados, lo que permitió una manipulación precisa de la complejidad compositiva con una estructura lógica consistente, lo que permite las «pistas internas del razonamiento» de estos LRM.
Los resultados
Todos los LRMS más avanzados como O3-Mini (de OpenAI), Deepseek-R1 y Claude 3.7 soneto (antrópico)-tenían una especie de «colapso de precisión» después de cierto nivel. Además, aumentan el esfuerzo de razonamiento según la complejidad, pero terminan disminuyendo en cierto punto (incluso con tokens suficiente), presentando cero tasas de éxito.
Al compararlos con las LLM tradicionales, el estudio encontró que los LRM se superan sorprendentemente en tareas de baja complejidad, mientras que mejor en tareas medianas y, como modelos grandes, sufren un colapso total en alta complejidad.
Al plantear preguntas sobre las verdaderas capacidades de razonamiento de los LRM, la investigación también encontró que estos modelos tienen limitaciones al hacer cálculos exactos, no utilizar algoritmos explícitos y presentar un razonamiento inconsistente en diferentes desafíos.
En cambio, dependen más de una correspondencia sofisticada de patrones y no necesariamente del razonamiento inteligente como el humano, que se adapta al nivel de complejidad del problema a resolver.
a través de Daring Fireball
