Los mejores modelos suspenden un test de atención
Un test clásico de la psicología deja en evidencia a los mejores modelos cuando la tarea se alarga y se complica.
Un grupo de investigadores ha sometido a los modelos de lenguaje punteros a una prueba clásica de la psicología cognitiva, emparentada con el conocido test de Stroop, ese en el que hay que nombrar el color en que está escrita una palabra y no la palabra en sí. El resultado es aleccionador: los mejores modelos suspenden cuando la tarea exige sostener la atención.
El patrón observado es claro. Con listas cortas, los modelos respondían bien, demostrando que captan la tarea y saben resolverla en su versión sencilla. El problema aparecía al alargar y complicar el ejercicio: a medida que la lista crecía y la interferencia se acumulaba, el rendimiento se desplomaba en lugar de mantenerse estable.
La lección que se extrae es matizada y útil. Estos sistemas son brillantes en lo corto, capaces de respuestas impecables cuando la entrada es manejable, pero frágiles en la atención sostenida. No es que no entiendan la consigna; es que su capacidad para mantenerla a lo largo de muchas pruebas seguidas se degrada de forma notable.
El test de Stroop es un buen banco de pruebas precisamente porque enfrenta dos impulsos. Leer una palabra es automático; nombrar el color en que está escrita exige inhibir esa lectura automática. Esa tensión entre lo automático y lo controlado es lo que mide el control atencional, y es justo donde estos modelos flaquean cuando se les exige durante largo rato.
Conviene no sobreinterpretar el hallazgo, pero tampoco minimizarlo. No demuestra que los modelos sean inútiles ni que no razonen; demuestra que tienen un perfil de fortalezas y debilidades distinto del humano, con un punto débil concreto en tareas largas que requieren vigilancia constante. Es un límite, no una sentencia.
Para quien construye productos con estos modelos, las implicaciones son prácticas. Conviene evitar tareas que exijan sostener la atención sobre listas largas sin ningún tipo de ayuda, porque ahí es donde el rendimiento cae. Si la entrada va a crecer, hay que verificar la salida y no dar por buena la respuesta solo porque el modelo acertó con el caso pequeño.
Hay mitigaciones razonables. Dividir las listas largas en bloques, introducir comprobaciones intermedias o pedir al sistema que recapitule antes de continuar son estrategias que reducen el riesgo. La idea general es no pedirle al modelo lo que peor se le da, sino estructurar la tarea para que juegue con sus fortalezas en lo corto.
Qué esperar: este tipo de pruebas, importadas de la psicología cognitiva, son cada vez más comunes para cartografiar los límites reales de los modelos más allá de los benchmarks habituales. Sirven para distinguir entre lo que parecen capaces de hacer y lo que sostienen bajo presión. La conclusión, por ahora, es prudente: confíe en lo corto, verifique lo largo.
Ver la fuente original ↗