OpenAI publica benchmark para medir IA en investigación biológica real
LifeSciBench agrupa 750 tareas de investigación en ciencias de la vida, escritas y validadas por científicos con doctorado. Es el primer test diseñado específicamente para evaluar si un modelo de IA puede ejecutar trabajo de laboratorio auténtico.
El 17 de junio de 2026, OpenAI publicó LifeSciBench, un conjunto de evaluación que cambia el ángulo de medida para la IA en el ámbito biológico. Hasta ahora, los benchmarks para ciencias de la vida eran adaptaciones de tests generales de conocimiento o juegos de pregunta-respuesta sobre biología. LifeSciBench es diferente: contiene 750 tareas concretas de investigación escritas, validadas y revisadas por científicos activos en biotecnología y farmacología, todos con doctorado y experiencia de laboratorio.
El diseño del benchmark refleja el trabajo real. No preguntan si un modelo sabe qué es una proteína o cómo funciona la PCR. Preguntan si puede diseñar un experimento que responda una pregunta biológica no trivial, interpretar datos ruidosos de un sequenciador, identificar patrones en arrays de expresión, sugerir moléculas candidatas que cumplen múltiples restricciones, o navegar la literatura para extraer contexto necesario para un protocolo nuevo. Son tareas que un biólogo junior haría en su primer mes de laboratorio.
La validación científica es el sello distintivo aquí. Cada tarea fue escrita por alguien que ha estado en un poyata midiendo concentraciones, resolviendo problemas inesperados y sabiendo qué información es realmente crítica. Eso reduce la probabilidad de que el benchmark mida algo que no sea relevante. Muchos tests de IA terminan evaluando capacidades que suenen bien en un paper pero que no transladan a producción.
El contexto es urgente. Las farmacéuticas y biotech están explorando cómo integrar LLMs en pipelines de investigación. Pero carecen de herramientas para medir si un modelo realmente aceleraría el trabajo o si simplemente parece competente en papers. LifeSciBench llena ese vacío. Una empresa ahora puede someter sus modelos y obtener un número que significa algo para sus científicos.
Las limitaciones son obvias. Un benchmark de 750 tareas, por bien diseñado que esté, no captura la totalidad del trabajo biológico. No mide resiliencia ante el fracaso experimental, creatividad bajo restricciones severas, o la capacidad de formular preguntas nuevas en lugar de responder las viejas. Tampoco simula el coste real de un error en un diseño molecular, donde una predicción fallida puede costar meses de trabajo.
El resultado inmediato será un mapa de dónde están los modelos actuales. Es probable que muestren competencia notable en tareas de información (búsqueda en literatura, síntesis de contexto) y debilidad en tareas de diseño que requieren múltiples restricciones simultáneas o evaluación de trade-offs. Eso alineará expectativas con realidad.
Para OpenAI, publicar este benchmark es también una jugada de posicionamiento. Señala que sus modelos (especialmente aquellos entrenados con feedback de científicos) están diseñados para trabajo profesional, no solo para consultas de estudiante. Y abre la puerta a que investigue cuánto ganan sus modelos si se entrenan específicamente con datos de laboratorio.
Ver la fuente original ↗