En los últimos años, los modelos de lenguaje amplio (Large Language Models, LLMs) han experimentado una evolución extraordinaria, trascendiendo su función inicial de procesamiento y generación de texto para convertirse en herramientas poderosas en campos especializados como la biología. Recientemente, un estudio exhaustivo ha evaluado 27 de estos modelos frente a ocho pruebas desafiantes en biología que cubren áreas como la biología molecular, genética, clonación, virología y bioseguridad, mostrando resultados asombrosos donde los LLMs no solo igualan, sino que superan el desempeño de expertos humanos en múltiples ocasiones. Este avance representa un cambio de paradigma en cómo se puede aplicar la inteligencia artificial en la investigación científica y la medicina. Los centros de investigación en inteligencia artificial junto con importantes desarrolladores de tecnología han lanzado modelos que, en apenas unos años, han mejorado exponencialmente sus capacidades en comprensión y razonamiento biológico. De hecho, la investigación señaló que uno de los modelos líderes, identificado como OpenAI o3, logró en pruebas de virología un rendimiento dos veces superior al de especialistas calificados.
Esta diferencia es especialmente significativa dado que estas pruebas están diseñadas para ser altamente complejas y requieren un conocimiento profundo y detallado del campo. Además de la virología, los modelos también alcanzaron o superaron el nivel de expertos humanos en otros retos biológicos rigurosos, incluidos conjuntos de datos específicos de biología genética y clonación. El estudio abarcó benchmarks bien establecidos como GPQA, WMDP y LAB-Bench CloningScenarios, que ponen a prueba la capacidad de los modelos para interpretar, razonar y resolver problemas relacionados con el ADN, genes y procesos celulares. Estas habilidades eran consideradas hasta ahora territorio exclusivo de científicos entrenados con años de experiencia práctica y teórica. Uno de los aspectos más llamativos es que, a diferencia de lo esperado, el método conocido como “chain-of-thought” (cadena de razonamiento paso a paso) no proporcionó una mejora significativa sobre la evaluación directa sin pasos intermedios (zero-shot).
En contraste, las versiones con funciones extendidas de razonamiento en modelos como o3-mini y Claude 3.7 Sonnet mostraron incrementos de rendimiento, confirmando la importancia del escalamiento en la inferencia para lograr mejores resultados en áreas especializadas. Esta evolución tecnológica ha abierto preguntas interesantes sobre la saturación y la calidad de los benchmarks actuales. Algunas pruebas como PubMedQA, MMLU y los conjuntos de biología de WMDP alcanzaron niveles de rendimiento que se estancaron por debajo del 100%, indicando que podría existir un límite impuesto por la naturaleza del propio conjunto de datos o por errores en la formulación de las preguntas. Esto sugiere que, conforme la inteligencia artificial avanza, se volverá indispensable el desarrollo de metodologías de evaluación más avanzadas y precisas para medir correctamente la capacidad de estos sistemas.
Desde el punto de vista científico y tecnológico, los resultados alcanzados por los LLMs presagian un cambio en el modo en que se realiza la investigación biológica. La posibilidad de que modelos inteligentes puedan interpretar grandes volúmenes de literatura biomédica, generar hipótesis, diseñar experimentos o incluso identificar patrones complejos en datos genéticos contribuirá decisivamente a acelerar descubrimientos importantes. Los laboratorios podrán complementar la experiencia humana con análisis computacionales rápidos, confiables y escalables, permitiendo un uso más eficiente del tiempo y recursos. Además, la integración de LLMs en biología tiene un gran potencial en áreas como la medicina personalizada, desarrollo de fármacos y manejo de pandemias. La virología, en particular, es una rama crítica para la seguridad sanitaria global, y el hecho de que un modelo como o3 duplique el rendimiento experto en tests complejos podría traducirse en determinaciones más rápidas y precisas frente a virus emergentes o mutaciones, contribuyendo a diseñar mejores estrategias de prevención y tratamiento.
Otro punto a destacar es el componente ético y de bioseguridad que conlleva la aplicación amplia de inteligencia artificial en biología. La habilidad para manipular datos genéticos o diseñar moléculas plantea cuestiones importantes sobre la regulación, el control de uso indebido y el acceso responsable a estas tecnologías. Por ello, instituciones académicas y organizaciones reguladoras deberán establecer marcos que equilibren la innovación con la protección de la sociedad. Desde la perspectiva educativa, estos avances también abren nuevas puertas para el aprendizaje en ciencias biológicas. Herramientas basadas en LLMs pueden facilitar la capacitación de estudiantes y profesionales, brindándoles apoyo interactivo, explicaciones detalladas y simulaciones que mejoren la comprensión de conceptos complejos.
Esto puede democratizar el acceso a la educación avanzada en biología y promover la formación continua. En resumen, los modelos de lenguaje grande se están consolidando como aliados imprescindibles en la biología moderna, superando incluso la pericia humana en tareas complejas que requieren conocimiento profundo y razonamiento avanzado. Esta evolución transforma el panorama científico y tecnológico, invitando a repensar cómo integrar inteligencia artificial en la investigación, la medicina y la educación para maximizar beneficios y mitigar riesgos. El futuro en la intersección entre inteligencia artificial y biología parece prometedor y lleno de posibilidades innovadoras que impactarán de manera positiva la salud y el bienestar global.