En las últimas décadas, la Ley de Moore ha definido el progreso en tecnologías como la informática, observando cómo la capacidad y velocidad de los procesadores se duplica aproximadamente cada dos años. Sin embargo, a medida que avanzamos en la era de la inteligencia artificial, surge una nueva métrica que podría reflejar con mayor precisión la evolución y el impacto de esta tecnología: la capacidad de los agentes de inteligencia artificial para llevar a cabo tareas cada vez más largas y complejas por sí mismos. Este concepto, que algunos han denominado la "versión de la Ley de Moore para la IA", apunta a un crecimiento exponencial en la duración y complejidad de las tareas que las máquinas pueden completar con una fiabilidad significativa, un hito que podría revolucionar la forma en que interactuamos con la tecnología y transformamos industrias enteras. En un análisis reciente realizado por el equipo de METR, se propone medir el rendimiento de los agentes de inteligencia artificial generalista en función de la longitud de las tareas que pueden completar de manera autónoma con un 50 % de éxito. Este enfoque parte de una premisa simple pero poderosa: mientras que las habilidades puntuales de resolución de problemas o la precisión en conocimiento específico representan un aspecto importante, la verdadera transformación se dará cuando los agentes de IA sean capaces de encadenar con éxito una enorme cantidad de pasos en tareas complejas, abarcando desde el desarrollo de software hasta la resolución de problemas de larga duración.
El estudio muestra que durante los últimos seis años, la duración de las tareas que los modelos de IA pueden completar con esta tasa de éxito se ha ido incrementando exponencialmente, con un tiempo de duplicación de aproximadamente siete meses. Para poner esto en perspectiva, esto significa que por cada siete meses que pasan, la IA puede completar tareas que son el doble de largas que aquellas que podría manejar con confianza anteriormente. Este ritmo acelerado sugiere que en menos de una década, los agentes de IA generalistas serán capaces de asumir la mayoría de las tareas de software que actualmente requieren días o semanas por parte de profesionales humanos. Un aspecto fundamental radica en cómo se mide esta "longitud" de las tareas. No se refiere simplemente al número de pasos o instrucciones, sino al tiempo que le tomaría a un profesional humano calificado completar dicha tarea.
Así, las tareas varían desde simples actividades que requieren pocos minutos, a proyectos complejos que pueden durar semanas. Según los resultados, los modelos de IA actuales muestran casi un 100 % de éxito en tareas que los humanos completan en menos de cuatro minutos, pero su tasa de éxito cae drásticamente a menos del 10 % en tareas que tomarían más de cuatro horas. Esta observación revela un reto crucial para la inteligencia artificial actual: la dificultad para mantener la efectividad al encadenar múltiples pasos de manera confiable en tareas prolongadas. Este enfoque también ayuda a resolver una paradoja que ha desconcertado a muchos dentro y fuera del campo de la IA. A pesar de que los modelos más avanzados superan a los humanos en diversas pruebas especializadas y confrontan con éxito problemas complejos de conocimiento o examen, su aplicabilidad práctica en la automatización de trabajos cotidianos aún es limitada.
Esto se debe a que la económica y efectiva resolución de problemas largos y secuenciales representa el próximo gran desafío. La lógica indicaría que la mejora en la duración de las tareas que los agentes pueden completar es un indicador más relevante del progreso real en la autonomía y utilidad de la IA en escenarios del mundo real. El progreso revelado por METR también cuenta con una sólida base estadística y metodológica. Los investigadores aplicaron análisis rigurosos, como el bootstrap jerárquico, y consideraron distintas familias y categorías de tareas para validar la robustez de su hallazgo. Aunque factores como la selección de tareas o las diferencias en la medición del tiempo humano aportan cierto grado de variabilidad, el panorama general sigue siendo claro: la tendencia de ampliación en la longitud de tareas que la IA puede abordar autónomamente sigue un patrón exponencial con alta confianza estadística.
Además, la replicación de los resultados en diferentes conjuntos de datos, incluyendo tareas propias de desarrollo de software y otros ámbitos diversos, fortalece aún más la argumentación. En particular, algunos subconjuntos muestran una tasa de duplicación incluso más rápida, con un periodo inferior a tres meses. Esto enfatiza la aceleración real y tangible en la capacidad de los agentes de IA en todo tipo de contextos. ¿Qué implicaciones trae esta tendencia? En primer lugar, el hecho de que las máquinas estén cada vez más capacitadas para afrontar tareas prolongadas no solo revolucionará sectores como la programación de software y la gestión de proyectos, sino que también podría transformar puestos de trabajo tradicionalmente considerados muy humanos. Los asistentes ejecutivos remotos, la planificación estratégica y la supervisión digital podrían verse automatizados en un futuro cercano, liberando a las personas para que se centren en actividades más creativas y de alto nivel.
Por otra parte, el crecimiento exponencial no significa que los desafíos hayan desaparecido. La fidelidad en la gestión de múltiples etapas sin errores, la adaptabilidad ante circunstancias cambiantes y la integración con interfaces complejas son aspectos que aún requieren avances continuos. Sin embargo, la velocidad con la que se están superando las limitaciones actuales abona a un optimismo fundamentado, con proyecciones que sugieren que para finales de esta década veremos agentes de IA capaces de manejar proyectos enteros que hoy en día tomarían semanas. Este avance tiene un peso relevante también desde la perspectiva del manejo de riesgos y de políticas públicas. La autonomía creciente de los sistemas de IA para ejecutar tareas complejas implica no solo beneficios potenciales en productividad y eficiencia, sino también la necesidad de marcos regulatorios adecuados que garanticen un desarrollo ético y seguro.
Determinar cuándo y cómo permitir que agentes autónomos tomen responsabilidades críticas será un debate central en los próximos años. El trabajo de METR también abre nuevas puertas para el diseño de benchmarks y evaluaciones en inteligencia artificial. Medir el rendimiento en términos del tiempo humano equivalente para completar tareas ofrece una ventana más directa a la utilidad práctica de los modelos, superando algunas limitaciones de métricas tradicionales basadas solo en precisión o resultados aislados. Este criterio puede servir de referencia para desarrollos futuros y ayudar a la comunidad a establecer metas más claras y relevantes. Finalmente, cabe destacar que esta investigación no pretende ser un fin en sí mismo, sino un punto de partida para que la industria, académicos y desarrolladores continúen explorando y refinando cómo entendemos y medimos el progreso de la inteligencia artificial.
La invitación abierta a contribuir con datos, código y replicaciones subraya la importancia de la colaboración transparente para anticipar y aprovechar las transformaciones que se vienen. En conclusión, la evolución exponencial en la capacidad de la inteligencia artificial para completar tareas largas y complejas reafirma la vigencia de una «Ley de Moore» en esta disciplina, pero adaptada a indicadores más adecuados para el mundo actual. El ritmo vertiginoso del progreso no solo desafía nuestras expectativas, sino que también redefine los límites de lo que la tecnología puede lograr por sí sola. A medida que avanzamos hacia agentes cada vez más autónomos y capaces, entender estas tendencias será crucial para anticipar, gestionar y maximizar los beneficios de una revolución tecnológica que está apenas comenzando.