En los últimos años, la inteligencia artificial (IA) ha experimentado avances significativos, transformando radicalmente diversas industrias y áreas de trabajo. Un aspecto particularmente crucial en esta evolución es la capacidad creciente de las IA para abordar y completar tareas de largo plazo, es decir, actividades complejas que requieren múltiples pasos y razonamiento sostenido a lo largo del tiempo. Esta habilidad no solo plantea la posibilidad de que las máquinas realicen trabajos más complejos, sino también un cambio drástico en la forma en que se automatizan las labores de conocimiento, especialmente en áreas como la ingeniería de software. Recientemente, un estudio destacado publicado en marzo de 2025 por el equipo de Model Evaluation & Threat Research (METR) ha evaluado precisamente esta capacidad de la IA para manejar tareas de largo alcance. Este trabajo representa un hito importante al ofrecer datos cuantitativos sobre cómo los modelos de inteligencia artificial están mejorando en su capacidad para completar tareas que requieren un compromiso prolongado con un nivel razonable de éxito.
La investigación de METR se centra principalmente en la ingeniería de software, una disciplina que combina lógica, razonamiento complejo y aplicación técnica. Aunque pudiera parecer un campo especializado, esta elección ofrece un referente sólido para otros ámbitos del trabajo intelectual. La lógica y la resolución de problemas presente en el desarrollo de software son paralelas, hasta cierto punto, a las que se encuentran en disciplinas como finanzas, gestión corporativa o análisis de datos, áreas donde también se podría esperar que la IA haga incursiones significativas en el futuro próximo. Uno de los aspectos más reveladores del estudio es el análisis de la evolución de la denominada "horizonte temporal" de las tareas que las IA pueden completar con éxito. De acuerdo con los datos, desde 2019, el tiempo durante el cual los modelos autónomos generalistas son capaces de sostener tareas con una tasa de éxito del 50% se ha estado duplicando aproximadamente cada siete meses.
Este ritmo acelerado de mejora indica no solo avances técnicos, sino una creciente madurez de los sistemas de IA para manejar procesos complejos que antes solo podían ser realizados por humanos con amplia experiencia profesional. Este patrón de duplicación se ha evidenciado también al observar modelos recientes como el o3 y el o4-mini, que están sobrepasando la tendencia esperada, sugiriendo que el ritmo de avance podría ser aún más rápido, acortando la duplicación del horizonte temporal a cerca de cuatro meses. Este fenómeno podría ser el preludio de una curva en S, donde los progresos alcanzan un punto de aceleración exponencial que transformará radicalmente las capacidades de los agentes de IA. Sin duda, uno de los factores que contribuyen a esta mejora es la creciente eficiencia en el uso del poder computacional durante el entrenamiento de los modelos. Desde 2012 hasta 2018, se observó que el uso del cómputo en entrenamiento se ha duplicado aproximadamente cada 2.
3 meses, un crecimiento exponencial que ha permitido desarrollar modelos de mayor tamaño y complejidad capaces de manejar una mayor variedad de tareas. El estudio también examina las diferentes fuentes de fallos que afectan a estos modelos cuando enfrentan entornos "desordenados" o menos estructurados. Entre estas fallas destacan problemas de planificación y elección inadecuada de herramientas, errores en cálculos o razonamientos mentales, abandono prematuro de tareas y la repetición ineficiente de acciones que han fallado previamente. Estos problemas reflejan desafíos similares a los que enfrentan los humanos en ambientes de trabajo dinámicos y complejos, y la forma en que los modelos mejoran en estas áreas es un buen indicador de su madurez. Es interesante notar que, aunque los entornos más complejos representan un desafío mayor, los investigadores encontraron que las tendencias de mejora en el desempeño de los modelos son similares independientemente del nivel de desorden del entorno.
Esto indica que la evolución de las capacidades de la IA es consistente y que los avances benefician tanto a tareas simples como a las más difíciles. El estudio también tiene en cuenta la diferencia en la capacidad de los modelos al comparar contra humanos con distintos niveles de contexto y experiencia. Los humanos «de bajo contexto», como contratistas externos que no están íntimamente familiarizados con ciertos proyectos, obtienen resultados que se acercan al rendimiento de las IA, mientras que los expertos inmersos en su entorno superan ampliamente a los modelos, a veces por un factor de entre cinco y dieciocho. Este dato tiene implicaciones importantes para el diseño de flujos de trabajo y para decidir qué tareas son más fácilmente automatizables con IA; en general, mientras menor sea el conocimiento tribal o contexto implícito requerido, más alto será el potencial de automatización. Mirando hacia el futuro, la extrapolación de tendencias sugiere que, para alrededor de 2029 a 2031, las IA podrían sostener tareas de aproximadamente un mes de duración con un nivel de éxito del 50%.
Esto no implica necesariamente la llegada de una inteligencia artificial general (AGI) en ese plazo, pero sí indica un salto considerable en la capacidad práctica de estos sistemas para asumir trabajos complejos que tradicionalmente han requerido meses de esfuerzo humano. La aceleración observada en 2024 y 2025 podría incluso adelantar este punto a finales de 2026 a 2029, haciendo plausible que las IA comiencen a transformar significativamente el panorama laboral en un futuro próximo. Sin embargo, hay que tener en cuenta que estas predicciones están basadas en tareas de ingeniería de software y que las extrapolaciones a otros dominios de conocimiento, aunque prometedoras, pueden estar sujetas a variaciones. Además, los autores del estudio subrayan ciertas limitaciones actuales, como la necesidad de un mejor diseño en la interacción con los modelos para extraer su máximo potencial. Una correcta formulación de las solicitudes y un mayor esfuerzo en la estrategia para 'estimular' a las IA pueden aumentar dramáticamente su rendimiento, algo que por ahora no siempre se aprovecha al máximo en las evaluaciones estándar.
En suma, la capacidad creciente de la inteligencia artificial para completar tareas de largo plazo representa una frontera fascinante que está redefiniendo nuestra relación con el trabajo intelectual. A medida que estos sistemas se vuelven más competentes y confiables, veremos una transformación en cómo las empresas, industrias y personas afrontan la automatización de tareas complejas, especialmente aquellas que requieren planificación, razonamiento y adaptación a entornos variables. El desafío principal ahora radica en cómo integrar estas tecnologías de manera eficiente y ética en los procesos laborales, garantizando que se aprovechen sus capacidades sin causar disrupciones sociales innecesarias. El estudio de METR y las observaciones recientes sobre modelos como o3 y o4-mini nos impulsan a reflexionar sobre los próximos pasos en el desarrollo de la inteligencia artificial y en su impacto sobre el futuro del trabajo y la economía global.