La capacidad humana para aprender y adaptarse a situaciones nuevas a partir de experiencias pasadas es una característica esencial que impulsa nuestra inteligencia y comportamiento efectivo. Este fenómeno, conocido como generalización, permite que los individuos transfieran conocimientos adquiridos a escenarios no experimentados previamente, facilitando la resolución rápida de problemas y la toma de decisiones en ambientes cambiantes y complejos. Comprender la base computacional y cognitiva de esta habilidad es un tema central en la neurociencia cognitiva y en el desarrollo de modelos de inteligencia artificial. Una línea de investigación en auge propone que los humanos aprenden representaciones generalizables del mundo mediante la codificación eficiente. Este principio, inspirado en restricciones biológicas y cognitivas del cerebro humano, postula que la mente busca simplificar la información del entorno utilizando la representación más simple posible que permita maximizar la recompensa o el beneficio.
Esto implica una reducción de la complejidad de los estímulos ambientales, enfocándose en extraer las características más relevantes y útiles para la toma de decisiones. Históricamente, el aprendizaje humano ha sido modelado ampliamente a través de la teoría del aprendizaje por refuerzo (RL, por sus siglas en inglés), que explica el comportamiento como un proceso orientado a maximizar las recompensas esperadas en función de las acciones tomadas en un entorno dado. Este paradigma ha aportado una comprensión valiosa, especialmente en situaciones donde las reglas son claras y las representaciones de los estados de la tarea están predefinidas. Sin embargo, uno de los puntos débiles de los modelos clásicos de RL es su limitada capacidad para explicar cómo los seres humanos construyen y utilizan representaciones internas que les permitan generalizar eficazmente a nuevas circunstancias. La investigación reciente plantea una refinación de esta teoría clásica, integrando el principio de codificación eficiente dentro del marco de aprendizaje por refuerzo.
Este enfoque ajustado sugiere que, debido a las limitaciones cognitivas—como la capacidad limitada de memoria y procesamiento del cerebro—los humanos no procesan todas las características de los estímulos, sino que sintetizan la información en estados internos compactos y abstracciones significativas. Así, el aprendizaje no solo se orienta a maximizar la recompensa a través de la acción, sino también a construir representaciones simplificadas que capturan las regularidades esenciales del entorno. El modelo computacional desarrollado en este contexto, llamado Efficient Coding Policy Gradient (ECPG), formaliza este equilibrio entre la maximización de la recompensa y la minimización de la complejidad de la representación. La función objetivo del ECPG incorpora un término que penaliza la cantidad de información transmitida por el codificador interno, medida mediante la información mutua entre el estímulo y la representación interna. De esta forma, el sistema busca representar el ambiente con la menor cantidad de información necesaria que le permita resolver la tarea eficientemente.
Los resultados experimentales que sustentan esta teoría provienen de tareas específicas diseñadas para estudiar la generalización. En particular, paradigmas de equivalencia adquirida muestran que los humanos pueden identificar estados abstractos comunes entre estímulos visualmente distintos cuando estos comparten las mismas consecuencias o recompensas. Por ejemplo, aunque diferentes estímulos visuales parezcan distintos, si ambos están asociados con la misma acción o resultado, los individuos tienden a agruparlos y a aplicar aprendizajes de manera generalizada. Estudios en los que los participantes aprenden asociaciones estímulo-acción y luego son evaluados en asociaciones no entrenadas demuestran que los humanos exhiben un nivel significativo de generalización funcional. Los modelos basados únicamente en RL clásico sin codificación eficiente son incapaces de predecir esta capacidad, ya que no permiten flexibilidad en la representación de estados.
En contraste, los modelos que integran el principio de codificación eficiente reproducen fielmente el comportamiento humano y muestran que la generalización emerge naturalmente cuando las representaciones son abstraídas y simplificadas. Además de la abstracción del estado, la codificación eficiente permite la extracción automática y selectiva de las características ambientales más relevantes desde el punto de vista motivacional o funcional. Esto es fundamental porque no todos los atributos perceptuales de un estímulo aportan información útil para maximizar la recompensa. Por ejemplo, en escenarios donde el color de un objeto es el rasgo clave para predecir la acción correcta, el principio de codificación eficiente guiará la representación interna para enfatizar esa característica y suprimir otras menos útiles, facilitando tanto el aprendizaje como la generalización. Este mecanismo ha sido puesto a prueba en experimentos donde se manipulan las características perceptuales de los estímulos y las relaciones entre estas características y las recompensas.
Por medio de estímulos con diferentes grados de correlación entre color, forma y otras propiedades, se ha observado que los participantes ajustan su atención y representaciones internas para centrarse en las características más gratificantes, incluso cuando algunas señales son engañosas. El modelo ECPG predice correctamente estas dinámicas, mientras que los modelos que carecen de codificación eficiente no consiguen explicar esta capacidad selectiva. El enfoque de codificación eficiente también provee un marco teórico que unifica diversos hallazgos en psicología cognitiva y neurociencia. Por ejemplo, explica fenómenos observados en la percepción, la memoria y el control motor que reflejan limitaciones de capacidad y la necesidad de optimizar el uso de recursos cognitivos. La restricción en el procesamiento no reduce la inteligencia humana sino que orienta hacia representaciones abstractas compactas que apoyan la adaptabilidad y la transferencia de aprendizaje.
Desde una perspectiva más amplia, este principio se alinea con la idea de racionalidad en recursos, que considera que los sistemas cognitivos buscan maximizar su rendimiento adaptativo dentro de las limitaciones de disponibilidad computacional y memoria. La codificación eficiente actúa como un mecanismo que regula esta racionalidad limitada, fomentando la formación de representaciones simplificadas y eficientes que permiten mantener la flexibilidad y el poder generalizador. El impacto de esta investigación es considerable tanto en la comprensión del aprendizaje humano como en aplicaciones prácticas. Por un lado, aporta un modelo computacional que integra teoría y datos experimentales para explicar cómo el cerebro construye representaciones internas que facilitan generalización más allá de lo que los modelos clásicos podían predecir. Por otro lado, este enfoque puede inspirar métodos en inteligencia artificial orientados a proyectos más eficientes de aprendizaje, capaces de generalizar con menor necesidad de datos y procesamiento.