En el campo de la inteligencia artificial, asociar palabras con significados claros y sensores multimodales es un desafío complejo y fascinante. En 2008, un equipo de investigadores liderado por George Dahl y Kit La Touche propuso una solución innovadora que usa Redes Profundas de Creencias (Deep Belief Networks, DBN) para aprender palabras dentro de un vocabulario limitado, integrando distintos tipos de datos de entrada, como imágenes y audio. Este enfoque no solo representa un avance tecnológico, sino que también proporciona importantes aportes teóricos para problemas clásicos en inteligencia artificial, como el problema de la conexión simbólica o symbol grounding problem. El objetivo central de este proyecto fue desarrollar un modelo capaz de reconocer y clasificar dígitos hablados y escritos, aplicando para ello tres escenarios de aprendizaje: entrenar sólo con datos de imagen, entrenar exclusivamente con datos de audio y, finalmente, entrenar con conjuntos de datos combinados que incluyen tanto imagen como audio. Esta metodología permite estudiar de cerca cómo las máquinas aprenden a relacionar información sensorial distinta con conceptos lingüísticos, una tarea que los humanos realizan de forma natural pero que resulta compleja de replicar artificialmente.
La inspiración para esta investigación proviene de un trabajo previo de Plunkett y colaboradores en 1992, quienes habían intentado modelar la adquisición del vocabulario mediante redes neuronales con una arquitectura de autoencoder. Sin embargo, el uso de un modelo generativo, como lo es la Red Profunda de Creencias, ofrece ventajas cruciales. Entre ellas, la posibilidad de fijar las etiquetas de clase y generar vectores de entrada que el modelo considera representativos de cada categoría, lo que abre la puerta para una comprensión más profunda de cómo se construyen internamente las representaciones semánticas y visuales en el modelo. Abordar el problema de la conexión simbólica es una meta ambiciosa que implica entender cómo los símbolos (en este caso, las palabras) pueden tener significado intrínseco y no simplemente ser meros signos arbitrarios. Este problema, formulado inicialmente por Stevan Harnad en 1990, cuestiona cómo se puede lograr que los signos adquieren semántica de forma auténtica y no solamente a través de definiciones circulares o dependientes del contexto humano.
El planteamiento de Dahl y La Touche se alinea con la idea de que los sistemas conexionistas, gracias a la activación conjunta y correlacionada de múltiples patrones de entrada en distintas modalidades, pueden integrar el significado de los símbolos desde dentro del sistema. Para entender la importancia práctica de su trabajo, podemos imaginar un escenario futurista donde un robot doméstico debe encontrar un objeto específico, como un par de calcetines. Para llevar a cabo esta tarea, el robot debe interpretar la instrucción verbal "calcetín" y asociarla con una variedad de percepciones visuales que representan diferentes tipos de calcetines. La conexión entre la señal de audio y la imagen es esencial para que el robot pueda actuar coherentemente en su entorno, y este proyecto demuestra un método viable para lograr dicha asociación en un sistema automático. La Red Profunda de Creencias funciona a partir de capas de unidades que aprenden representaciones jerárquicas y abstractas de los datos de entrada.
Al entrenar el modelo con datos de imagen y audio, la red no sólo aprende características específicas de cada modalidad, sino que también encuentra correspondencias entre ellas. Esta capacidad es fundamental para modelar la adquisición de vocabulario, ya que las palabras no solo son entidades auditivas sino que están profundamente ligadas a la experiencia sensorial. Uno de los aspectos más relevantes del uso de modelos generativos radica en su flexibilidad para realizar tareas de clasificación y generación de datos. Esto permite que la red no sólo reconozca patrones, sino que también genere ejemplos que exemplifiquen cada clase, proporcionando una potente herramienta para comprender internamente cómo el aprendizaje ocurre. Los resultados del proyecto demostraron altas tasas de precisión en la clasificación de dígitos hablados y escritos, lo que evidencia la efectividad de las Redes Profundas de Creencias para esta tarea.