La creciente demanda de inteligencia artificial y visión por computadora ha impulsado la búsqueda de soluciones que puedan funcionar en dispositivos con recursos limitados, como el Raspberry Pi o microcontroladores como el Arduino Nicla Vision. Tradicionalmente, la detección de objetos en tiempo real requería una combinación significativa de potencia de cómputo y memoria, lo que limitaba su aplicación en hardware de bajo consumo y capacidad restringida. Sin embargo, el avance reciente de FOMO, un algoritmo innovador desarrollado por Edge Impulse, ha cambiado paradigmas al permitir la detección de objetos a 60 fotogramas por segundo en plataformas tan limitadas como una Raspberry Pi 4. Este adelanto representa un hito en la democratización de la inteligencia artificial y la visión por computadora, abriendo oportunidades para múltiples aplicaciones en campos tan variados como la robótica, la agricultura, la seguridad y el monitoreo ambiental. FOMO, acrónimo de "Faster Objects, More Objects", es un algoritmo que ofrece detección de objetos con hasta 30 veces menos consumo de procesamiento y memoria respecto a modelos clásicos como MobileNet SSD o YOLOv5.
Esta ventaja se logra gracias a una arquitectura eficiente que equilibra la complejidad funcional con la optimización de recursos, permitiendo no solo acelerar el procesamiento, sino también implementar detección precisa y ubicación de múltiples objetos simultáneamente. Uno de los pilares fundamentales del enfoque FOMO es su diseño que combina lo mejor del clasificador de imágenes tradicional con las capacidades avanzadas de detección. Mientras que un clasificador simple solo indica la presencia o ausencia de una clase, FOMO logra identificar la ubicación precisa y la cantidad de objetos presentes en la escena. Esto se consigue mediante la generación de mapas de calor, que mantienen la localización espacial dentro del proceso de inferencia, lo que es extremadamente útil cuando la posición y la cantidad de objetos son información crítica para el sistema. La arquitectura subyacente se basa en la tecnología MobileNetV2, optimizada para ser ligera y rápida, adecuada para dispositivos con limitaciones inherentes.
FOMO modifica la capa final del modelo tradicional de clasificación de imágenes, reemplazándola con un mapa de probabilidad por regiones que respeta la localización. Este enfoque, a diferencia de los modelos convencionales que generan mapas de salida de muy baja resolución, mantiene una correspondencia efectiva entre regiones del mapa de calor y zonas concretas en la imagen original, facilitando así la detección y el conteo de objetos, incluso en escenas con múltiples elementos. Un aspecto clave en la implementación de FOMO es el entreno basado en los centroides de los objetos en lugar de usar cuadros delimitadores o bounding boxes. Esta metodología simplifica el proceso de anotación y favorece la detección de objetos muy próximos entre sí, ya que cada activación en el mapa de calor representa un objeto individual. Aunque esta técnica limita la detección de objetos solapados en la misma ubicación exacta, se puede mitigar mediante el uso de mapas de mayor resolución del mapa de calor, ajustando la relación entre el tamaño de la imagen y el mapa, lo que permite una segmentación más precisa y detallada.
La versatilidad de FOMO se manifiesta también en su capacidad para trabajar con imágenes de diferentes dimensiones. Gracias a su arquitectura completamente convolucional, puede procesar desde imágenes pequeñas de 96x96 píxeles hasta imágenes de alta resolución, superando los 1024x1024 píxeles. Este escalamiento es especialmente útil en aplicaciones donde la precisión y la granularidad son fundamentales, como en la inspección industrial o la monitorización de defectos en superficies grandes y heterogéneas. Además, FOMO es compatible con toda la gama de modelos MobileNetV2 disponibles y soporta el aprendizaje por transferencia. Esto significa que los desarrolladores y empresas pueden aprovechar modelos previamente entrenados y adaptarlos a sus necesidades específicas, ya sea para identificar especies de animales, objetos industriales o gestos, reduciendo significativamente el tiempo y los recursos necesarios para desplegar soluciones de visión artificial funcionales y eficientes.
En dispositivos como Raspberry Pi 4, FOMO alcanza tasas de hasta 60 cuadros por segundo con imágenes de entrada en escala de grises a 160x160 píxeles y una configuración MobileNetV2 con un alpha de 0.1, superando ampliamente la velocidad de modelos tradicionales que apenas logran 3 fps en condiciones semejantes. En equipos con microcontroladores más limitados, como Arduino Nicla Vision con un MCU Cortex-M7 a 480MHz, FOMO mantiene un rendimiento impresionante, ofreciendo detección a 30 fps con consumos mínimos de memoria RAM en el orden de 245 KB. Este balance entre eficiencia y velocidad permite que FOMO se adapte tanto a nodos de borde distribuidos con baja potencia, como a gateways o estaciones más poderosas equipadas con GPU, ampliando su rango de aplicación. En contextos donde la batería y el consumo energético son críticos, como vehículos autónomos pequeños o dispositivos portátiles, FOMO se posiciona como una solución ideal para mantener operativas funciones avanzadas de visión artificial sin comprometer la autonomía ni la respuesta en tiempo real.
La integración con Edge Impulse Studio facilita enormemente la creación, entrenamiento, prueba y despliegue de modelos FOMO. La plataforma ofrece herramientas intuitivas para la adquisición y etiquetado de datos, la incorporación de bloques de procesamiento configurables y opciones para ajustar configuraciones avanzadas como el peso aplicado a objetos durante el entrenamiento o modificar puntos de corte en MobileNetV2 que afectan la resolución del mapa de calor resultante. Este entorno no solo acelera el ciclo de desarrollo sino que permite iterar y optimizar los modelos con información en tiempo real sobre su desempeño y consumo. Para quienes se inician en el mundo de la detección de objetos en hardware limitado, FOMO ofrece un punto de entrada accesible. Con instrucciones claras para configurar proyectos desde cero, recolectar imágenes y definir etiquetas mediante bounding boxes, incluso usuarios con conocimientos básicos pueden evaluar y desarrollar prototipos rápidamente.
Para desarrolladores avanzados, la posibilidad de ajustar parámetros como el número de filtros en la capa final del clasificador o añadir múltiples capas convolucionales dota a FOMO de la flexibilidad necesaria para abordar problemas complejos o muy específicos. Una consideración relevante es que, aunque FOMO reduce drásticamente los requerimientos computacionales en comparación con otros enfoques, los desarrolladores deben asegurar que el dispositivo objetivo cuente con suficiente memoria para albergar no solo el modelo sino también el búfer de imágenes y la lógica adicional de la aplicación, incluyendo aspectos como la conectividad inalámbrica o sistemas operativos embebidos. En dispositivos con 256 KB de RAM se pueden trabajar imágenes pequeñas, pero para aprovechar todas las ventajas de rendimiento y resolución de FOMO, se recomienda al menos 512 KB de memoria y frecuencias de operación por encima de los 80 MHz, incorporando aceleradores de hardware cuando sea posible para un máximo rendimiento. El éxito de FOMO se ejemplifica en proyectos reales como la detección y conteo de botellas de cerveza en tiempo real, aplicaciones de monitoreo ambiental que cuentan abejas en colmenas o implementaciones en la industria donde el posicionamiento exacto de defectos es más importante que el tamaño de los mismos. La rapidez en la inferencia y la baja latencia permiten reacciones inmediatas y una óptima integración con sistemas de control o análisis en tiempo real.