En la era digital actual, la cantidad de información disponible en línea crece a un ritmo exponencial. Para que las inteligencias artificiales, especialmente los modelos de lenguaje grandes (LLM), puedan ofrecer respuestas precisas y bien fundamentadas, es fundamental contar con herramientas que permitan rastrear, indexar y navegar eficazmente por el vasto universo de sitios web. Doctor es una solución innovadora que se presenta como una herramienta indispensable para desarrolladores y profesionales que buscan mejorar el acceso a información actualizada y estructurada mediante servidores MCP orientados a agentes LLM. Doctor nace como un proyecto open source robusto diseñado para descubrir, rastrear e indexar sitios web completos y exponer esa información a través de un servidor MCP (Multi-Channel Processing) que facilita la interacción con modelos LLM. Su arquitectura avanzada le permite superar muchas de las limitaciones tradicionales en la exploración y procesamiento de datos en la web, ofreciendo resultados más precisos y una integración fluida con aplicaciones inteligentes.
La funcionalidad principal de Doctor se basa en la capacidad de rastreo de páginas web utilizando crawl4ai, una tecnología que permite obtener el contenido con detalle y preservar la jerarquía natural de un sitio. Este rastreo meticuloso asegura que la estructura del sitio web se mantenga, con información clara sobre relaciones padre-hijo entre páginas, lo que resulta fundamental para una exploración adecuada y para que los agentes LLM comprendan contextos y vínculos internos. Una vez que las páginas han sido rastreadas, Doctor emplea LangChain para fragmentar o dividir el texto en partes manejables y coherentes. Esta segmentación facilita el procesamiento posterior, permitiendo que los modelos de lenguaje trabajen con bloques de contenido organizados de manera eficiente. Posteriormente, se generan embeddings o representaciones vectoriales del texto mediante la integración con OpenAI a través de litellm, lo que aporta una comprensión semántica avanzada y posibilita búsquedas inteligentes basadas en similitudes contextualizadas.
La información procesada y los embeddings se almacenan en una base de datos DuckDB, que ofrece soporte para búsqueda vectorial, garantizando un acceso rápido y fiable a documentos y fragmentos indexados. La interacción con estos datos se realiza mediante un servidor web construido con FastAPI, que expone múltiples endpoints para realizar tareas como iniciar trabajos de rastreo, consultar el progreso, buscar dentro de los documentos indexados o acceder a vistas detalladas de páginas específicas. Una de las características que distingue a Doctor es su sistema de mapas del sitio o site maps jerárquicos. Esta funcionalidad proporciona una vista estructurada y navegable de los sitios web rastreados, permitiendo a los usuarios explorar la organización y el contenido de las páginas de forma intuitiva. A través de endpoints específicos, es posible acceder a una lista de todos los sitios rastreados, visualizar la estructura en forma de árbol, y navegar entre páginas relacionadas — todo ello sin necesidad de tecnologías complejas como JavaScript, usando solo HTML y CSS para garantizar compatibilidad máxima.
La integración con agentes LLM se presenta como un valor agregado esencial. Utilizando la tecnología MCP, Doctor convierte la información estructurada y actualizada que ha rastreado, en un recurso accesible para modelos de lenguaje que pueden así ofrecer respuestas más fundamentadas y generar código contextualizado con fuentes verificables. Esto resulta especialmente valioso para desarrolladores, investigadores y profesionales que dependen de resultados precisos y de calidad en tareas automatizadas. El despliegue y uso de Doctor es relativamente sencillo para quienes cuentan con conocimiento técnico básico. Requiere una configuración con Docker y Docker Compose, asegurando así un entorno reproducible y aislado, además de la clave API de OpenAI para habilitar la generación de embeddings.
Luego de iniciar la pila de servicios, los usuarios pueden comenzar a rastrear URLs, monitorear los estados de las tareas, y acceder a la API para búsquedas y navegación. Como detalle importante, Doctor incluye soporte para procesamiento asíncrono mediante Redis, que actúa como sistema intermediario de mensajes. Esto garantiza que las operaciones de rastreo y procesamiento no bloqueen el sistema y puedan manejarse en segundo plano eficientemente, manteniendo un rendimiento óptimo incluso con múltiples trabajos concurrentes. El proyecto también se destaca por su atención a la calidad del código. Cuenta con una completa estructura de pruebas unitarias, de integración y funcionales, acompañadas por herramientas de análisis estático y formateo automático para mantener la coherencia y evitar problemas.
Además, utiliza pre-commit hooks que ayudan a garantizar que cada contribución cumple con los estándares establecidos antes de integrarse en la base principal. En lo que respecta a la experiencia del usuario, Doctor ofrece documentación accesible y detallada a través de su interfaz web que presenta OpenAPI Docs. Allí, los desarrolladores pueden explorar de manera interactiva los diferentes endpoints disponibles, conocer las respuestas esperadas, y probar funcionalidades sin necesidad de construir interfaces propias desde cero. Doctor se posiciona como una solución ideal para quienes necesitan construir bases de conocimiento actualizadas y navegables extraídas directamente de internet, preparadas para alimentar agentes inteligentes que operan con LLMs. Gracias a su enfoque modular, extensible y su arquitectura moderna, permite adaptarse a múltiples escenarios, desde la creación de asistentes de soporte técnico hasta la automatización avanzada de generación de contenidos o análisis de datos.
En suma, Doctor es un proyecto que combina lo mejor de la ingeniería de software con las necesidades modernas de inteligencia artificial aplicada. Aporta una plataforma integrada que simplifica el proceso de rastreo, segmentación, embeddings y exposición de información a través de simple APIs, facilitando la construcción de agentes LLM más inteligentes, contextuales y confiables. Para quienes buscan estar a la vanguardia en la intersección entre web crawling, indexación y aprendizaje automático, Doctor representa una herramienta excepcional y con un futuro prometedor dentro del ecosistema tecnológico.