Optimización de costos en agentes de IA: Cómo reducir el uso de tokens en MCP un 94%

El impuesto oculto de los catálogos de herramientas

Cualquier desarrollador que esté construyendo agentes de IA utilizando el Model Context Protocol (MCP) se habrá enfrentado a un problema silencioso: el costo de las instrucciones. Para que un agente sepa qué herramientas tiene disponibles, MCP suele volcar el catálogo completo de herramientas como JSON Schema al inicio de cada conversación. Esto genera un consumo masivo de tokens incluso antes de que la IA realice su primera tarea útil.

Una investigación reciente ha demostrado que cambiar el enfoque de "volcado masivo" por un sistema basado en interfaces de línea de comandos (CLI) puede reducir el consumo de tokens en un 94%, manteniendo la misma funcionalidad y capacidades de ejecución.

MCP vs CLI: La comparativa de eficiencia

El problema fundamental de MCP radica en el setup de la sesión. Si tienes 6 servidores MCP con 14 herramientas cada uno (84 en total), estás cargando aproximadamente 15,500 tokens solo en definiciones de esquemas. Por el contrario, un enfoque basado en CLI utiliza una lista ligera de "habilidades" disponibles, cargando solo los nombres y descripciones breves.

  • Carga inicial: MCP (~15,500 tokens) vs CLI (~300 tokens).
  • Llamada a herramientas: Aunque la llamada individual de MCP es más barata (30 tokens vs 600 tokens de una ayuda de CLI), el ahorro acumulado por no cargar el esquema al inicio compensa con creces el costo de descubrimiento bajo demanda.
  • Escalabilidad: A medida que aumenta el número de herramientas, la ventaja de CLI crece exponencialmente, permitiendo sesiones mucho más largas y baratas.

Este concepto de "carga perezosa" (lazy loading) es similar a lo que Anthropic introdujo con Tool Search, pero con la ventaja de ser agnóstico al modelo y funcionar con cualquier LLM.

¿Por qué importa para desarrolladores?

Este análisis es crucial para cualquier ingeniero que gestione presupuestos de APIs de IA o que esté diseñando arquitecturas de agentes complejas:

  • Optimización de Context Window: Menos tokens desperdiciados en definiciones significan más espacio para el historial de la conversación y el razonamiento del modelo.
  • Arquitectura DevOps: Implementar herramientas como CLIHub permite convertir servidores MCP existentes en CLIs ejecutables con un solo comando, facilitando la integración en pipelines de CI/CD y entornos de producción.
  • Independencia del Proveedor: A diferencia de soluciones propietarias como la búsqueda de herramientas de Anthropic, el uso de CLIs permite migrar entre OpenAI, Google o modelos locales (Llama 3/Mistral) sin reescribir la lógica de orquestación.

Para quienes trabajamos con stacks basados en Rust o Go, crear binarios rápidos que actúen como interfaces para nuestros agentes es ahora una técnica de optimización de costos de primer nivel.

Fuente original: Kan Yilmaz Blog

Read more