Optimización de costos en agentes de IA: Cómo reducir el uso de tokens en MCP un 94%

David

25 feb. 2026 — 2 min read

El impuesto oculto de los catálogos de herramientas

Cualquier desarrollador que esté construyendo agentes de IA utilizando el Model Context Protocol (MCP) se habrá enfrentado a un problema silencioso: el costo de las instrucciones. Para que un agente sepa qué herramientas tiene disponibles, MCP suele volcar el catálogo completo de herramientas como JSON Schema al inicio de cada conversación. Esto genera un consumo masivo de tokens incluso antes de que la IA realice su primera tarea útil.

Una investigación reciente ha demostrado que cambiar el enfoque de "volcado masivo" por un sistema basado en interfaces de línea de comandos (CLI) puede reducir el consumo de tokens en un 94%, manteniendo la misma funcionalidad y capacidades de ejecución.

MCP vs CLI: La comparativa de eficiencia

El problema fundamental de MCP radica en el setup de la sesión. Si tienes 6 servidores MCP con 14 herramientas cada uno (84 en total), estás cargando aproximadamente 15,500 tokens solo en definiciones de esquemas. Por el contrario, un enfoque basado en CLI utiliza una lista ligera de "habilidades" disponibles, cargando solo los nombres y descripciones breves.

Carga inicial: MCP (~15,500 tokens) vs CLI (~300 tokens).
Llamada a herramientas: Aunque la llamada individual de MCP es más barata (30 tokens vs 600 tokens de una ayuda de CLI), el ahorro acumulado por no cargar el esquema al inicio compensa con creces el costo de descubrimiento bajo demanda.
Escalabilidad: A medida que aumenta el número de herramientas, la ventaja de CLI crece exponencialmente, permitiendo sesiones mucho más largas y baratas.

Este concepto de "carga perezosa" (lazy loading) es similar a lo que Anthropic introdujo con Tool Search, pero con la ventaja de ser agnóstico al modelo y funcionar con cualquier LLM.

¿Por qué importa para desarrolladores?

Este análisis es crucial para cualquier ingeniero que gestione presupuestos de APIs de IA o que esté diseñando arquitecturas de agentes complejas:

Optimización de Context Window: Menos tokens desperdiciados en definiciones significan más espacio para el historial de la conversación y el razonamiento del modelo.
Arquitectura DevOps: Implementar herramientas como CLIHub permite convertir servidores MCP existentes en CLIs ejecutables con un solo comando, facilitando la integración en pipelines de CI/CD y entornos de producción.
Independencia del Proveedor: A diferencia de soluciones propietarias como la búsqueda de herramientas de Anthropic, el uso de CLIs permite migrar entre OpenAI, Google o modelos locales (Llama 3/Mistral) sin reescribir la lógica de orquestación.

Para quienes trabajamos con stacks basados en Rust o Go, crear binarios rápidos que actúen como interfaces para nuestros agentes es ahora una técnica de optimización de costos de primer nivel.

Fuente original: Kan Yilmaz Blog

a man sitting at a desk in front of a laptop computer

OpenAI lanza GPT-5.4: el modelo más capaz para trabajo profesional

Control de ordenadores nativo y contexto de 1M tokens OpenAI ha lanzado GPT-5.4, su modelo frontier más capaz para tareas profesionales complejas. La principal novedad es la capacidad nativa de control de ordenadores, que permite a los agentes operar sistemas informáticos completos mediante capturas de pantalla y comandos de

Sunlight breaks through dramatic clouds over bridge cables

Amazon Bedrock lanza Projects API compatible con OpenAI para aislar cargas de trabajo AI

Nueva API para organizar aplicaciones AI a nivel empresarial Amazon Bedrock ha lanzado la Projects API compatible con OpenAI, proporcionando aislamiento a nivel de aplicación para cargas de trabajo de IA generativa. La nueva API permite a las organizaciones gestionar múltiples aplicaciones, entornos y equipos con control de acceso granular

Anthropic vs Pentágono: el precedente que podría cambiar las reglas del juego en IA

¿Qué significa realmente "riesgo de cadena de suministro"? La designación de Anthropic como "riesgo de cadena de suministro" por parte del Departamento de Guerra estadounidense es históricamente inédita. Esta etiqueta, tradicionalmente reservada para adversarios extranjeros como empresas chinas o rusas, nunca se había aplicado públicamente a

Sticky notes with words and drawings on wooden table.

OpenAI define 5 modelos de valor para evolucionar de pilotos AI a reinvención empresarial

De experimentos aislados a transformación sistemática OpenAI ha publicado un framework estratégico que identifica cinco modelos de valor para que las organizaciones evolucionen desde pilotos AI dispersos hacia reinvención empresarial sistemática. La propuesta plantea que las empresas líderes no serán las que ejecuten más pilotos, sino las que comprendan qué