Recortamos la factura de tokens del copilot un 59%

Recortamos la factura de tokens del copilot un 59% — mismo modelo, mismo producto

El consumo de tokens por conversación bajó de 75K a menos de 26K. La factura se desplomó. El modelo no cambió.

El problema

El copilot estaba en producción. Funcionaba. Pero las trazas de producción contaban una historia más dura: la conversación happy-path media quemaba unos 75 000 tokens antes de que el contratista pudiera finalizar un pedido. El consumo de tokens crecía más rápido que el volumen de pedidos, y el coste de inferencia por pedido había dejado de cuadrar con el margen bruto por pedido que la feature debía proteger.

El modelo no era el problema. El stack le pedía al modelo hacer tres trabajos a la vez: razonar sobre el siguiente paso, escribir el texto para el usuario y decidir cada elemento de UI a renderizar en cada turno — qué botones, qué mapa, qué confirmación. Cada una de esas decisiones de UI viajaba por el modelo como instrucciones de tool, salidas de tool y bucles de retry. La factura pagaba teatro de orquestación.

Qué cambiamos

Reconstruimos la división del trabajo entre el LLM y la aplicación que lo rodea. Cuatro cambios estructurales, sin cambiar de modelo, sin trucos de tuning del prompt.

El resultado

Comparado uno a uno contra trazas happy-path equivalentes previas al proyecto:

Cómo lo medimos

Hicimos benchmark sobre trazas emparejadas: un happy path representativo ejecutado contra la build previa al proyecto, un happy path equivalente ejecutado contra la build posterior, mismo backend de staging, mismo escenario de repetición de pedido. Los conteos de tokens vienen de la observabilidad de la capa de orquestación, no de la respuesta del modelo. La cifra del 59% sale de una ejecución de seguimiento limpia contra una build ya calentada; el promedio sobre un puñado de paths representativos quedó en el rango del 40–60%.

También seguimos la clase de error que más nos importaba — fabricaciones de UI, donde el modelo o inventaba un ID o se saltaba el render de un botón obligatorio — contra trazas de producción en una ventana de dos semanas antes y después. La clase estaba presente antes del proyecto. Dejó de aparecer después.

Qué significa esto para tu copilot

Si tu copilot de IA lleva a un usuario por un flujo operacional estructurado — pedidos, dispatches, tickets, cuadrantes, rutas — y la factura mensual de inferencia supera la justificación de negocio de la feature, hay muy buenas probabilidades de que el mismo patrón aplique en tu caso. El LLM casi con seguridad está haciendo trabajo que debería poseer el código que lo rodea, y paga por ese trabajo dos veces: una para instruirlo, otra para reintentar cuando se equivoca.

Una llamada de scoping es el primer paso correcto. Podemos decirte en una hora, a partir de una traza representativa y una muestra del system prompt, si este patrón encaja en tu stack y de qué tamaño es probable que sea la reducción.

FAQ

¿Cambiasteis el modelo?

No. Misma familia de modelo, mismo tier. Cada número de este caso se consiguió con la elección de modelo original. Cambiar de modelo está sobre la mesa más adelante, una vez eliminado el desperdicio estructural — pero es el segundo movimiento, no el primero.

¿Es típica una reducción del 59%?

Está en el extremo alto de lo que vemos, y salió de una ejecución de seguimiento limpia tras aterrizar todo el conjunto de cambios. La banda realista sobre una muestra representativa de happy paths es del 40–60% en copilots de tipo dispatcher. En setups inusualmente cargados de prompt o de tools hemos visto reducciones mayores; en stacks ya ajustados, menores.

¿Cuánto duró el proyecto?

Los cambios principales aterrizaron en unas cuatro semanas. La cola más larga — observabilidad, harness de evaluación, traspaso — se extendió otras cuatro a seis. Corto, acotado, basado en resultados; el equipo del cliente opera el sistema ahora sin nosotros.

¿Podéis hacer esto en nuestro stack sin acceso a nuestro código fuente?

No. Los proyectos requieren acceso a la capa de orquestación — system prompt, definiciones de tools y una muestra representativa de trazas de producción. Read-only basta para la fase de auditoría; el acceso de escritura llega después si acordamos el conjunto de cambios.

¿Cuál es la versión más pequeña de este proyecto?

Una auditoría de dos a cuatro semanas con un punch list priorizado y un proof-of-concept funcional sobre uno de los puntos. Sin compromiso a largo plazo. Si te gusta el punch list, hacemos la implementación. Si no, te quedas con el punch list.

Continuar