El hormigón es uno de los workflows operacionales menos tolerantes con la IA. El pedido tiene que caer sobre una planta real, un camión real, un conductor real, una ventana de vertido real. Un número de ticket inventado o una cantidad equivocada no es una «alucinación»: es un fallo logístico que arrastra toda una jornada. Llevamos un copilot de IA de un SaaS estadounidense de dispatch de hormigón de 75K tokens por conversación a menos de 26K, y eliminamos por completo la clase de fallo «IDs inventados». Mismo modelo.
Los tools de pedidos pasados y de detalle de pedido devuelven JSON crudo de decenas de campos. El modelo los relee, los re-resume y quema tokens en cada turno posterior. Un normalizador del servidor recorta ese coste un ~75% por llamada de tool.
La elección de elementos de UI — etiquetas de botón, arrays de opciones, cuándo renderizar el mapa — viaja por el modelo como instrucciones de tool y salidas de tool. Los tokens pagan el UI dos veces: para instruir al modelo y para reintentar cuando se salta un render obligatorio. Mover la emisión de UI a código determinista ahorra tokens y hace los IDs inventados estructuralmente imposibles.
Tamaño de carga, espaciado de camiones, cantidad, dirección — todo en la tabla de pedidos pasados. Una repetición bien diseñada los rellena en el servidor en un paso; una ingenua los convierte en cuatro preguntas de seguimiento y cuatro turnos extra de LLM.
Los prompts de dispatch típicos cargan un 40–60% de su contenido en reglas que la aplicación que lo rodea podría imponer de forma determinista. Cada turno paga esas reglas en tokens. Quitarlas es la victoria estructural más rápida.
Observabilidad de tokens y coste por llamada para que cada regresión sea una consulta, no una investigación
Máquina de estado del servidor para el flujo de pedido / repetición / reprogramación — el LLM deja de conducir, lo hace el código
Capa de normalización de salidas de tool — texto compacto reemplaza al JSON crudo, 3–5× menos tokens por llamada de tool
Emisión de UI sacada del modelo — los IDs inventados y los botones perdidos se vuelven estructuralmente imposibles
Harness de evaluación que vigila la clase de errores que importa (IDs inventados, deriva de cantidad, planta equivocada) en cada release