IA para software de dispatch de hormigón

IA para software de dispatch de hormigón

El hormigón es uno de los workflows operacionales menos tolerantes con la IA. El pedido tiene que caer sobre una planta real, un camión real, un conductor real, una ventana de vertido real. Un número de ticket inventado o una cantidad equivocada no es una «alucinación»: es un fallo logístico que arrastra toda una jornada. Llevamos un copilot de IA de un SaaS estadounidense de dispatch de hormigón de 75K tokens por conversación a menos de 26K, y eliminamos por completo la clase de fallo «IDs inventados». Mismo modelo.

El LLM lee payloads JSON completos de pedidos en cada turno

Los tools de pedidos pasados y de detalle de pedido devuelven JSON crudo de decenas de campos. El modelo los relee, los re-resume y quema tokens en cada turno posterior. Un normalizador del servidor recorta ese coste un ~75% por llamada de tool.

Los botones y selectores de mapa los emite el LLM

La elección de elementos de UI — etiquetas de botón, arrays de opciones, cuándo renderizar el mapa — viaja por el modelo como instrucciones de tool y salidas de tool. Los tokens pagan el UI dos veces: para instruir al modelo y para reintentar cuando se salta un render obligatorio. Mover la emisión de UI a código determinista ahorra tokens y hace los IDs inventados estructuralmente imposibles.

El flujo de repetición vuelve a preguntar datos que el sistema ya tiene

Tamaño de carga, espaciado de camiones, cantidad, dirección — todo en la tabla de pedidos pasados. Una repetición bien diseñada los rellena en el servidor en un paso; una ingenua los convierte en cuatro preguntas de seguimiento y cuatro turnos extra de LLM.

El system prompt carga reglas que el código podría imponer

Los prompts de dispatch típicos cargan un 40–60% de su contenido en reglas que la aplicación que lo rodea podría imponer de forma determinista. Cada turno paga esas reglas en tokens. Quitarlas es la victoria estructural más rápida.

Qué hacemos

Observabilidad de tokens y coste por llamada para que cada regresión sea una consulta, no una investigación

Máquina de estado del servidor para el flujo de pedido / repetición / reprogramación — el LLM deja de conducir, lo hace el código

Capa de normalización de salidas de tool — texto compacto reemplaza al JSON crudo, 3–5× menos tokens por llamada de tool

Emisión de UI sacada del modelo — los IDs inventados y los botones perdidos se vuelven estructuralmente imposibles

Harness de evaluación que vigila la clase de errores que importa (IDs inventados, deriva de cantidad, planta equivocada) en cada release

Continuar