Despliega y escala inferencia LLM local con Ollama en Kubernetes. Configuración de nodos GPU, selección de modelos, health checks e integración con servicios Go.
Continue