Развёртывание и масштабирование локального LLM-инференса через Ollama на Kubernetes. Настройка GPU-нод, выбор моделей, health checks и интеграция с Go-сервисами.
Continue