[nevr]

Autonomous LLM Runtime

LIVE

7 fallback levels, auto model calibration, 0 downtime Smart routing between AI models: auto-selects best by speed and cost

Groq OpenRouter Claude Gemini Qwen Llama Mixtral 7 fallback levels auto-blacklist

7 fallback levels, 0 downtime auto model selection, budget control

Autonomous LLM Runtime — система маршрутизации между AI-моделями с 7 уровнями отказоустойчивости. **Динамическое обнаружение:** каждые 12 часов система опрашивает API Groq и OpenRouter, получает список доступных моделей, фильтрует по критериям (цена, контекст, скорость), ранжирует и кеширует в Redis. **Каскад:** Groq (бесплатный, 0.5с) → OpenRouter (free-tier модели) → Bootstrap fallback (Llama 3.3 70B). Если модель возвращает 403/404/пустой ответ — автоматический blacklist на 1 час. **7 моделей в ротации:** Groq, OpenRouter, Claude, Gemini, Qwen, Llama, Mixtral. Система сама выбирает оптимальную по задаче. **Budget gate:** дневной лимит $5. Алерт при 80%. Premium модели автоматически блокируются при превышении.
Система автоматически выбирает AI-модель для каждого запроса — по скорости, качеству и стоимости. 7 уровней подстраховки: если одна модель упала, подключается следующая. 7 моделей в ротации. Обнаружение новых моделей каждые 12 часов. Контроль бюджета: дневной лимит, алерт при приближении к потолку.

## How it works ## Как это работает

Request → ModelCascadeRunner selects model (from Redis cache) → attempt → if fail → next fallback (7 levels) → auto-blacklist dead models (1h). ModelDiscoveryJob runs every 12h: Groq API + OpenRouter API → filter by criteria (model_cascade.yml) → rank → cache to Redis. Запрос → система выбирает лучшую модель → если не отвечает, переключается на следующую (7 уровней) → контроль бюджета.

## Related ## Связанные продукты