AWS сбой ноября 2025: уязвимость AI-инфраструктуры
В ноябре 2025 года Amazon Web Services (AWS) пережил крупный сбой, затронувший регионы us-east-1 и us-west-2. Последствия вышли далеко за пределы «обычного облачного инцидента»: недоступными оказались ChatGPT (частично размещённый на Azure, но с зависимостями от AWS), API Anthropic Claude, десятки AI-стартапов и корпоративные AI-приложения.
Каскадный эффект
AI-сервисы оказались более уязвимыми к сбоям инфраструктуры, чем традиционные веб-приложения. Причина — концентрация: небольшое количество GPU-кластеров обслуживает огромное количество клиентов. Когда кластер недоступен — недоступны все AI-сервисы, которые на нём работают. В отличие от веб-сайта (который можно перенести на другой сервер за минуты), AI-модель привязана к конкретным GPU — и «переехать» за минуты невозможно.
Уроки
Для AI-компаний: multi-region и multi-cloud развёртывание — не роскошь, а необходимость. Если весь инференс на одном кластере в одном регионе — сбой = полная недоступность. Для enterprise-клиентов: SLA облачных провайдеров (обычно 99.9% — 8.7 часов простоя в год) может быть недостаточным для mission-critical AI-приложений.
Параллельно в 2025 году крупный сбой пережил и Cloudflare — ещё один инфраструктурный провайдер, от которого зависят AI-сервисы (CDN, DNS, защита от DDoS). Два крупных сбоя за год — не случайность, а напоминание: AI-инфраструктура — не «магия в облаке», а физические серверы в физических зданиях, которые ломаются, перегреваются и отключаются.
Для индустрии сбой AWS — аргумент в пользу edge AI и hybrid-архитектур: часть критических AI-задач должна выполняться локально, без зависимости от облака. Потеря облака не должна означать потерю AI.


