AWS лёг на несколько дней: DNS-ошибка обрушила часть интернета
Один из самых заметных инцидентов октября — многодневный сбой Amazon Web Services, затронувший десятки тысяч сервисов по всему миру. Причина, согласно опубликованному позднее post-mortem отчёту, оказалась неожиданно прозаичной: ошибка в системе DNS.
Автоматические системы управления DNS вошли в состояние гонки (race condition), при котором несколько процессов одновременно пытались обновить одни и те же записи, создавая каскадные сбои. Результат — часть интернет-сервисов, построенных на AWS, работала с перебоями от нескольких часов до нескольких дней в зависимости от региона.
Инцидент напомнил о хрупкости инфраструктуры, на которой держится современный интернет. Когда один облачный провайдер обслуживает значительную долю мирового веба, ошибка в одной подсистеме способна вызвать волновой эффект планетарного масштаба. Для бизнеса это аргумент в пользу мультиоблачных стратегий, которые снижают зависимость от единственного провайдера.

