Amazon рассказала о причинах сбоя в работе облачных сервисов
Amazon заявила, что причиной масштабного сбоя в работе облачной инфраструктуры стал отказ в работе инструментов, предназначенных для автоматизации процессов. Сбой затронул работу многих компаний и сервисов — от парков развлечений Disney и стриминга Netflix до роботов-пылесосов и онлайн-продаж билетов на концерты.
В опубликованном накануне заявлении компании сообщается, что проблема возникла 7 декабря, когда одна из программ, предназначенных для повышения надёжности работы сети, прекратила работу, вызвав непредсказуемое поведение «большого числа» систем. Это привело к всплеску активности в инфраструктуре Amazon, а пользователи лишились доступа к некоторым облачным ресурсам. «Эффект снежного кома вызвал некорректный фрагмент кода, который выполнялся в автоматическом режиме. Исходная проблема вызвала отключение систем внутреннего контроля и мониторинга», — прокомментировал заявление компании аналитик Forrester Брент Эллис (Brent Ellis).
Проблемы начались 7 декабря около 10:30 по нью-йоркскому времени (18:30 мск), и на их решение у специалистов компании ушло несколько часов. В социальных сетях появились многочисленные жалобы на то, что перестали работать системы умного дома и другие подключённые к интернету приборы. Некоторые эксперты сочли объяснение компании недостаточным. «Они не объясняют, что это было за непредсказуемое поведение, потому что не знали, что это было. Они пытались исправить это наугад, поэтому работа заняла так много времени», — уверен Кори Куинн (Corey Quinn), эксперт по облачным технологиям в компании Duckbill Group.
В целом, сервис AWS отличается высокой надёжностью. В последний раз сбой такого масштаба наблюдался в 2017 году, когда сотрудник компании во время ремонта биллинговой системы случайно отключил больше серверов, чем требовалось. Однако произошедший на этой неделе инцидент напомнил, сколько продуктов и услуг зависят от централизованных ЦОД, которыми управляет небольшое число техногигантов, включая Amazon, Microsoft и Google.
И простого решения проблемы нет. Одни эксперты говорят, что компаниям следует дублировать сервисы в инфраструктурах нескольких поставщиков, другие указывают, что такая стратегия непрактична, и сбои будут наблюдаться при отказах каждого из облачных провайдеров, а не одного только Amazon. «Мы знаем, что инцидент существенно повлиял на многих клиентов. Мы сделаем всё возможное, чтобы извлечь из него урок и использовать его для повышения нашей доступности в дальнейшем», — говорится в заявлении компании.