У Backblaze выросла частота отказов жёстких дисков — компания привлечёт ИИ к предсказанию сбоев
Backblaze, которая оказывает услуги облачного хранения и резервного копирования данных, опубликовала очередной отчёт по статистике отказов жёстких дисков различных моделей. Следуя мировому тренду, компания решила выяснить, способен ли искусственный интеллект помочь снизить число сбоев.
На конец второго календарного квартала 2024 года в работе у Backblaze числились 284 876 жёстких дисков. Компания исключила из выборки модели, которые эксплуатируются в количестве до 100 единиц, и те, что за квартал не накопили в сумме 10 000 суток работы. В отчёт попали 284 386 единиц, составленные 29 моделями. Учитывая, какой популярностью в разных отраслях сегодня пользуются технологии ИИ, у Backblaze возник вопрос, можно ли использовать их для прогнозирования отказов жёстких дисков. Для этого потребуется обучить большую языковую модель на статистике компании и проверить гипотезу, способен ли ИИ просчитать вероятность отказа определённого накопителя с течением времени — и пока нет ясности, сможет статистика по одной модели применяться к другой, ведь их профили отказа могут различаться радикально.
В последнем отчёте выяснилось, что среднегодовая частота отказов (AFR) за II квартал составила 1,71 %, что ниже 2,28 %, зарегистрированных за аналогичный период прошлого года, но выше 1,41 % в I квартале 2024 года. Наибольшее беспокойство вызвала модель HGST ёмкостью 12 Тбайт (HUH721212ALN604), чей AFR за отчётный период подскочил до 7,17 %, из-за чего данный показатель за весь срок службы увеличился с 0,99 % до 1,57 %. Примечательно также, что две модели — Seagate на 14 Тбайт ST14000NM000J и на 16 Тбайт ST16000NM002J — за квартал не показали ни одного отказа. Но в эксплуатации Backblaze значится относительно небольшое число этих дисков.
Самая старая модель в работе — Seagate ёмкостью 4 Тбайт (ST4000DM000), и данные с этих накопителей компания в ближайший квартал или два намеревается перенести на более новые и более вместительные диски. А наиболее долго эксплуатируемым экземпляром оказался диск HGST ёмкостью 4 Тбайт (HMS5C4040ALE640), который на конец второго квартала проработал 9 лет 11 месяцев и 23 дня — сейчас хранилище, в котором установлен этот диск, находится в процессе миграции.
Цель сбора и обработки этих статистических данных — сформировать профиль отказов каждого диска с течением времени, пояснили в Backblaze, что поможет в разработке стратегий замены и миграции. Проиллюстрировать это призваны три предложенные компанией диаграммы, составленные на основе статистики сбоев по моделям, экземпляры которых суммарно наработали в компании от 1 млн суток. На первой диаграмме представлены показатели AFR для 14 моделей, средний возраст которых составляет 60 месяцев и менее, на второй — для моделей со средним возрастом более 60 месяцев. Такое разделение выбрано, поскольку 60 месяцев — типичный гарантийный срок для жёстких дисков корпоративного класса.
Диски, попавшие в I квадрант на первой диаграмме, характеризуются как работающие хорошо с AFR менее 1,5 %; во II квадранте — работающие приемлемо с AFR выше 1,5 %; модели в IV квадранте относительно новые, и их профиль отказов лишь начинает формироваться. В III квадранте накопителей не оказалось. На второй диаграмме I квадрант, как и прежде, представляет качественные модели; квадранты II и III — «диски, о которых нам следует беспокоиться»; а в IV квадранте оказалась лишь одна модель, которая поводов для беспокойства не даёт.
Чтобы показать динамику отказов, была составлена третья диаграмма. Она показывает частоту отказов за весь срок службы по девяти моделям старше 60 месяцев — для наглядности отсчёт ведётся с 24 месяцев. Распределение идёт преимущественно в I и II квадранты, причём пять из девяти моделей по состоянию на II квартал 2024 года оказались в I квадранте. Модели, чьи линии почти вертикальны (красная, коричневая и фиолетовая), демонстрируют стабильную частоту отказов в стечением времени. Модели синей и серой линий по мере старения увеличивают частоту отказов — синяя, в частности (Seagate ST800DM002) пролегает в пределах нормы, поскольку за первые 60 месяцев её AFR держался около 1 %. Три модели, достигшие III квадранта, имеют схожие профили — их кривые по мере роста частота отказов всё сильнее изгибаются вправо. Наконец, чёрная линия — диск Seagate ёмкостью 4 Тбайт, который «активно мигрирует» и заменяется другими.