Даже RAID6 не панацея - Блог СМБ-Решения

Реальная ситуация: 12-дисковый массив (12х2Тб в RAID6) развалился напрочь!

Последовательность событий:

индикатор на одном из кейджей с винчестером заинтриговал исполняющего обязанности сисадмина.
подозрительный винчестер заменили в расчете на автоматический ребилд.
весь массив стал не доступен.

Так как система не очень свежая и нормально подцепить ее к серверу не удалось (сочетание выбранной ОС на сервере с отсутствием соответствующей программной поддержки производителя хранилища), управление хранилищем производилось только с несколькокнопочного пульта с однострочным монитором на морде его лица. Т.е., доступна очень ограниченная, только самая простая информация и очень ограниченный, только самый востребованный в нормальных условиях набор действий.

Неглубокая инспекция винчестеров выявила:

Один совсем плохо ведущий себя накопитель — при старте определяется, дальше не виден;
10 накопителей с различным количеством нечитаемых секторов;
1 (один!) накопитель без претензий.

На стенде собрать из них массив, чтобы вытащить с него информацию не удалось — параметры массива, его конкретика — размер блоков, их порядок и смещение неизвестны. RAID Reconstructor, как более автоматизированный инструмент, поелозил-поелозил, но на подходящий вариант сочетания параметров не наткнулся. Использование R-Studio — вдумчивый неспешный процесс. В отсутствии знаний о параметрах RAID требует исследования накопителей под микроскопом. Сразу наткнулся на затруднения с двумя накопителями. А владелец информации нервничает!..

Решил пойти самым очевидным и логичным путем — обратиться к СПЕЦИАЛИСТАМ именно в области восстановления информации — может быть, наших навыков и знаний не хватает, а они все быстро — чик-чик! и за час сделают? 3 часа предварительной диагностики и вердикт: 5..6 дней на восстановление и почти 200 000 рублей. Результаты нашей быстрой диагностики подтверждены — у одного из винчестеров вообще не работает одна головка, один — вполне себе нормальный, остальные 10 имеют разное количество нечитаемых секторов. Последовательность действий: с каждого винчестера снимается образ (у одного еще и блок головок менять придется), потом из образов будут пытаться собрать исходный массив.

Первопричиной столь плачевной ситуации могли быть или удары во время транспортировки массива или внезапные выключения питания, что привело к массовой деградации винчестеров. Восстановление массива могло не состояться по той причине, что контроллер в процессе ребилда наткнулся (или постоянно натыкался) на нечитаемые секторы разных накопителей — что приводит его в состояние ступора (это предположение, документального подтверждения нет).

Резюме:

нельзя слепо доверять даже избыточному, даже с двойной избыточностью железу, бэкап невосстановимых или трудновосстановимых данных никто не отменял;
если (я не знаю) в массив собрали диски «из того, что было», т.е. уже потрепанные жизнью, в расчете на то — что RAID6 все вывезет — чуда не произошло! Они свое уже отработали, дешевле было выкинуть;
на ответственных участках фронта все железо должно быть установлено «по уставу», без упрощений и недомолвок. Если бы связка сервер — массив была правильно поставлена и настроена, всякого рода тревожные «звоночки» — через настроенные предупреждения ли, через SMART ли, монитор каким-нибудь Zabbix ли, должны были дойти до сисадмина. А уж он должен был вовремя принять решение «резать к чортовой матери, не дожидаясь перетонита!».

Экономика.

Календарная неделя (пересылка винчестеров, диагностика, собственно процесс восстановления,…) и 200 с лишним тысяч (к сумме счета еще заработная плата 2 инженеров за 2 дня диагностики и попыток восстановления — порядка 10 тыс руб.). Это не считая стоимости вынужденного простоя в течение недели!

Средняя магазинная цена 2Тб накопителя Seagate ST2000NM0033 на яндекс маркете — 8 000 руб. Делим 210 000 руб на 8 000 руб и получаем — за сумму прямых убытков можно было взять 26шт (более, чем 2-кратный запас) абсолютно новых винчестеров, которые без проблем прослужили бы 2..3 года! И это все еще без учета стоимости простоя…

Теперь самое время включить свою жадность и принять элементарное логическое решение о замене ВСЕХ несвежих накопителей, даже еще работающих! тем, у кого таковые имеются на ответственных направлениях бизнеса. Дабы не вышло дороже!…

18.03.2017

На поверку, затраты денег и времени оказались на столь драматичными — 2 дня и в разы меньшая сумма. Потом еще время на перенос данных с проблемного хранилища — около двух дней. Но нервов потрепано было изрядно!