Ошибка жесткого диска в raid

Привет, друзья. В прошлой статье мы с вами создали RAID 1 массив (Зеркало) — отказоустойчивый массив из двух жёстких дисков SSD. Смысл создания RAID 1 массива заключается в повышении надёжности хранения данных на компьютере. Когда два жёстких диска объединены в одно хранилище, информация на обоих дисках записывается параллельно (зеркалируется). Диски являются точными копиями друг друга, и если один из них выйдет из строя, мы получим доступ к операционной системе и нашим данным, ибо их целостность будет обеспечена работой другого диска. Также конфигурация RAID 1 повышает производительность при чтении данных, так как считывание происходит с двух дисков. В этой же статье мы рассмотрим, как восстановить массив RAID 1, если он развалится. Другими словами, мы рассмотрим, как сделать Rebuild RAID 1.

Развал RAID 1 массива может произойти по нескольким причинам: отказ одного из дисков, ошибки микропрограммы БИОСа, неправильные действия пользователя компьютера. При развале RAID 1 в БИОСе у него будет статус «Degraded».

В таких случаях нужно произвести восстановление (Rebuild) массива. Каким образом это можно сделать? К примеру, при отказе одного накопителя мы просто подсоединяем другой исправный, затем жмём в БИОСе кнопку «Rebuild», и происходит синхронизация данных на дисках. Таким вот образом RAID 1 массив восстанавливается, и мы можем работать дальше. Вроде, всё просто. Однако на практике при возникновении такой проблемы много нюансов. Давайте подробно рассмотрим все особенности восстановления RAID.

Если созданный с помощью БИОСа материнской платы RAID 1 массив развалился, неопытный пользователь может этого сразу и не понять. Мы не получим ни звукового оповещения, ни оповещения в иной форме, сигнализирующих о проблеме развала RAID 1. Возможностями аварийной сигнализации при развале массивов обладают только отдельные SAS/SATA/RAID-контроллеры, работающие через интерфейс PCI Express. За аварийную сигнализацию при проблемах с массивами отвечает специальное ПО таких контроллеров. Не имея таких контроллеров, можем использовать программы типа CrystalDiskInfo или Hard Disk Sentinel Pro, которые предупредят нас о выходе из строя одного из накопителей массива звуковым сигналом, либо электронным письмом на почту.

Если заглянем в управление дисками Windows, о развале RAID 1 можем догадаться, например, по исчезновению разметки одного из дисков. 

Но лучше, конечно, чтобы на компьютере был установлен родной софт от производителя чипсета материнской платы, выполняющий задачи по обслуживанию RAID-массивов. И именно этот софт должен вывести сообщение о деградации массива из-за выхода из строя одного из накопителей. Ещё такой софт должен выполнять постоянное наблюдение за техническим состоянием массива. И при замене вышедшего из строя диска на исправный на таком софте лежит ответственность за быстрое перестроение рассыпавшегося массива.

Для примера возьмём мою материнскую плату на чипсете Z490 от Intel, для которого существует специальное программное обеспечение Intel Rapid Storage Technology (Intel RST). Технология Intel Rapid Storage поддерживает SSD SATA и SSD PCIe M.2 NVMe, повышает производительность компьютеров с SSD-накопителями за счёт собственных разработок. Всесторонне обслуживает массивы RAID в конфигурациях 0, 1, 5, 10. Предоставляет пользовательский интерфейс Intel Optane Memory and Storage Management для управления системой хранения данных, в том числе дисковых массивов.

После установки Intel RST в главном окне увидим созданный нами из двух SSD M.2 NVMe Samsung 970 EVO Plus (250 Гб) RAID 1 массив, исправно функционирующий.

Вот этот массив в управлении дисками Windows.

И в диспетчере устройств.

Технология Intel Rapid Storage имеет свою службу и постоянно мониторит состояние накопителей. На данный момент все находящиеся в рейде диски исправны.

Если какой-либо накопитель неисправен, драйвер Intel RST сразу предупредит всплывающим окном о проблеме  «Требуется внимание. Производительность одного из ваших томов снижена».

И в главном окне программы будет значиться, что один из дисков массива неисправен.

В этом случае можно произвести диагностику неисправного накопителя специальным софтом, к примеру, программой Hard Disk Sentinel Pro. Если диск неисправен или отработал свой ресурс, выключаем компьютер и заменяем диск на новый. Затем делаем Rebuild (восстановление) RAID 1 массива.

После замены неисправного диска включаем ПК и входим в БИОС. Заходим в расширенные настройки «Advanced Mode», идём во вкладку «Advanced». Переходим в пункт «Intel Rapid Storage Technology».

Видим, что наш RAID 1 массив с названием Volume 1 неработоспособен — «Volume 1 RAID 1 (mirroring), Degraded».Выбираем «Rebuild» (Восстановить).

Обратим внимание на уведомление внизу: «Selecting a disk initiates a rebuild. Rebuild completes in the operating system», переводится как «Выбор диска инициирует перестройку массива. Восстановление завершается в операционной системе». Выбираем новый накопитель, который нужно добавить в массив для его восстановления, жмём Enter. Появится следующий экран, указывающий, что после входа в операционную систему будет выполнено автоматическое восстановление — «All disk data will be lost», переводится как «Все данные на диске будут потеряны».RAID 1 массив восстановлен.

Жмём F10, сохраняем настройки, произведённые нами в БИОСе, и перезагружаемся.

После перезагрузки открываем программу Intel Optane Memory and Storage Management и видим, что всё ещё происходит перестроение массива, но операционной системой уже можно пользоваться.

Восстановить дисковый массив можно непосредственно в программе Intel Optane Memory and Storage Management. К примеру, у нас неисправен один диск массива, и Windows 10 загружается с исправного накопителя. Выключаем компьютер, отсоединяем неисправный, а затем устанавливаем новый SSD PCIe M.2 NVMe, включаем ПК. Программа Intel Optane Memory and Storage Management определяет его как неизвестный жёсткий диск.

Диспетчер устройств, как и управление дисками, не видит целостный RAID, а видит два разных SSD.

В главном окне программы жмём «Создать том RAID».

У нас SSD нового поколения с интерфейсом PCIe M.2 NVMe, значит, выбираем контроллер PCIe. Тип дискового массива — «Защита данных в режиме реального времени (RAID 1)».

Выбираем два наших диска SSD PCIe M.2 NVMe.

Если на новом диске были данные, после перестроения массива данные на нём удалятся. Жмём «Создать том RAID». Можем наблюдать процесс восстановления массива.

RAID 1 массив восстановлен.

Если включить в настройках программы Intel RST «Автоматическое перестроение при оперативной замене»,  при замене неисправного накопителя не нужно будет ничего настраивать. Восстановление дискового массива начнётся автоматически.


Если у вас выйдут из строя сразу оба накопителя, то покупаем новые, устанавливаем в системный блок, затем создаём RAID 1 заново и разворачиваем на него резервную копию.

Рассмотрим порядок действий проверки дисков выделенного сервера, с которого пришла ошибка SMART, выявления и замены неисправного диска в массиве Raid-1.

  1. Вводим команду для проверки состояния raid

cat /proc/mdstat

  1. Если в выводе в квадратных скобках стоит знак _ (например [U_]) — диск требуется заменить (он выпал из рейда).

в данном примере всё с raid всё в порядке. Если бы было так: [U_], то диск sdb неисправен, если так: [_U], то sda (смотрим порядок в md-устройствах, например: md2 : active raid1 sda3[2] sdb3[3])

  1. Если raid в порядке, то нужно проверить каждый диск отдельно следующей командой: 

smartctl -a /dev/sd[X]

[X] меняем на a или b в зависимости от диска, список дисков можно посмотреть командой:

ls -l /dev/ | grep sd

Оцениваем состояние диска по параметрам и выявляем неисправный, смотрим:

  • количество перераспределенных секторов (Reallocated Sector)
  • количество часов работы
  • наличие ошибок смарт (сделайте коротки и расширенный тест SMART)
  • нагрузка на диск в atop
  • и другие параметры, определение неисправного диска по параметрам SMART, это тема отдельной статьи, поищите подробную информацию в интернете.
  1. Узнаём серийный номер неисправного диска командой:

smartctl -a /dev/sd[X]

  1. Перед заменой диска крайне желательно необходимо сделать резервную копию данных
  2. Отключаем поврежденный диск от рейда. Для этого нужно пометить разделы диска как сбойные и изъять их из массива, для этого воспользуемся командой:

mdadm /dev/md0 -f /dev/sdb1 &&mdadm /dev/md0 -r /dev/sdb1

В зависимости от количества разделов выполняем соответственно для разных разделов:

mdadm /dev/md1 -f /dev/sdb2 &&mdadm /dev/md1 -r /dev/sdb2
mdadm /dev/md2 -f /dev/sdb3 &&mdadm /dev/md2 -r /dev/sdb3

Далее команда на удаление из RAID

mdadm /dev/md0 --remove /dev/sdb1
mdadm /dev/md1 --remove /dev/sdb2
mdadm /dev/md2 --remove /dev/sdb3

  1. Отправляем в дата-центр запрос на замену, к запросу также прикладываем модель и серийный номер исправного диска, узнать их можно командой:

hdparm -i /dev/

  1. После замены диска новый диск нужно разбить, в зависимости от типа разбиения диска (MBR или GPT).

Для проверки типа разбиения надо выполнить следующую команду:

gdisk -l /dev/sda

на не замененном диске

После этого выполнить команду:

sfdisk -d /dev/sda | sfdisk /dev/sdb

(для MBR), и

sgdisk -R /dev/sdb /dev/sda

(структура разделов в этой команде копируется из /dev/sda в /dev/sdb)

sgdisk -G /dev/sdb

(для GPT)

  1. Добавить новый диск в массив командами:

mdadm /dev/md0 -a /dev/sdb1
mdadm /dev/md1 -a /dev/sdb2
mdadm /dev/md2 -a /dev/sdb3

  1. Добавить загрузчик командой:

grub-install /dev/sdb

1. Введение
2. Небольшое отступление
3. Причины выхода RAID массивов из строя
4. Уровни RAID и принципы восстановления данных
5. Чего не стоит делать
6. Способы восстановления массивов
    — программный
    — аппаратный
7. Заключение

Введение

В этой статье мы рассмотрим принципы восстановление данных с RAID массивов в так называемых «простых» случаях, используя методы, которые доступны практически всем и не требуют глубоких знаний в области компьютерного «железа» и программного обеспечения. Случаи, которые можно отнести к «сложным», слишком отличаются друг от друга, и требуют индивидуального подхода, поэтому нет смысла описывать их в рамках одной статьи. Однако, можно обсудить конкретную ситуацию в предназначенном для этой цели разделе форума.

Внимание!!! Если потерянная информация критически важна, а Вы не являетесь специалистом в области восстановления данных, то настоятельно рекомендуем сразу обратиться в компанию, чьей основной областью деятельности является решение такого рода проблем.

Но если судьба данных волнует Вас меньше чем желание попробовать самостоятельно их восстановить, то эта статья для Вас.

Небольшое отступление

Рассматривая массивы, мы не можем не упомянуть о RAID контроллерах, которых сегодня великое множество, с разбросом цен от двадцати до нескольких тысяч долларов. Сравнение надёжности – вопрос сложный, но догадаться, что разница в цене «не из пальца высосана», думаю, может каждый.

Контроллеры бюджетного уровня, имеют упрощенный алгоритм работы и восстановления после сбоев, что выражается в большей вероятности потери информации. Дорогие модели заметно надёжнее, алгоритмы обработки ошибок более совершенны, но и они не безупречны.

Вопросы, касающиеся особенностей работы определённых моделей RAID контроллеров, Вы можете задать здесь.

RAID массив не является панацеей от потери информации. Практика показывает, что случаются как сбои в работе контроллера, так и сбои в работе жестких дисков, или же происходит одно вытекающее из другого. В любом случае, полностью полагаясь на надёжность массивов и не позаботившись о своевременном создании резервных копий, Вы рискуете однажды остаться без «надежно хранимой» информации.

Вероятность потери данных можно заметно уменьшить, регулярно отслеживая состояние массива и выполняя профилактические работы, но полностью свести к нулю таким образом её нельзя.

Причины выхода RAID массивов из строя

Наиболее распространённой причиной выхода из строя дисковых массивов является халатность системных администраторов, рассчитывающих на то, что «в одну воронку бомба дважды не падает». Во время работы, например RAID 5, выходит из строя один из дисков. Массив продолжает функционировать, но уже с заметным уменьшением скорости. Системный администратор, заметив сбой в работе накопителя, не очень спешит предпринимать активные действия, т.к. рассчитывает на то, что массив в таком виде еще сможет поработать некоторое время. Это порой оказывается заблуждением.

Если у Вас выходит из строя один из дисков, лучше всего немедленно произвести резервное копирование особо важных данных и потом, заменив один из накопителей, произвести ребилд массива.

Почему пришлось отметить то, что необходимо предварительно произвести бэкап? Потому что при попытке ребилда массива, иногда случается такое, что процесс «зависает». Как правило, это происходит, если в процессе чтениязаписи на одном из дисков обнаруживается бэд-блок, и контроллер не может вычитать информацию из сектора. В результате, после длительного и бесполезного ожидания, сервер перегружают. После чего выясняется, что массив полностью «развалился». Зависание в таких случаях, вероятнее всего, связано с некорректной обработкой исключительной ситуации. Как правило, описанное явление более характерно для дешевых моделей контроллеров, но встречается также и при использовании дорогого «железа».

Ещё одной распространённой причиной отказа массивов, является одновременный переход нескольких дисков в режим off-line. Как показала практика, чаще всего это происходит из-за проблем со SMART, или накопления бэд-блоков. Пока их количество не превысит определённого значения, диск работает корректно, но в один прекрасный момент массив перестает запускаться. И вроде бы все хорошо, и диск, судя по звуку, нормально стартует, и контроллером правильно определяется, но вот только непонятно, почему статус у диска off-line, массив не стартует и данные не отдает. Все из-за того, что контроллер не может считать необходимые данные с диска, либо, диагностируя SMART, определяет диск как «мертвый».

Можно привести ещё множество примеров сбоев в работе массивов, но что делать, если таки это свершилось? Информация потеряна, её необходимо восстановить.

Теория: Уровни RAID и принципы восстановления данных

Чаще всего сейчас используются массивы уровней 0, 1, 10, 5, 50. В последнее время наблюдается возрастающий интерес к шестому уровню.

Ниже приведена краткая информация о принципах работы массивов. Более подробно, об этом можно прочитать в соответствующей статье.

RAID 0 – использование чередующейся записи (страйп). Строится из двух и более накопителей. Информация записывается на все диски массива блоками определенного (8кб,16кб,32кб,64 кб, 128кб…) размера. Файлы, размер которых один блок, равномерно распределяются по двум или более дискам.

Из-за отсутствия избыточности или дублирования данных, при выходе из строя одного из дисков, восстановить информацию в полном объеме невозможно без использования данных с неисправного накопителя. Исключением будут лишь файлы, размер которых меньше размера блока. Для полноценного восстановления информации в таких случаях необходимо сначала снять данные с неисправного диска, после чего восстанавливать RAID.

В случаях, когда все диски исправны, а массив отказывается корректно работать, восстановление производится программными методами, которые описаны ниже.

RAID 1 – использование технологии зеркалирования (зеркало). Строится из двух дисков. Информация одновременно пишется на оба накопителя, каждый диск является полной копией своего собрата. В случае выхода из строя одного из дисков массив остается работоспособным.

Если происходит сбой в работе контроллера и массив перестает определяться, то восстановление данных можно выполнить, воспользовавшись советами из статьи «Простое восстановление данных». Для этого один из дисков следует подключить к компьютеру на прямую, минуя RAID контроллер. Если повезёт, после подключения Ваши данные могут оказаться доступными и без использования программ, описанных в вышеуказанной статье.

RAID 10 – это объединение уровня 0 с уровнем 1, т.е. два страйпа объединяются в зеркало. В массиве используются минимум 4 диска. Он может остаться работоспособным при выходе из строя одного из составляющих его RAID 0.

При возникновении проблемы, в первую очередь необходимо определить, с чем именно возникли неполадки – с контроллером или с дисками

Когда проблема на уровне контроллера, Вам следует определить, какие винчестеры являются парами, составляющими страйпы. Здесь важно не перепутать диски, т.к. это приведет к потерянному времени и отсутствию результата. После того, как это станет известно, берётся одна такая пара, и с неё снимается информация таким же образом, как и с самостоятельного RAID 0.

Во время эксплуатации RAID 10, случается и такое, что выходят из строя два диска. Здесь возможны следующие варианты:

1) Оба диска принадлежат к одному страйпу, контроллер корректно обрабатывает исключительную ситуацию, и массив продолжает функционировать нормально.

2) Оба диска принадлежат к одному страйпу, но массив разваливается. В этом случае просто берём исправный страйп, и программно собираем его (об этом ниже).

3) Диски принадлежат к разным страйпам, но в одном из них уцелел первый, а в другом второй накопитель. Попробуйте программно собрать из них RAID 0.

4) Вышли из строя одноимённые диски разных страйпов. Увы  Один из сломанных дисков придётся отремонтировать, или каким-либо ещё образом снять с него данные. Затем программная сборка.

RAID 5 – массивы с контролем четности. Основным его достоинством является распределение блоков информации и контрольных блоков четности по всем дискам массива. Для создания такого массива требуется минимум три диска. Объём массива равен сумме объёмов составляющих его накопителей, минус один диск. Блоки контроля чётности используются для вычисления недостающей информации при выходе из строя одного из накопителей, составляющих массив. Таким образом, при утрате одного из дисков данные не теряются, и массив может продолжать работу.

Но, случается и такое, что после выхода из строя одного накопителя, контроллер неверно обрабатывает исключительную ситуацию и массив перестает корректно работать, либо полностью «падает». Подобный сбой может возникнуть также во время выполняемого после замены диска перестроения массива. Иногда в течение короткого времени после смерти первого диска, выходит из строя ещё один.

Если массив не работает, и количество неисправных дисков не более одного, то его можно собрать программно, аналогично тому, как собирается RAID 0. При выходе из строя двух накопителей, сначала потребуется восстановить работоспособность, или снять информацию на исправный диск с одного из них, и лишь затем можно заняться сборкой массива.

Практика: Чего не стоит делать

Упомянем о том, чего не стоит делать, для того, чтобы окончательно не потерять данные.

Прежде всего, не стоит создавать новый массив из старых дисков в надежде, что он запустится, и будет работать как раньше. Это может и сработать, но достаточно высока вероятность того, что контроллером будут выполнены действия, которые приведут к уже необратимой потере данных.

Запуск инициализации тоже ни к чему хорошему не приведёт, так что рекомендуется от неё отказаться, а если это не возможно, то использовать только quick init.

Чем еще можно навредить массиву? Запуском чекдиска или чего-то подобного. А вообще лучше всего помнить, что при потере информации на RAID следует отказаться от любой записи на диски. Если Вы точно не знаете, приведут ли определенные действия к утрате информации или нет, то лучше либо проконсультироваться с тем, кто это знает, либо отказаться от их выполнения.

Способы восстановления RAID

Программное восстановление RAID на примере массивов 0 и 5 уровней

Основным способом восстановления данных с RAID является программная сборка образа массива. Т.е. при помощи программных средств блоки с разных дисков выстраиваются в нужной последовательности. Порядок блоков в массиве зависит от расположения дисков на каналах и от алгоритма работы самого контроллера.

Прежде чем приступать к работе, стоит создать клоны всех дисков, дабы обезопасить себя от неверных действий. Копии можно сделать как в виде файлов, так и непосредственно на другие накопители.

Работать с копиями или оригиналами – решать Вам. Я настоятельно рекомендую использовать в работе копии, так как если на исходных носителях находятся нечитаемые или нестабильные сектора, то работа с таким дисками может значительно ухудшить их состояние или же привести к полному отказу.

Итак, приступим.

Чтобы собрать массив, необходимо знать параметры, с которыми он был создан. Это размер блока и последовательность дисков.

Если они Вам известны, то можно считать, что половина работы уже сделана, и мы сберегли кучу время для других, более приятных дел. Если нет, то придётся их подобрать.

К счастью, существуют автоматические средства поиска конфигурации и восстановления RAID, такие например, как программа RAID Reconstructor. Если задать в ней уровень массива, то она попытается найти первоначальную последовательность дисков, размер блока и предположить алгоритм записи информации на диски.

Далее опишем пошаговые действия при использовании данной утилиты.

Вот перед нами окно запущенной программы.

main

Первый шаг необходимый для начала работы – это выбор типа массива. Он осуществляется в выпадающем списке «RAID TYPE».

Задав тип массива для сборки, необходимо указать количество дисков в окошке «#drives». После того, как Вы это сделаете, ниже подсветятся белым несколько полей (их количество будет равняться количеству указанных Вами дисков). Наводим на каждое из подсвеченных окон, кликаем правой кнопкой мыши и выбираем диски, на которых находился массив. После того, как диски выбраны – переходим к пункту «Block size».

Здесь необходимо указать размер блока, если он известен, если нет, то оставляем этот пункт без изменений и смело жмем на «Open drives» и затем сразу на кнопку «Analyze».

Перед Вами появляется новое окно. В случае работы с RAID 0 такое:

parametrs1

Или вот такое с RAID 5:

parametrs2

Итак, перед нами находится окно, в котором будут задаваться параметры поиска последовательности дисков, размера блока, и, если мы собираем RAID 5, parity rotations.

Если, как было сказано выше, Вы знаете о том, на каком контроллере был создан массив, какой был использован алгоритм записи информации на диски, а также размер блока, то исключаем ненужные параметры в окошках «Block size» и «Parity rotations». Если параметры неизвестны, оставляем все как есть. Нажимаем кнопку «Next».

Начался просчет всех возможных комбинаций. По окончанию, утилита подберёт Вам наиболее верный вариант, выдав в нижней части экрана что-то типа «Recommendation: choose entry 1». Если это произошло, можно вздохнуть спокойно. Правильный алгоритм найден.

Если же нет, значит, разрушения массива достаточно серьезные, необходимо увеличить количество секторов для пробы в соответствующем поле и повторить анализ. Если и это не помогло, значит, вам поможет только специалист.

Но, продолжим. Алгоритм найден. Дальше вариантов может быть несколько. Либо переписать образ массива в файл, либо записать его на диск или массив, либо создать файл виртуального образа и продолжить его разбор в утилите Captain Nemo, Get Data Back или DiscEditor. Что выбрать – решать Вам.

Еще, как вариант, используя знания о расположении дисков, алгоритме записи и размере блока, можно восстановить RAID, используя программу под названием UFS Explorer. Руководство по использованию данного продукта можно найти в документации к нему.

Когда массив собран правильно, и файловые системы на нём не имеют логических повреждений, Вы можете получить доступ к данным стандартными способами. В частности, если образ скопирован на жесткий диск, будет достаточно подключить его к компьютеру и перезагрузить ОС (если не поддерживается горячее подключение).

Напоминаю, что изложенным выше способом можно восстановить RAID только в самых простых случаях. Описание сложных ситуаций выходит за рамки данной статьи, и подразумевает наличие специфических знаний.

Например, у Вас может не получится восстановить RAID описанным методом в случае, когда контроллер записывает в начало диска конфигурационную информацию. Не указав программе количество секторов, занятых служебными данными, можно получить неверный результат автоматического подбора конфигурации массива. Эти конфигурационные блоки являются индивидуальными для каждой модели контроллера, и точно узнать их размер можно только исследовав содержимое начальных секторов.

Аппаратное восстановление RAID

Альтернативой созданию образа может быть аппаратная сборка. Сразу оговоримся — без знания алгоритма работы контроллера, либо без наличия резервной копии абсолютно всех дисков массива, пользоваться этим «шаманским методом» категорически не рекомендуется, т.к. можно внести такие изменения на диски, в результате которых Вы уже не получите данных, даже обратившись к специалистам.


Приведённая здесь информация даётся скорее в ознакомительных целях, чем в качестве руководства к действиям.

Суть метод заключается в том, что массив пересоздается на контроллере заново, с конфигурацией, полностью аналогичной прошлой.


Внимание. Если при создании будет запущен ребилд, существует большая вероятность безвозвратной потери данных.

Некоторые модели контроллеров после создания нового массива автоматически выполняют инициализацию, что также может привести к потере данных.

Если все диски массива были исправны, то есть вероятность того, что без каких-либо дополнительных действий Вы вновь получите доступ к информации. Также не исключено, что файловая система будет частично повреждена и придется еще поработать такими утилитами как R-Studio, Get Data Back либо чем-то аналогичным.

В случаях с массивами пятого уровня, когда один из дисков неисправен, можно создать массив с заменой диска на аналогичный, исправный. Когда массив будет создан (ребилд не проводить!), после запуска операционной системы, этот диск нужно будет отключить «на горячую».

В результате, есть вероятность что Вы можете получить доступ к своим данным сразу, либо посредством использования программ для логического восстановления информации.

Заключение

В заключении ещё раз отметим – если данные очень важны, отложите эксперименты на другое время, и обратитесь к специалистам. Советуем это, зная печальный опыт многих людей.

Основное условие распространения – сохранение ссылок, содержащихся в тексте данной статьи и подписи.

Комментарии

Пожалуйста ;)   И будет интересно чем закончилось, обязательно напишите удалось или нет.

спасибо за статью, сейчас как раз пробую востановить RAID 5, 4HDDx 320Gb
как что отпишу, действительно это очень долго, но я так понимаю просто не хватает ресурсов :-[ (жадные директора)
Валерию спасибо за консультации по телефону :)

Спасибо ;) Старался ;)

Большое спасибо за статью. Даный материал помог мне написать реферат на тему : «Обслуживание RAID — масивов ПК» с дисциплины «Диагностика КС» (возможно отзыв позволить быстрее нагуглить эту статью нуждающимся в ней).

::) написано грамотно и доступно! Побольше таких лекций! ::)

Нет, не педагог ;)

Наверное не педогог…А получился бы отличный…

Очень хорошая статья!!! Интересная и понеятная!
З.Ы. Вы случайно не педогог….?

Да, я сейчас планирую заняться написанием статьи о массивах. В этой статье не упоминали их т.к.  доступного софта для сборки массивов  уровней 1Е, 5Е пока еще нет, а статья сама именно о их восстановлении.

Толковая статья. Хорошо бы еще рассказать о массивах уровней 1Е, 5Е, 6 -они теперь часто встречаются

В современном мире все уже давно поняли какой ценностью обладает информация и какой огромный потенциал заложен в развитии IT технологий. Поскольку сервера и компьютеры могут выходить из строя – автоматически возник вопрос как обеспечить безопасность данных, так как их потеря важной информации может обанкротить целые компании, а убытки могут достигать многих миллионов. В свою очередь это привело в появлению RAID массивов – технологии, которая призвана предотвратить потерю информации путем объединения нескольких накопителей в один массив. Однако, как показала практика – RAID массивы также могут ломаться.

В этой статье мы рассмотрим главные причины выхода из строя RAID массивов.


Причины выхода из строя RAID массивов

Содержание

  1. История развития RAID
  2. Что такое деградированный режим RAID?
  3. Причины потери данных на RAID массивах
  4. Выход из строя RAID контроллера
  5. Ошибка пересборки/сборки RAID массива
  6. Выход накопителя из строя
  7. Отсутствие разделов массива
  8. Поломка сервера
  9. Что делать при сбое RAID массива или если RAID массив не собирается после перезагрузки?

История развития RAID

В самом начале развития компьютерных технологий все внимание было направлено на том, как сделать компьютеры максимально удобными для пользователя. В те времена не существовало понятия «персональный компьютер», так как наиболее часто компьютеры использовались в военной промышленности (но там совсем другая история, так как военная индустрия обладает своими наработками по безопасности информации и т.д.) и в больших корпорациях. Но в те времена функционал компьютеров был очень небольшим и с ними по большей части работали программисты.

Даже в 1970х годах, когда Apple и Microsoft начали свою деятельность – вопрос о безопасности данных не был на первом месте. Все изменилось с появлением и развитием интернета, который начал охватывать все больше и больше стран и позволял пользователям обмениваться информацией. Стоит также отметить, что к тому времени все уже привыкли к персональным компьютерам и поняли, что они способны сильно облегчить жизнь обрабатывая огромные массивы информации. С появлением цифровых фотоаппаратов и видеокамер для личного использования всем стало ясно, что персональные компьютеры так или иначе будут практически в каждом доме. После этого начался бум цифровой индустрии, который автоматически поднял вопрос о безопасности данных. Немало этому посодействовали большие компании, которые уже в те времена обладали большими серверами для хранения данных, от которых сильно зависел уровень их эффективности. Поэтому, в 1987 году были придуманы RAID массивы. Их главным заданием было избежание потерь важной информации и поскольку технология была эффективной и предлагала на выбор несколько вариантов защиты данных, в зависимости от потребностей пользователя – она быстро приобрела распространение. Примерно так выглядит блок дисков, объединенных в RAID:

Причины выхода из строя RAID массивов

Несмотря на то, что никакой стандартизации не проводилось – следующие уровни массива RAID были приняты как стандарт:

  • RAID 1 – зеркальный массив, при использовании которого каждый диск является полной копией другого;
  • RAID 2 – массив дисков, в котором используется код Хемминга;
  • RAID 3,4 — дисковые массивы с чередованием и выделенным диском чётности;
  • RAID 5 — дисковый массив с чередованием и отсутствием выделенного диска чётности;
  • RAID 0 – дисковый массив, главным заданием которого является увеличение скорости записи/чтения данных и полностью отсутствует избыточность;

Все остальные типы RAID массивов (такие как RAID 10, RAID 50 и т.д.) построены на вышеперечисленных типах RAID и так или иначе используют их концепцию.

Использование массивов RAID оказалось настолько эффективным, что на сегодняшний день практически все современные хранилища данных (сервера, NAS и т.д.) используют RAID массивы в том или ином виде.

Однако, несмотря всю надёжность такого решения стоит отметить, что вероятность потери данных все же осталась (хоть и сильно снизилась) так как даже RAID массивы иногда выходят из строя. Это может происходить по многим причинам и для того, чтобы узнать больше информации на эту тему читайте следующий пункт этой статьи.

Что такое деградированный режим RAID?

RAID массив как и обычные диски может подвергаться сбоям рода и в случае, если один из дисков выйдет из строя – весь массив перейдет в так называемый «Деградированный режим» В этом режиме данные остаются доступными и массив продолжает свою работу но с сильным снижением производительности. За переход массива в «деградированный режим» отвечает контроллер, который переводит массив в этот режим в случае обнаружение сбоев в работе любого из дисков массива или полного отсутствия одного из дисков. В случае перехода массива в деградированный режим пользователь увидит сообщение «DegradedArray event was detected on device md dev/md/1» либо «ARRAY IS DEGRADED – 1 disk is missing»

Причины выхода из строя RAID массивов

Также о переходе массива в деградированный режим может свидетельствовать символ «[U_]» при проверке состояния RAID массива в терминале. Обычно он находится возле поврежденного диска и означает, что он рассинхронизирован.

Причины выхода из строя RAID массивов

В этом случае следует немедленно заменить поврежденный диск так как в случае выхода из строя еще одного диска все данные массива будут потеряны.

Причины потери данных на RAID массивах

При использовании RAID массивов данные хранятся на таких же накопителях, что и в обычных компьютерах, которые могут ломаться и т.д. Технология RAID позволяет предотвратить потерю данных, но процесс восстановления информации может сильно затянуться, так как нередко при выходе из строя одного накопителя скорость работы всего RAID массива сильно снижается, особенно это актуально, когда речь заходит о терабайтах информации, как например на сервере. Кроме того, в некоторых случаях, чтобы заменить поврежденный носитель на новый – требуется отключение питания, что тоже не очень подходит для серверов. Поэтому лучше всего знать главные причины выхода из строя RAID массивов, чтобы иметь возможность предотвратить неприятности.

Итак, среди основных причин можно выделить следующие:

Выход из строя RAID контроллера

Контроллер RAID массива является одним из наиболее важных элементов, так как именно он отвечает за распределение данных между накопителями и позволяет работать с массивом как с единым накопителем. Если массив прекращает свою работу – наиболее часто это вызвано именно поломкой контроллера. Стоит отметить, что аппаратные контроллеры ломаются немного реже чем программные, но и стоят они на порядок дороже. Кроме того, между аппаратными контроллерами разных производителей нет совместимости. То есть, если вы приобрели контроллер от фирмы Supermicro то для восстановления работоспособности массива вам придется купить такую же модель. В противном случае вам придется создавать массив заново, что приведет к потере данных. Среди причин, из-за которых контроллер выходит и строя можно выделить такие как перепад напряжения или резкое отключение энергии. Это актуально как для аппаратных RAID контроллеров, так и для программных. Поэтому, обязательно позаботьтесь о бесперебойном источнике питания, чтобы обеспечить ваш RAID массив от возможных проблем.

Ошибка пересборки/сборки RAID массива

Во время каждой перезагрузки компьютера RAID массив пересобирается заново и от того, пройдет ли сборка нормально зависит дальнейшая работа массива. Если во время перестройки массива произойдёт перепад напряжения или другое форс-мажорное событие – массив не будет пересобран, и пользователь моет потерять данные.

Выход накопителя из строя

Все мы знаем, что главным предназначением RAID массивов является защита данных на случай выхода из строя одного или двух дисков. Обычно RAID массив без проблем справляется с этой задачей. Но иногда случаются ситуации, когда при выходе одного или нескольких дисков повреждаются данные на соседнем носителе и в такой ситуации RAID массив может оказаться полностью неработоспособным, что в свою очередь приведет к потере информации. Поэтому настоятельно рекомендуется периодически проверять состояние накопителей, из которых построен RAID массив.

Отсутствие разделов массива

Для обеспечения нормальной работы RAID массивов применяется технология чередования, главной задачей которой является распределение информации меду дисками в рамках одного логического тома. Это позволяет обеспечить высокий уровень производительности и защиты данных, однако, если механизм чередования будет повреждён – данные окажутся недоступными, даже если физически они в полной сохранности. Все дело в том, что RAID массив просто не смоет определить диски с данными и соответственно не сможет собрать массив для дальнейшей работы.

Поломка сервера

Хост компьютер, как и любой другой может поломаться или дать сбой. Это в свою очередь отобразится на RAID массиве. В 70% таких случаев данные оказываются недоступными.

Все вышеперечисленные поломки являются наиболее часто встречающимися причинами выхода из строя RAID массивов. Обычно, после таких поломок приходится использовать стороннее ПО для восстановления данных. О том, как восстановить данные на RAID массиве читайте в следующем пункте этой статьи.

Что делать при сбое RAID массива или если RAID массив не собирается после перезагрузки?

Если ваш RAID массив перестал работать после сбоя, либо не собирается после перезагрузки то для восстановления рабочего состояния без потери данных вам следует сначала извлечь данные массива, чтобы не повредить их во время восстановления работоспособности RAID. Для этого следует:

Шаг 1: Выключите питание вашего компьютера/сервера или NAS устройства и отсоедините накопители, из которых состоял RAID массив.

Шаг 2: Подсоедините эти диски в рабочему компьютеру (предварительно отключив его питание).

Шаг 3: Включите рабочий компьютер. Затем скачайте и установите програму RS RAID Retrieve следуя подсказкам мастера установки Windows.

Мы специально выбрали эту программу, так как она обладает широкими возможностями восстановления данных и интуитивно-понятным интерфейсом одновременно, а значит она отлично подходит как для неопытных пользователей, так и для профессионалов.

Шаг 4: Запустите программу RS RAID Retrieve дважды кликнув по иконке на рабочем столе. Перед вами откроется встроенный RAID конструктор.

Причины выхода из строя RAID массивов

Шаг 5: Выберите тип добавления RAID массива для сканирования. RS RAID Retrieve предлагает на выбор три варианта:

  • Автоматический режим – позволяет просто указать диски, из которых состоял массив, и программа автоматически определит их порядок, тип массива и остальные параметры;
  • Поиск по производителю – эту опцию следует выбрать, если вам известен производитель вашего RAID контроллера. Эта опция также автоматическая и не требует каких-либо знаний о структуре RAID массива. Наличие данных о производителе позволяют сократить время на построение массива, соответственно она быстрее предыдущей;
  • Создание вручную – эту опцию стоит использовать если вы знаете какой тип RAID массива вы используете. В этом случае вы можете указать все параметры, которые вам известны, а те, которых вы не знаете – программа определит автоматически.

После того, как выберите подходящий вариант – нажмите «Далее»

Причины выхода из строя RAID массивов

Шаг 6: Выберите диски, из которых состоял RAID массив и нажмите «Далее». После этого начнется процесс обнаружения конфигураций массива. После его завершения нажмите «Готово»

Причины выхода из строя RAID массивов

Шаг 7: В окне программы выберите ваш массив, щелкните по нему правой кнопкой мыши и выберите «Сохранить диск», а затем укажите место для сохранения копии диска и снова нажмите «Сохранить»

Причины выхода из строя RAID массивов
Причины выхода из строя RAID массивов

После этого начнется копирование файлов в указанное место. Вы также можете сохранить отдельные файлы или восстановить потерянные данные, если нужно. Для этого дважды щелкните на массиве и выберите тип сканирования. RS RAID Retrieve предлагает на выбор два типа сканирования: быстрое сканирование и полное сканирование. Первый вариант стоит выбрать если вы просто хотите скопировать файлы на другой носитель, а второй вариант выберите если хотите восстановить утерянные данные.

Также на этом этапе выберите тип файловой системы вашего массива. RS RAID Retrieve поддерживает ВСЕ современные файловые системы. Теперь, когда все настроено, нажмите «Далее».

Причины выхода из строя RAID массивов

Начнётся процесс сканирования массива, по завершении которого вы увидите прежнюю структуру файлов и папок.

Шаг 8: Выберите файл, который хотите восстановить и жажды на нем щелкните. Затем выберите место, куда хотите восстановить утерянный файл. Это может быть жесткий диск, ZIP-архив, или FTP-сервер. Главное, чтобы место записи нового файлов отличалось от дисков массива. Затем нажмите «Восстановить»

Причины выхода из строя RAID массивов

Теперь, когда данные находятся в безопасности – можно приступать к восстановлению работоспособности самого массива. В первую очередь нужно найти причину проблемы и устранить ее.

RAID массив мажет не пересобираться после перезагрузки по следующим причинам:

  • Ошибка в файле mdadm.conf (он находится не в том месте, или файл не существует);
  • Ошибка сборки;
  • Вирус или вредоносное ПО;
  • Поврежденные сектора на RAID-дисках;
  • Человеческая ошибка;
  • Другие причины;

Первые две причины являются достаточно распространенными, поэтому на них стоит обратить особое внимание.

Если же причина или сбой были на физическом уровне – замените вышедшие из строя нужные элементы.

Если вы не хотите тратить время на исправление программных ошибок – вы можете просто создать RAID массив заново, а затем скопировать данные обратно из сохраненной копии.

Часто задаваемые вопросы


Деградированный режим значит, что один или несколько дисков массива вышли из строя, но массив еще работает. В такой ситуации настоятельно рекомендуется найти причину и заменить вышедшие из строя части.


ДА. Благодаря продвинутым алгоритмам RS RAID Retrieve без проблем перестроит ваш массив и восстановит информацию. Процесс восстановления детально расписан на нашем сайте.


Первым делом вам следует проверить состояние дисков массива, так как именно из-за выхода накопителей из строя наблюдается сильное снижение производительности.


Эта ошибка означает, что один диск не работает. Поэтому, при возникновении такой ошибки проверьте состояние массива и замените нерабочие детали, в противном случае вы можете потерять информацию


Среди главных причин выхода из строя массива RAID можно выделить такие как выход из строя RAID контроллера, выход из строя одного или нескольких дисков, поломки сервера/компьютера/NAS, отсутствие разделов массива и т.д. Более детально читайте на нашем сайте.

Модераторы: Trinity admin`s, Free-lance moderator`s

ram9

Power member
Сообщения: 37
Зарегистрирован: 21 янв 2007, 04:59
Откуда: Биробиджан

Отказал один диск в RAID 5

Отказал один диск в RAID 5 состоящий из 5 дисков по причине дефектных секторов, в результате этот диск вылетел из массива. Прикупили новый диск, теперь вот думаем как его вставить в массив. В программе IBM ServerRAID Manager видно этот диск, но в массив он не входит, диск из программы проверили, теперь есть на нем опция инициализации, не знаю нужно-ли ее делать, там выходит предупреждение об уничтожении всех данных (не понял на этом диске или на всем массиве) не стал делать. На массиве есть опция «Расширение и редактирование массива», тоже боюсь делать т.к. на оставшемся массиве есть нужные данные. Еще на массиве есть опция «Синхронизация».
Подскажите правильный порядок действия для ввода нового диска в массив.


tjSolomon

Junior member
Сообщения: 9
Зарегистрирован: 22 янв 2012, 09:18
Откуда: Ижевск

Re: Отказал один диск в RAID 5

Сообщение

tjSolomon » 22 янв 2012, 12:43

ram9 писал(а):Подскажите правильный порядок действия для ввода нового диска в массив.

Правильный порядок действий всегда один для любых массивов и конфигураций:
1. Архивирование данных с массива. (Крайне рекомендую использовать как минимум 2 инструмента (например штатную архивацию и еще какое либо сторонее програмное обеспечение))
2. Далее устанавливайте новый диск заменив им старый, т.е. в тот же разъем.
3. Перезагружаете сервер нажимаете комбинацию клавиш Ctrl+A (для некоторых конфигураций используется Ctrl+S или Ctrl+M)
4. Сообщить утилите что этот жесткий диск Online (как правило система его автоматически считает мертвым, т.е. Dead)
5. Затем затем запустить операцию Rebuild (пересборка массива с учетом замены)
6. На всякий случай сделать Consistens Check (проверка на схождение массива)
7. Если все сделано правильно радоваться жизни.
В данной инструкции есть свои недоработки и недоговорки:
1. Есть оборудование которое само определяет что сбойный диск заменен и предлагает провести все операции
2. Все очень зависит от настроек контролеров
3. Если Вы чего то не понимаете (тем более если уже уперлись в п.1), лучше обратится к специалистам
4. Ни я ни компания 3niti, не несет ответственности за порчу данных и оборудования, в следствии ваших действий. Делайте на свой страх и риск.
Примечаение:
НИКОГДА НЕ ДЕЛАТЬ инициализацию, если только не планируете продавать сервер с дисками, иначе капут инфе.


aekvulture

Junior member
Сообщения: 18
Зарегистрирован: 21 янв 2012, 18:37
Откуда: Москва

Re: Отказал один диск в RAID 5

Сообщение

aekvulture » 23 янв 2012, 13:08

Ну бывают ситуации когда нужно проинициализировать новый диск, НЕ массив и только после этого рейд сожрёт его для ребилда. Бывало что пока не проинициализируешь диск, опция create (dedicated либо global) hot spare тупо не доступна. Ну а делать бекап перед операциями с рейдом обязательно надо.


Аватара пользователя

gs

Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Отказал один диск в RAID 5

Сообщение

gs » 23 янв 2012, 13:45

Как правило, если диск чистый (ранее не был в другом массиве и без данных), то достаточно просто воткнуть его на место дохлого на горячую — ребилд обычно запускается автоматически (если его ранее в настройках не запретили). После бэкапа конечно.


Вернуться в «Массивы — Технические вопросы, решение проблем.»


Перейти

  • Серверы
  • ↳   Серверы — Конфигурирование
  • ↳   Конфигурации сервера для 1С
  • ↳   Серверы — Решение проблем
  • ↳   Серверы — ПО, Unix подобные системы
  • ↳   Серверы — ПО, Windows система, приложения.
  • ↳   Серверы — ПО, Базы Данных и их использование
  • ↳   Серверы — FAQ
  • Дисковые массивы, RAID, SCSI, SAS, SATA, FC
  • ↳   Массивы — RAID технологии.
  • ↳   Массивы — Технические вопросы, решение проблем.
  • ↳   Массивы — FAQ
  • Майнинг, плоттинг, фарминг (Добыча криптовалют)
  • ↳   Proof Of Work
  • ↳   Proof Of Space
  • Кластеры — вычислительные и отказоустойчивые ( SMP, vSMP, NUMA, GRID , NAS, SAN)
  • ↳   Кластеры, Аппаратная часть
  • ↳   Deep Learning и AI
  • ↳   Кластеры, Программное обеспечение
  • ↳   Кластеры, параллельные файловые системы
  • Медиа технологии, и цифровое ТВ, IPTV, DVB
  • ↳   Станции видеомонтажа, графические системы, рендеринг.
  • ↳   Видеонаблюдение
  • ↳   Компоненты Digital TV решений
  • ↳   Студийные системы, производство ТВ, Кино и рекламы
  • Инфраструктурное ПО и его лицензирование
  • ↳   Виртуализация
  • ↳   Облачные технологии
  • ↳   Резервное копирования / Защита / Сохранение данных
  • Сетевые решения
  • ↳   Сети — Вопросы конфигурирования сети
  • ↳   Сети — Технические вопросы, решение проблем
  • Общие вопросы
  • ↳   Обсуждение общих вопросов
  • ↳   Приколы нашего IT городка
  • ↳   Регистрация на форуме

Понравилась статья? Поделить с друзьями:
  • Ошибка жесткого диска битый сектор
  • Ошибка жесткого диска windows 7 как отключить
  • Ошибка жесткого диска t time
  • Ошибка жесткого диска stop 0x0000007b
  • Ошибка жесткого диска reallocated sectors count