Направления
|
|
Техническое обслуживание
|
Несколько лет назад о необходимости решения этой проблемы заговорили практически все основные производители жестких дисков и представили новую технологию, названную S.M.A.R.T. С помощью данной технологии была решена часть проблем, связанных в первую очередь с оценкой технического состояния накопителей. В последствии добавлена возможность контроля температуры накопителя, поскольку она также играет не маловажную роль в работоспособности и техническом состоянии жесткого диска. Суть S.M.A.R.T. (Self-Monitoring Analysis and Reporting Technology) заключается в том, что диск самостоятельно отслеживает состояние своей работоспособности и способен заранее предупредить пользователя о нарушениях и рассчитать примерный ресурс наработки. Данная технология представляет собой набор мини-программ, которые являются частью микрокода накопителя и определяют поддерживаемые им диагностические функции. Это набор атрибутов, отражающих состояние жесткого диска, а также функции самотестирования (self test) и ведения журналов — отчетов, в которых протоколируются все значения параметров и результаты тестов. К сожалению, в настоящий момент нет полной официальной документации или стандарта на технологию S.M.A.R.T. В связи с этим производители не публикуют все характеристики и поддерживаемые функции S.M.A.R.T. в документации к своим продуктам. Разумеется, и для широкой общественности эти данные они не разглашают. Существует лишь некая попытка стандартизации, включающая в себя обязательный минимум поддерживаемых функций, который весьма кратко описан в последнем стандарте ATA/ATAPI-6. Впервые концептуальные основы будущей технологии были разработаны и предложены тремя компаниями — Western Digital, Seagate и ныне не существующей Quantum. Другие компании, такие как IBM (сегодня подразделение Hitachi Global Storage Technologies) и Maxtor, подключились позднее, как раз в тот момент, когда разрабатывалась уже вторая версия технологии S.M.A.R.T. Инженеры компания IBM первыми предложили методику полной самодиагностики накопителя, которая теперь носит название Extended Self Test. Первое поколение, S.M.A.R.T. I, позволяло осуществлять мониторинг только жизненно важных параметров, оценка которых происходила периодически по команде пользователя. В технологии S.M.A.R.T. II появилась возможность фоновой проверки поверхности, которая выполнялась накопителем автоматически в то время, когда он не использовался. Также была добавлена функция протоколирования ошибок и создания отчетов. Существующая сегодня версия S.M.A.R.T. III способна обнаруживать дефекты поверхности настолько прозрачно, что пользователь этого даже не заметит. В будущем будет стандартизированновый вариант технологии S.M.A.R.T., который в данный момент носит рабочее название «1024 S.M.A.R.T.». Разумеется, вся техническая информация по нему засекречена. Стоит полагать, что, скорее всего, изменятся некоторые важные параметры. Например, будет увеличен объем архива журналов. Это вызвано тем, что физического пространства становится все меньше и меньше, поскольку с течением времени количество протоколируемых параметров возрастало, а свободное место для журналов оставалось прежним. Кроме этого, надо полагать, изменения коснутся и алгоритмов анализа показаний. Возможно, в конструкцию жесткого диска будут добавлены какие-либо дополнительные сенсоры или счетчики, показания с которых также потребуется получать и расшифровывать. Сегодня все компании занимающиеся производством жестких дисков поддерживают технологию S.M.A.R.T. Однако каждая из них предлагает свое название для текущей версии технологии. В частности, Seagate использует такую формулировку — Enhanced S.M.A.R.T. Одной из основных функций системы мониторинга является возможность самоконтроля состоя-ния жесткого диска. Выполнение данной тестовой процедуры может быть осуществлено как са-мим накопителем, не занятым клиентским заданием, так и пользователем, осуществляющим проверку атрибутов S.M.A.R.T. посредством специализированного программного обеспечения. В любом случае, чтобы начать принудительный процесс проверки, следует подать интерфейсную команду Smart Execute Offline Immediate, которая впервые появилась лишь во второй версии стандарта. По прошествии некоторого времени, требуемого для получения финального результата, накопитель сохраняет полученные данные в специализированных атрибутах и журналах, если, конечно, конкретно взятый накопитель поддерживает возможность работы с журналами. Результаты тестирования используются накопителем для сравнения с полученными ранее данными. Таким образом, можно наблюдать тенденцию изменения атрибутов, что позволит делать выводы о примерном выходе из строя жесткого диска в целом. Технология Self Test предусматривает два варианта тестирования: автономный (называемый иначе Offline) и монопольный (Captive). Различия между двумя этими режимами достаточно просты и очевидны. В первом случае выполнение проверки осуществляется в фоновом режиме, а во втором — в режиме реального времени. Процесс фоновой проверки выглядит следующим образом: накопитель заранее сообщает об успешном завершении тестирования, причем, как правило, до его фактического исполнения, что позволяет тем самым не выставлять атрибут интерфейса «Busy», делая накопитель доступным для других команд в это же самое время. В другом случае при монопольном режиме выставляется интерфейсный сигнал «Busy», что приводит к перераспределению приоритетов команд, и основной уже будет являться именно команда тестирования. Пожалуй, наиболее важной составляющей технологии S.M.A.R.T. можно считать возможность контроля состояния поверхности носителя. Автономное сканирование поверхности (Offline Read Scanning) является одной из функций подпрограммы автономного сбора данных о состоянии накопителя (OffLine Data Collection).Принцип работы таков: накопитель последовательно производит чтение всей поверхности диска, определяя ненадежные секторы. Причем в случае нахождения плохого сектора накопитель подает команду на его замену из резервной области (Spare area), предотвращая тем самым потерю пользовательских данных. Если во время выполнения сканирования накопитель получает команду по интерфейсу, процесс сканирования прерывается и накопитель приступает к обработке поступившей команды. Вне зависимости от модели конкретного устройства оценка работоспособности осуществляется посредством сравнения определенных параметров жесткого диска, называемых атрибутами надежности. Каждый атрибут имеет свой уникальный идентификатор — ID. Он характеризует некоторую реальную величину, например количество изношенных секторов или общее время работы, на основании которой можно делать выводы о надежности конструкции в целом. Большинство жестких дисков, поддерживающих S.M.A.R.T., имеют от 3 до 30 атрибутов. Их состав и количество определяются исключительно производителями индивидуально для каждого типа винчестеров. Значения всех атрибутов надежности (value) находятся в диапазоне от 1 до 253 включительно. При производстве жесткого диска каждый атрибут получает максимальное значение. Постепенно, по мере износа накопителя, значения атрибутов надежности уменьшаются. Логично предположить, что высокое значение атрибутов говорит о низкой вероятности выхода жесткого диска из строя, и, наоборот, низкое значение атрибутов - о низкой его надежности и высокой вероятности скорого отказа. Диапазон изменения атрибутов не стандартизирован. Каждый производитель вносит свою лепту в историю. Так, например, для продуктов, произведенных компанией Hitachi Data Storage, максимальная величина каждого атрибута составляет 100 единиц. Для Samsung и Maxtor это число равно 253. Наибольшую путаницу внесли инженеры компании Western Digital, поскольку для своих продуктов они используют довольно странную методику измерений. Так, верхняя граница первого атрибута надежности составляет 200 единиц, а остальных — 100. Для каждого атрибута надежности разработчиками жестких дисков определяется пороговое значение, называемое Threshold, по достижении которого устройство можно считать небезопасным для хранения данных. Особо стоит отметить возможность предсказания даты примерного выхода из строя. Обычно этот параметр называется T.E.C., или Threshold Exceeded Condition, и приводится в последнем столбце таблицы S.M.A.R.T. При первом запуске жесткого диска этот параметр принимает значение Unknown и остается таковым до изменения атрибута в худшую сторону. Большинство современных накопителей поддерживают функцию протоколирования событий, произошедших с устройством на протяжении определенного времени работы. Обычно сохраняется информация о пяти последних ошибках и пяти поступивших в накопитель командах, предшествующих возникновению этой ошибки, а также другая необходимая информация. Каждая запись данных датируется по внутренним часам накопителя, характеризующим, как правило, общее время наработки. Некоторые модели поддерживают и дополнительные журналы, что, разумеется, сказывается на количестве запоминаемых событий. Строго говоря, определенного стандарта на записи нет, поскольку их структура, размер и назначение устанавливаются фирмой- производителем. |
