Оценка технического состояния жестких дисков с использованием технологии S. Система S., анализ показателей S.M.A.R.T. жесткого диска Smart hdd расшифровка

HDDScan

Программа предназначена для проверки жестких дисков и SSD на битые сектора, просмотра S.M.A.R.T. атрибутов, изменения специальных настроек, таких как: управление питанием, старт/стоп шпинделя, регулировка акустического режима и др. Предусмотрен вывод значения температуры накопителя в панель задач.

Возможности и требования

Поддерживаемые типы накопителей:
  • HDD с интерфейсом ATA/SATA.
  • HDD с интерфейсом SCSI.
  • HDD с интерфейсом USB (см. Приложение А).
  • HDD с интерфейсом FireWire или IEEE 1394 (см. Приложение А).
  • RAID массивы с ATA/SATA/SCSI интерфейсом (только тесты).
  • Flash накопители с интерфейсом USB (только тесты).
  • SSD с интерфейсом ATA/SATA.
Тесты накопителей:
  • Тест в режиме линейной верификации.
  • Тест в режиме линейного чтения.
  • Тест в режиме линейной записи.
  • Тест в режиме чтения Butterfly (искусственный тест случайного чтения)
S.M.A.R.T.:
  • Чтение и анализ S.M.A.R.T. параметров с дисков с интерфейсом ATA/SATA/USB/FireWire.
  • Чтение и анализ таблиц логов с дисков с интерфейсом SCSI.
  • Запуск S.M.A.R.T. тестов на накопителях с интерфейсом ATA/SATA/USB/FireWire.
  • Монитор температуры на накопителях с интерфейсом ATA/SATA/USB/FireWire/SCSI.
Дополнительные возможности:
  • Чтение и анализ идентификационной информации с накопителей с интерфейсом ATA/SATA/USB/FireWire/SCSI.
  • Изменение параметров AAM, APM, PM на накопителях с интерфейсом ATA/SATA/USB/FireWire.
  • Просмотр информации о дефектах на накопителя с интерфейсом SCSI.
  • Старт/стоп шпинделя на накопителях с интерфейсом ATA/SATA/USB/FireWire/SCSI.
  • Сохранения отчетов в формате MHT.
  • Печать отчетов.
  • Поддержка «скинов».
  • Поддержка командной строки.
  • Поддержка SSD накопителей.
Требования:
  • Операционная система: Windows XP SP3, Windows Server 2003, Windows Vista, Windows 7, Windows 8, Windows 10(НОВОЕ).
  • Программа не должна запускаться с накопителя, работающего в режиме «только для чтения».

Интерфейс пользователя

Основной вид программы при запуске

Рис. 1 Основной вид программы

Элементы управления главного окна:

  • Select Drive – выпадающий список, который содержит все поддерживаемые накопители в системе. Выводится модель накопителя и серийный номер. Рядом находится иконка, определяющая предположительный тип накопителя.
  • Кнопка S.M.A.R.T. – позволяет получить отчет о состоянии драйва, сделанный на основе атрибутов S.M.A.R.T.
  • Кнопка TESTS – показывает всплывающее меню с выбором тестов чтения и записи (см. Рис. 2).
  • Кнопка TOOLS – показывает всплывающее меню для выбора доступных элементов управления и функций диска (см. Рис. 3).
  • Кнопка More – показывает раскрывающееся меню с элементами управления программой.

Когда вы нажимаете кнопку TESTS, всплывающее меню предлагает вам один из тестов. Если вы выберете какой-либо тест, то будет открыто диалоговое окно теста (см. Рис. 4).

Рис. 2 Меню тестов

Когда вы нажимаете кнопку TOOLS, всплывающее меню предложит вам выбрать один из следующих вариантов:

Рис. 3 Меню функций

  • DRIVE ID – генерирует отчет идентификационной информации.
  • FEATURES – открывает окно дополнительных возможностей программы.
  • S.M.A.R.T. TEST – открывает окно S.M.A.R.T. тестов: Short, Extended, Conveyance.
  • TEMP MON – запускает задачу мониторинга температуры.
  • COMMAND – открывает окно построения командной строки.

Диалоговое окно теста

Рис. 4 Диалоговое окно теста

Элементы управления:

  • Поле FIRST SECTOR – начальный логический номер сектора для тестирования.
  • Поле SIZE – количество логических номеров сектора для тестирования.
  • Поле BLOCK SIZE – размер блока в секторах для тестирования.
  • Кнопка Previous – возвращает к основному окну программы.
  • Кнопка Next – добавляет тест в очередь задач.
Возможности и ограничения тестов:
  • Может быть запущен только один тест поверхности в одно время. Это связано с тем, что автору программы не удалось пока получить стабильных качественных результатов при запуске 2-х и более тестов одновременно (на разных накопителях).
  • Тест в режиме Verify может иметь ограничение на размер блока в 256, 16384 или 65536 секторов. Это связано с особенностями работы Windows.
  • Тест в режиме Verify может неправильно работать на USB/Flash накопителях.
  • При тестировании в режиме Verify накопитель считывает блок данных во внутренний буфер и проверяет их целостность, передача данных через интерфейс не происходит. Программа замеряет время готовности накопителя после выполнения этой операции после каждого блока и выводит результаты. Блоки тестируются последовательно - от минимального к максимальному.
  • При тестировании в режиме Read накопитель считывает данные во внутренний буфер, после чего данные передаются через интерфейс и сохраняются во временном буфере программы. Программа замеряет суммарное время готовности накопителя и передачи данных после каждого блока и выводит результаты. Блоки тестируются последовательно - от минимального к максимальному.
  • При тестировании в режиме Erase программа подготавливает блок данных заполненных специальным паттерном с номером сектора и передает данные накопителю, накопитель записывает полученный блок (информация в блоке безвозвратно теряется! ). Программа замеряет суммарное время передачи и записи блока и готовности накопителя после каждого блока и выводит результаты. Блоки тестируются последовательно - от минимального к максимальному.
  • Тестирование в режиме Butterfly Read аналогично тестированию в режиме Read. Разница заключается в порядке тестирования блоков. Блоки обрабатываются парами. Первый блок в первой паре будет Блок 0. Второй блок в первой паре будет Блок N, где N это последний блок заданного участка. Следующая пара будет Блок 1, Блок N-1 и т.д. Завершается тестирование в середине заданного участка. Этот тест замеряет время чтения и позиционирования.

Окно управления задачами

Рис. 5 Менеджер задач

Это окно содержит очередь задач. Сюда попадают все тесты, которые запускает программа, а также монитор температуры. Менеджер позволяет удалять тесты из очереди. Некоторые задачи можно ставить на паузу или останавливать.

Двойной клик на записи в очереди вызывает окно с информацией о текущей задаче.

Информационное окно тестов

Окно содержит информацию о тесте, позволяет ставить тест на паузу или останавливать, а также генерирует отчет.

Вкладка Graph:

Содержит информацию зависимости скорости тестирования от номера блока, которая представлена в виде графика.

Рис. 6 Вкладка Graph

Вкладка Map:

Содержит информацию о зависимости времени тестирования от номера блока, которая представлена в виде карты.

Рис. 7 Вкладка Map

Вы можете выбрать «Block Processing Time» (Время обработки блока) в миллисекундах. Каждый протестированный блок, занявший время дольше, чем «Block Processing Time», будет занесен в журнал на вкладке «Report».

Вкладка Report:

Содержит информацию о тесте и всех блоках, время тестирования которых больше, чем «Block Processing Time».

Рис. 8 Вкладка Report

Идентификационная информация

Отчет содержит информацию об основных физических и логических параметрах накопителя.

Отчет можно распечатывать и сохранять в файл MHT.

Рис. 9 Пример окна идентификационной информации

S.M.A.R.T. отчет

Отчет содержит информацию о производительности и «здоровье» накопителя в виде атрибутов. Если, по мнению программы, атрибут в норме, то рядом с ним стоит иконка зеленого цвета. Желтым обозначаются атрибуты, на которые следует обратить внимание особенно, как правило, они указывают на какую-либо неисправность накопителя. Красным обозначаются атрибуты, находящиеся за пределами нормы.

Отчеты можно распечатывать или сохранять в файл типа MHT.

Рис. 10 Пример отчета S.M.A.R.T.

Монитор температуры

Позволяет оценивать температуру накопителя. Информация выводится в панель задач, а также в специальное окно информации о тесте. Рис. 11 содержит показания для двух накопителей.

Рис. 11 Монитор температуры в панели задач

Для ATA/SATA/USB/FireWire накопителей окно информации содержит 2 значения. В панель задач выводится второе значение.

Первое значение берется из атрибута Airflow Temperature, второе значение берется из атрибута HDA Temperature.

Рис. 12 Монитор температуры для ATA/SATA диска

Для SCSI накопителей окно информации содержит 2 значения. В панель задач выводится второе значение.

Первое значение содержит максимально допустимую температуру для накопителя, второе показывает текущую температуру.

Рис. 13 Монитор температуры для SCSI диска

S.M.A.R.T. тесты

Программа позволяет запускать три типа S.M.A.R.T. тестов:

  1. Short test – длится обычно 1-2 минуты. Проверяет основные узлы накопителя, а также сканирует небольшой участок поверхности накопителя и сектора, находящиеся в Pending-List (сектора, которые могут содержать ошибки чтения). Тест рекомендуется для быстрой оценки состояния накопителя.
  2. Extended test – длится обычно от 0.5 до 60 часов. Проверяет основные узлы накопителя, а также полностью сканирует поверхность накопителя.
  3. Conveyance test – длится обычно несколько минут. Проверяет узлы и логи накопителя, которые могут указывать на неправильное хранение или перевозку накопителя.

SMART тест можно выбрать из диалогового окна SMART Tests, вызываемого нажатием кнопки SMART TESTS.

Рис. 14 Диалоговое окно SMART Tests

После выбора тест будет добавлен в очередь «Задачи». Информационное окно S.M.A.R.T. теста может отображать состояние выполнения и завершения задачи.

Рис. 15 Информационное окно S.M.A.R.T. теста

Дополнительные возможности

Для ATA/SATA/USB/FireWire накопителей программа позволяет изменять некоторые параметры.

  1. AAM – функция управляет шумом накопителя. Включение это функции позволяет уменьшить шум накопителя за счет более плавного позиционирования головок. При этом накопитель немного теряет в производительности при случайном доступе.
  2. APM – функция позволяет экономить питание накопителя за счет временного снижения скорости вращения (или полной остановки) шпинделя накопителя в момент простоя.
  3. PM – функция позволяет настроить таймер остановки шпинделя на определенное время. При достижении этого время шпиндель будет остановлен при условии, что накопитель находится в режиме простоя. Обращение к накопителю любой программой вызывает принудительное раскручивание шпинделя и сбрасывание таймера на ноль.
  4. Программа также позволяет останавливать или запускать шпиндель накопителя принудительно. Обращение к накопителю любой программой вызывает принудительное раскручивание шпинделя.

Рис. 16 Информационное окно дополнительных возможностей ATA/SATA накопителя

Для SCSI накопителей программа позволяет просматривать дефект-листы и запускать/останавливать шпиндель.

Рис. 17 Информационное окно дополнительных возможностей SCSI накопителя

Использование командной строки

Программа может строить командную строку для управления некоторыми параметрами накопителя и сохранять эту строку в.bat или.cmd файл. При запуске такого файла программа вызывается в фоновом режиме, изменяет параметры накопителя в соответствии с заданными и автоматически закрывается.

Рис. 18 Окно построения командной строки

Приложение А: Накопители с интерфейсом USB/FireWire

Если накопитель поддерживается программой, то для него доступны тесты, S.M.A.R.T. функции и дополнительные возможности.

Если накопитель не поддерживается программой, то для него доступны только тесты.

Накопители с интерфейсом USB/FireWire, которые поддерживает программа:

Maxtor Personal Storage (USB2120NEP001)
Накопитель Микросхема контроллера
StarTeck IDECase35U2 Cypress CY7C68001
WD Passpopt Неизвестно
Iomega PB-10391 Неизвестно
Seagate ST9000U2 (PN: 9W3638-556) Cypress CY7C68300B
Seagate External Drive (PN: 9W286D) Cypress CY7C68300B
Seagate FreeAgentPro Oxford
CASE SWEXX ST010 Cypress AT2LP RC7
Vantec CB-ISATAU2 (adapter) JMicron JM20337
Beyond Micro Mobile Disk 3.5" 120GB Prolific PL3507 (только USB)
Maxtor Personal Storage 3100 Prolific PL2507
In-System ISD300A
SunPlus SPIF215A
Toshiba USB Mini Hard Drive Неизвестно
USB Teac HD-15 PUK-B-S Неизвестно
Transcend StoreJet 35 Ultra (TS1TSJ35U-EU) Неизвестно
AGEStar FUBCP JMicron JM20337
USB Teac HD-15 PUK-B-S Неизвестно
Prolific 2571
All Drives That Support SAT Protocol Majority of Modern USB controllers

Накопители с интерфейсом USB/FireWire, которые возможно поддерживает программа:

Накопитель Микросхема контроллера
AGEStar IUB3A Cypress
AGEStar ICB3RA Cypress
AGEStar IUB3A4 Cypress
AGEStar IUB5A Cypress
AGEStar IUB5P Cypress
AGEStar IUB5S Cypress
AGEStar NUB3AR Cypress
AGEStar IBP2A2 Cypress
AGEStar SCB3AH JMicron JM2033x
AGEStar SCB3AHR JMicron JM2033x
AGEStar CCB3A JMicron JM2033x
AGEStar CCB3AT JMicron JM2033x
AGEStar IUB2A3 JMicron JM2033x
AGEStar SCBP JMicron JM2033x
AGEStar FUBCP JMicron JM2033x
Noontec SU25 Prolific PL2507
Transcend TS80GHDC2 Prolific PL2507
Transcend TS40GHDC2 Prolific PL2507
I-O Data HDP-U series Неизвестно
I-O Data HDC-U series Неизвестно
Enermax Vanguard EB206U-B Неизвестно
Thermaltake Max4 A2295 Неизвестно
Spire GigaPod SP222 Неизвестно
Cooler Master - RX-3SB Неизвестно
MegaDrive200 Неизвестно
RaidSonic Icy Box IB-250U Неизвестно
Logitech USB Неизвестно

Накопители с интерфейсом USB/FireWire, которые не поддерживает программа:

Накопитель Микросхема контроллера
Matrix Genesis Logic GL811E
Pine Genesis Logic GL811E
Iomega LDHD250-U Cypress CY7C68300A
Iomega DHD160-U Prolific PL-2507 (модифицированная прошивка)
Iomega
Maxtor Personal Storage 3200 Prolific PL-3507 (модифицированная прошивка)
Maxtor One-Touch Cypress CY7C68013
Seagate External Drive (PN-9W2063) Cypress CY7C68013
Seagate Pocket HDD Неизвестно
SympleTech SympleDrive 9000-40479-002 CY7C68300A
Myson Century CS8818
Myson Century CS8813

Приложение Б: SSD накопители

Поддержка того или иного накопителя по большей мере зависит от установленного на нем контроллера.

Накопители SSD, которые поддерживает программа:

Накопитель Микросхема контроллера
OCZ Vertex, Vertex Turbo, Agility, Solid 2 Indilinx IDX110M00
Super Talent STT_FTM28GX25H Indilinx IDX110M00
Corsair Extreme Series Indilinx IDX110M00
Kingston SSDNow M-Series Intel PC29AS21AA0 G1
Intel X25-M G2 Intel PC29AS21BA0 G2
OCZ Throttle JMicron JMF601
Corsair Performance Series Samsung S3C29RBB01
Samsung SSDs Samsung Controllers
Crucial and Micron SSDs Some Marvell Controllers

Накопители SSD, которые возможно поддерживает программа:

Дополнительная информация

Версию HDDScan 3.3 можно скачать версию 2.8


Поддержка:

Новейшие накопители представлены интеллектуальными устройствами, способными анализировать свое состояние и своевременно информировать пользователя о неполадках. Для этого аппаратная часть включает оригинальную опцию S.M.A.R.T.

Назначение технологии SMART.

Львиная доля дисковых накопителей последних лет, функционирует с использованием технологии S.M.A.R.T. Сочетание расшифровывается как self-monitoring, analysis and reporting technology , что на русском звучит как механизм самоконтроля, анализа и отчетности. Ее первые разработки увидели свет в 1995 году и с тех пор технология постоянно совершенствуется.

С момента производства дисковый накопитель начинает считывать свое текущее состояние, определяя его с помощью специальных параметров или атрибутов. Они располагаются , доступ к которой имеет лишь встроенная программа. Просмотреть параметры позволяет отдельное ПО, чаще всего представленное утилитами от разработчиков конкретного жесткого диска. Через них в накопитель подаются вводные, после чего в журнале статистики появится информация о текущем состоянии диска.

В процессе эксплуатации накопителя, данные представленные в рамках параметров значения постоянно меняются. Параметры проходят путь с максимальных показателей, гарантирующих высокую производительность и эффективность до минимальных значений, связанных с высокой вероятностью выхода накопителя из строя.

Все представленные в рамках технологии S.M.A.R.T атрибуты имеет цифровой идентификатор. Как правило, он общий для накопителей различных версий, однако имеют место исключения. В данном отношении выделяется цифра 7, демонстрирующая ошибки в размещении головок на дисковую поверхность. Для цифровой идентификатор неактуален. В отличие от 7-ки, цифра 9, которая показывает общий период непосредственной работы накопителя за срок использования, ее поддерживают все типы дисков HDD и SSD.

Структура параметров, представлена несколькими полями, демонстрирующих состояние диска и его разделов в конкретный период. Предназначенные для считывания информации утилиты выводят на экран следующие параметры:

  • ID – идентификационный номер
  • name – название атрибута
  • VAL – его текущее состояние
  • Wrst – наихудший показатель за период эксплуатации
  • Thresh – минимальный порог работоспособности

Показатели S.M.A.R.T

Существует несколько самых распространенных параметров. Они, за редким исключением, объединяют накопители большинства производителей, итак:

  • Raw Read Error Rate – показатель числа ошибок считывания
  • Throughput Performance – рабочая эффективность. Ее снижение указывает на необходимость замены
  • Spin Up Time – период развертывания накопителя в рабочее состояние. Рост параметра демонстрирует изношенность или недостаток питания
  • Start/Stop Count – показатель количества моментов развертывания диска, которое изначально ограничено его механической структурой
  • Reallocated Sectors Count – атрибут отражает число запасных участков. Туда при неполадках перенаправляется информация. В идеале количество подобных действий должно составлять 0
  • Read Channel Margin – канальный резерв. В наше время накопители обходятся без него
  • Seek Error Rate – Отражение механического состояния накопителя, в числе прочего демонстрирует излишнюю вибрацию и перегрев
  • Seek Time Performance – уровень оперативных возможностей, актуален лишь для дисков HDD
  • Power-on Time – прогноз продолжительности функционирования накопителя исходя из периода эксплуатации. Максимальные показатели составляют 100 и с течением времени снижаются до 0
  • Spin-Up Retry Count – количество дублирующих операций запуска. Их увеличение говорит об ошибках в механической структуре

Эти и другие атрибуты, идущие красным фоном, говорят о его критическом состоянии накопителя, что предполагает скорую поломку. Конкретного стандарта, объединяющего показатели параметров от различных производителей, не существует. В каждом случае нормальные значения индивидуальны, отражаясь в виде фона или статуса, где

  • Good – хороший показатель
  • Bad – плохой показатель.

Наряду с уже упомянутыми атрибутами следует уделять внимание таким параметрам как:

  • Recalibration Retries – число дублей при рекаблировке. Их повышение свидетельствует о неполадках механики
  • End-to-End error – Недостатки обменных операций
  • Reported UNC Errors – неполадки, чье устранение ведется с помощью аппаратных средств
  • G-sense error rate – количество механических воздействий на диск. Фиксирует неаккуратную установку, столкновения
  • Reallocation Event Count – общий показатель операций перенаправления информации. Фиксирует удачные и неудачные операции
  • Current Pending Sector Count – количество потенциальных участков накопителя, подлежащих замене
  • Uncorrectable Sector Count – количество неисправных секторов, неподлежащих восстановлению
  • UltraDMA CRC Error Count – неполадки перенаправления данных между накопителем и ПК

Проверка S.M.A.R.T

Параметры S.M.A.R.T проверяются при помощи специальных утилит от производителей жестких дисков. Существуют и универсальные программы для тестирования и проверки дисков. Среди них выделяются udisks, smartctl, hddscan, CrystalDiskInfo, Victoria, используя которые пользователь сможет оценить состояние жесткого диска. В некоторых случаях, а именно при работе с контроллерами RAID, получить дисковые атрибуты практически невозможно.

Минимальный уровень диагностики поддерживается на уровне BIOS. Если включен режим диагностики S.M.A.R.T., то при наличии критических значений атрибутов BIOS не позволит загрузиться операционной системе.

Итак, тестируя состояние жесткого диска, прежде всего внимание, уделяется указанным параметрам S.M.A.R.T . Основное назначение технологии – прогнозирование выхода их строя жесткого диска. При опасном отклонении показателей от нормы, имеет смысл переносить важную информацию на другие носители.

И, самое главное, даже если в S.MA.R.T. никаких ошибок нет и все хорошо, это не является гарантией, что диск не сломается, так что .

Все современные накопители на жестких магнитных дисках поддерживают технологию самотестирования, анализа состояния, и накопления статистических данных об ухудшении собственных характеристик S.M.A.R.T. (Self-Monitoring Analysis and Reporting Technology). Основы S.M.A.R.T. были разработаны в 1995 г. совместными усилиями ведущих производителями жестких дисков. В процессе совершенствования оборудования накопителей, возможности технологии также дорабатывались, и после стандарта SMART появился SMART II, затем - SMART III, который, очевидно, тоже не станет последним.

Жесткий диск в процессе своего функционирования постоянно отслеживает определенные параметры своего состояния и отражает их в специальных характеристиках - атрибутах (Attribute), сохраняющихся, как правило, в специально выделенной части дисковой поверхности, доступной только внутренней микропрограмме накопителя - служебной зоне . Данные атрибутов могут быть считаны специальным программным обеспечением.

Атрибуты идентифицируются своим цифровым номером, большинство из которых одинаково интерпретируется накопителями разных моделей. Некоторые атрибуты могут быть определены конкретным производителем оборудования, и поддерживаться только отдельными моделями накопителей.

Атрибуты состоят из нескольких полей, каждое из которых имеет определенный смысл. Обычно, программы считывания S.M.A.R.T. выдают расшифровку атрибутов в виде:

  1. Attribute - имя атрибута
  2. ID - идентификатор атрибута
  3. Value - текущее значение атрибута
  4. Threshold - минимальное пороговое значения атрибута
  5. Worst - самое низкое значение атрибута за все время работы накопителя
  6. Raw - абсолютное значение атрибута
  7. Type (необязательно) - тип атрибута - характеризует производительность (PR - Performance-related), характеризует сбои (ER - Error rate), счетчик событий (EC - Events count), определено производителем или не используется (SP - Self-preserve);

Для анализа состояния накопителя, пожалуй, самым важным значением атрибута является Value - условное число (обычно от 0 до 100 или до 253), заданное производителем. Значение Value изначально установлено на максимум при производстве накопителя и уменьшается в случае ухудшения его параметров.

Для каждого атрибута существует пороговое значение, до достижения которого, производитель гарантирует его работоспособность - поле Threshold . Если значение Value приближается или становится меньше значения Threshold, - накопитель пора менять. Перечень атрибутов и их значения жестко не стандартизированы и определяются изготовителем накопителя, но наиболее важные из них интерпретируются одинаково.

Например, атрибут с идентификатором 5 (Reallocated sector count ) будет характеризовать число забракованных и переназначенных из резервной области секторов диска, и для устройств производства компании Seagate, и для Western Digital, Samsung, Maxtor.

Жесткий диск не имеет возможности, по собственной инициативе, передать данные SMART потребителю. Их считывание выполняется специальным программным обеспечением.

В настройках большинства современных BIOS материнских плат имеется пункт позволяющий запретить или разрешить считывание и анализ атрибутов SMART в процессе выполнения тестов оборудования перед выполнением начальной загрузки системы. Включение опции позволяет подпрограмме тестирования оборудования BIOS считать значения критических атрибутов и, при превышении порога, предупредить об этом пользователя. Как правило, без особой детализации:

Primary Master Hard Disk: S.M.A.R.T status BAD!, Backup and Replace.

Выполнение подпрограммы BIOS приостанавливается, чтобы привлечь внимание:

Таким образом, без установки или запуска дополнительного программного обеспечения, имеется возможность вовремя определить критическое состояние накопителя (при включении данной опции) средствами Базовой Системы Ввода-Вывода (BIOS).

Анализ данных S.M.A.R.T. жесткого диска

Для получения данных SMART в среде операционной системы могут использоваться специальные программы, в частности, практически все утилиты для тестирования оборудования жестких дисков.

Одной из самых популярных программ для тестирования жестких дисков является Victoria Сергея Казанского. На сайте автора найдете последнюю версию программы, а также массу полезной информации, в том числе и подробное описание работы с Victoria.

Программа Victoria имеет две разновидности - для работы в среде DOS и, для работы в среде Windows. DOS-версия может напрямую работать с контроллером жесткого диска и обладает значительно большими возможностями по сравнению с версией для Windows. Назначение, основные возможности и порядок использования программы раньше можно было найти на сайте автора , но с некоторых пор сайт заброшен и информации там нет.

Программа проста в использовании и позволяет оценить техническое состояние накопителя, выполнить его тестирование и некоторые настройки - уровня шума, производительности, физического объема. Режимы тестирования поверхности накопителя позволяют принудительно избавиться от сбойных секторов с помощью режима Remap нескольких видов. Вызов меню тестирования выполняется по нажатию клавиши F4 (SCAN ). Пользователь имеет возможность задать область тестирования:

  • Start LBA:0 - начало области (по умолчанию - 0)
  • End LBA:14680064 - конец области (по умолчанию - номер последнего блока диска)

Режим тестирования:

  • Линейное чтение - последовательное чтение от начального блока до конечного;
  • Случайное чтение - номер считываемого блока формируется случайным образом;
  • BUTTERFLY чтение - выполняется чтение блоков, начиная от граничных номеров (начала и конца), к центру области тестирования. Изменение режима выполняется по нажатию клавиши "пробел".

Режим обработки ошибок . Этот пункт позволяет выполнить скрытие дефектных блоков, с использованием переназначения (ремап) из резервной области. Выбор режима выполняется клавишей "пробел". Выбранный метод работы с дефектами отображается в правом верхнем углу экрана, под часами, а также в нижней строке в момент запуска теста. Изменить режим можно в и в процессе выполнения сканирования.

  • Ignore Bad Blocks - программа не будет выполнять никаких действий при обнаружении ошибки.
  • BB = RESTORE DATA - программа попытается восстановить данные из поврежденных секторов.
  • BB = Classic REMAP - выполняется запись в поврежденный сектор для вызова процедуры переназначения.
  • BB = Advanced REMAP - улучшенный алгоритм скрытия сбойных блоков. Используется, когда не помогает классический ремап. Программа выполняет специальную последовательность операций с целью формирования признака кандидата на ремап (атрибут 197) у сбойного блока. Затем выполняется 10-кратная запись, обрабатываемая микропрограммой накопителя как обычная обработка кандидата на ремап - если есть ошибка, выполняется переназначение, если нет ошибки - блок считается нормальным и удаляется из кандидатов на ремап. Данный режим позволяет выполнить скрытие сбойных блоков без потери пользовательских данных. Конечно, только в случаях, когда накопитель технически исправен и есть свободное место в резервной области для переназначения.
  • BB = Fujitsu Remap - выполнение специфических алгоритмов, основанных на недокументированных возможностях некоторых моделей накопителей Fujitsu
  • BB = Erase 256 sect - при обнаружении сбойного сектора выполняется перезаписывание блока из 256 секторов. Пользовательские данные не сохраняются.

В процессе работы с программой можно вызвать контекстную справку клавишей F1

Версия Victoria For Windows обладает более скромными возможностями по настройке накопителя и выбору режимов тестирования, и на данный момент не имеет поддержки русского языка, однако ей проще пользоваться и имеющихся возможностей вполне достаточно для считывания таблицы SMART и оценки технического состояния накопителя.

Программа не требует установки, просто скачайте последнюю версию по ссылке Victoria v4.47 с нашего сайта.

Программа должна выполняться под учетной записью с павами администратора. В среде Windows 7 / 8 необходимо использовать контекстное меню “Запуск от имени администратора”.

Для анализа состояния SMART-атрибутов выбираем режим работы через программный интерфейс Windows - включаем кнопку API в правой верхней части основного окна. Затем выбираем накопитель для проверки - нажимаем на кнопку Standard в основном меню программы и подсвечиваем мышкой нужный диск в окне со списком.

В информационном окне будет отображен паспорт накопителя - модель, версию аппаратной прошивки, серийный номер, размер и т.п. Для получения данных SMART выбираем пункт меню SMART и жмем кнопку "Get SMART". Результат будет отображен в информационном окне программы.

Краткое описание атрибутов (в скобках дано шестнадцатеричное значение номера):

  • 001 (1) Raw Read Error Rate - абсолютное значение ошибок считывания. Существует некоторые отличия в формировании значения данного атрибута разными производителями. Из практики могу сказать, что накопители Seagate могут иметь гигантское значение RAW этого атрибута, реально будучи в хорошем состоянии, а накопители Western Digital могут иметь его нулевым, имея критические показатели по другим характеристикам. Некоторые модели вообще могут не поддерживать данный атрибут.
  • 003 (3) Spin Up Time - Среднее время раскрутки шпинделя диска от 0 RPM до рабочей скорости.
  • 004 (4) Start/Stop Count - Количество циклов запуск/останов шпинделя.
  • 005 (5) Reallocated Sector Count - Количество переназначенных секторов. Современные накопители имеют довольно большую (тысячи секторов) резервную область поверхности накопителя для использования ее в случае ухудшения характеристик секторов из основной зоны. Если накопитель обнаруживает проблемы с записью/считыванием какого - либо сектора, то он автоматически перемещает его данные в резервную область, а данный сектор помечается как "переназначенный". Часто этот процесс называют "remapping", или "automatic defect reassignment", он выполняется микропрограммой накопителя и для пользователя (операционной системы) невидим. Поле raw value содержит общее количество переназначенных секторов. Даже некритическое, но большое значение этого поля, может привести к снижению скорости обмена данными, поскольку накопитель выполняет дополнительную операцию установки головок на дорожки резервной области, обычно расположенной в конце диска.
  • 007 (7) Seek Error Rate - Частота появления ошибок позиционирования блока магнитных головок (БМГ) . Накопитель контролирует правильность установки головок на требуемую дорожку поверхности. В случае, когда установка выполнилась неверно, фиксируется ошибка и операция повторяется. Для данного накопителя причиной большого числа ошибок явился перегрев.
  • 008 (8) Seek Time Performance - средняя скорость позиционирования магнитных головок. Если значение атрибута уменьшается (замедление позиционирования), то велика вероятность проблем с механической частью привода головок.
  • 009 (9) Power-On Hours - Количество часов во включенном состоянии. Достижение предельного значения этого атрибута означает выработку накопителем заданной производителем наработки на отказ (MTBF - Mean Time Between Failures).
  • 010 (0A) Spin Retry Count - Количество повторных попыток старта шпинделя. После включения питания, накопитель раскручивает диски и контролирует достижение рабочей скорости вращения для данного устройства (например 5400 , 7200, 10000 об/мин.) за определенное время. В случае неудачи - увеличивается счетчик повторов и повторяется попытка старта.
  • 011 (0B) Recalibration Retries - количество попыток рекалибровки, в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью накопителя. Кроме того, увеличение абсолютного значения данного атрибута может быть вызвано тем, что процедура рекалибровки используется внутренней микропрограммой накопителя для коррекции других типов ошибок.
  • 012 (0C) Device Power Cycle Count - Количество циклов включения/выключения диска.
  • 184 (B8) End-to-End error - Данный атрибут - часть технологии HP SMART IV - означает, что после передачи данных через буферную память чётность данных между контроллером компьютера и жестким диском не совпадает.
  • 187 (BB) Reported Uncorrectable Error - Характеризует количество ошибок, которые не были исправлены микропрограммой накопителя.
  • 188 (BC) Command Timeout Количество прерванных операций в связи с HDD тайм-аут. Обычно это значение атрибута должно быть равно нулю, и, если значение гораздо выше нуля, то, скорее всего, там будут какие-то серьезные проблемы с питанием или окислением контактов интерфейсного кабеля.
  • 189 (BD) High Fly Writes - Если высота полета головки над магнитной поверхностью, даже на короткое время превысит оптимальную, то записанные ею данные, в дальнейшем, могут не прочитаться. Современные накопители используют специально разработанную технологию контроля высоты полета головок, позволяющую не выполнять запись данных при неоптимальной высоте. В счетчик данного атрибута добавляется единица, а запись выполняется после установки нормальной высоты полета. Повышенное значение данного атрибута может быть вызвано внешними ударами или вибрациями, ненормальной температурой, ухудшением характеристик магнитной поверхности или головки.
  • 190 (BE) Airflow Temperature - температура окружающей среды блока магнитных головок. Для большинства моделей данный атрибут отсутствует и используется атрибут 194.
  • 191 (BF) G-sense error rate - количество ошибок, возникающих в результате ударных нагрузок. Атрибут хранит показания встроенного акселерометра, который фиксирует все удары, толчки, падения и даже неаккуратную установку диска в корпус компьютера. Обычно довольно точно характеризует условия эксплуатации ноутбуков - большое значение атрибута говорит о резких толчках и падениях при работе устройства.
  • 192 (C0) Power-off retract count - количество циклов выключений или аварийных отказов (включений/выключений питания накопителя).
  • 193 (C1) Load/Unload Cycle - количество циклов перемещения блока магнитных головок в зону парковки.
  • 194 (C2) HDA Temperature - температура самого накопителя (HDA - Hard Disk Assembly). В данном атрибуте хранятся показания встроенного температурного датчика, которым обычно служит одна из магнитных головок (как правило - нижняя). Данные, записанные в полях атрибута отображают текущую, минимальную и максимальную температуру. Поле Worst показывает наихудшую, достигнутую за время работы накопителя, температуру (можно установить факт перегрева и его степень), raw value - текущую температуру. Некоторые модели накопителей могут поддерживать атрибут 205 (CD) Thermal asperity rate (TAR) фиксирующий количество опасных перепадов температуры.
  • 195 (C3) Hardware ECC recovered - характеризует количество ошибок считывания, исправленных оборудованием накопителя с применением кода коррекции ошибок. Подобные ошибки не требуют повторного считывания сектора, и не приводят к потере скорости обмена данными, но большое их количество говорит об ухудшении параметров тракта считывания.
  • 196 (C4) Reallocation Event Count - Число событий переназначения сбойных секторов. В поле raw value данного атрибута хранится общее число попыток переноса данных из нестабильных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.
  • 197 (C5) Current Pending Sector Count - Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область (remap). Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped).
  • 198 (C6) Uncorrectable Sector Count - Счетчик некорректируемых ошибок. Это ошибки, которые не были исправлены внутренними средствами коррекции оборудования накопителя. Может быть вызвано неисправностью отдельных элементов или отсутствием свободных секторов в резервной области диска, когда возникла необходимость переназначения.
  • 199 (C7) UltraDMA CRC Error Count - Счетчик ошибок, возникших при передаче данных в режиме UltraDMA . Аппаратные средства контроля передачи данных из накопителя в оперативную память обнаружили ошибку контрольной суммы. Нередко этот тип ошибки связан не столько с оборудованием накопителя, сколько с неисправным интерфейсным кабелем, нестабильным питанием, разгоном частоты шины PCI, перегревом микросхем чипсета материнской платы и т.п.
  • 200 (C8) Write Error Rate (Multi-Zone Error Rate) - Характеризует наличие ошибок при записи данных. Может быть вызвано ухудшением состояния поверхности, головок или характеристик тракта записи данных. Чем ниже значение Value, тем опаснее использовать такой накопитель.
  • 220 (DC) Disk Shift - смещение блока дисков относительно вертикальной оси шпинделя. В основном возникает из-за сильного удара или падения накопителя и как правило, является сигналом для его замены.
  • 228 (E4) Power-Off Retract Cycle - Количество автоматических парковок магнитных головок при выключения питания.

Современные накопители поддерживают не только формирование атрибутов S.M.A.R.T, но и ведут дополнительные журналы статистики, а также поддерживают протокол SCT (SMART Command Transport), обеспечивающий считывание данных журналов. Журнал статистики устройства - это доступный только для чтения журнал SMART, передаваемый накопителем при получении команд READ LOG EXT, READ LOG DMA EXT или SMART READ LOG. В журналах отображается информация о выполнении встроенных тестов S.M.A.R.T (self-test), статистика ошибок, номера сбойных блоков LBA и т.п.

    Современные жесткие диски довольно “умные” устройства и, кроме основных присущих им как устройствам хранения и обработки данных свойств, поддерживают технологию самотестирования, анализа состояния, и накопления статистических данных об ухудшении собственных характеристик S.M.A.R.T. (S elf-M onitoring A nalysis a nd R eporting T echnology). Основы S.M.A.R.T. были разработаны в 1995 г. совместными усилиями ведущих производителями жестких дисков (HDD). В последующие годы стандарты S.M.A.R.T дорабатывались в соответствии с изменениями технологий и оборудования (SMART II и SMART III) и продолжают совершенствоваться в настоящее время.

    Жесткий диск, начиная с момента его изготовления, постоянно отслеживает определенные параметры своего состояния и отражает их в специальных характеристиках - атрибутах (Attribute), сохраняющихся в постоянном запоминающем устройстве, как правило, в специально выделенной части дисковой поверхности, доступной только внутренней микропрограмме накопителя - служебной зоне . Данные атрибутов могут быть считаны, в соответствии со спецификацией ATA (AT A ttachment) по командам поддержки SMART (SMART READ DATA и еще более десятка команд), которые передаются в накопитель специальным программным обеспечением, как например, утилитами от производителей оборудования или универсальными программами тестирования и мониторинга состояния HDD (udisks, smartctl, GSmartControl, gnome-disks и т.п.). Современные стандарты ATA включают в себя поддержку протокола SCT (SMART Command Transport), обеспечивающего считывание журналов статистики устройства. Журнал статистики устройства - это доступный только для чтения журнал SMART, передаваемый накопителем при получении команд READ LOG EXT, READ LOG DMA EXT или SMART READ LOG.

    Атрибут представляет собой характеристику определенного состояния жесткого диска, которая изменяется в процессе эксплуатации, принимая числовое значение от максимального, установленного в момент изготовления данного устройства, до минимального, при достижении которого, работоспособность накопителя не гарантируется. Все атрибуты идентифицируются своим цифровым номером, большинство из которых одинаково интерпретируется жесткими дисками разных моделей. Некоторые из них могут использоваться только конкретным производителем оборудования, и поддерживаться отдельными моделями накопителей. Так, например, атрибут с идентификатором 7 , характеризующий количество ошибок установки головок на требуемую дорожку поверхности дискаSeek_Error_Rate не имеет смысла для твердотельных дисков (SSD) и, соответственно, не поддерживается ими, а атрибут с идентификатором 9 ,характеризующий суммарное время работы накопителя за весь срок эксплуатации и обозначаемый как Power_On_Hours ,поддерживается как SSD, так и традиционными HDD.

    Атрибуты состоят из нескольких полей, (наиболее часто обозначаемых как Val, Worst, Tresh, RAW ), каждое из которых является определенным показателем, характеризующим техническое состояние накопителя на данный момент времени. Программы считывания S.M.A.R.T. выводят содержимое атрибутов, как правило, в виде нескольких колонок:

  • ID# - числовой идентификатор атрибута
  • Attribute - название атрибута
  • Flags - флаги атрибутов, задаваемые производителем HDD. Характеризуют тип атрибута (большинство программ интерпретируют флаги в виде символов k,c,r,s,o,p или аббревиатур, например, EC – Event Count, счетчик событий).

    Pre-Failure (PF, 01h) - при достижении порогового значения данного типа атрибутов диск требует замены. Иногда данный бит флагов обозначают как Life Critical (CR) или Pre-Failure warranty (PW)
    O nline test (OC, 02h)– атрибут обновляет значение при выполнении off-line/on-line встроенных тестов SMART;
    P erfomance R elated (PE или PR , 04h)– атрибут характеризует производительность;
    E rror R ate (ER , 08h)– атрибут отражает счетчики ошибок оборудования;
    E vent C ounts (EC, 10h) – атрибут представляет собой счетчик событий;
    S elf P reserving (SP, 20h) – самосохраняющися атрибут;
    Некоторые из программ могут интерпретировать флаги в виде текстовых описаний, близких по смыслу к рассмотренным выше. Один атрибут может иметь несколько установленных в единицу значений флагов, например, атрибут с идентификатором 05 отражающий количество переназначенных из-за сбоев секторов из резервной области, имеет установленные флаги SP+EC+OC – самосохраняющийся, счетчик событий, обновляется при автономном и интерактивном режиме накопителя.

  • Value - текущее значение атрибута
  • Threshold - минимальное пороговое значения атрибута
  • Worst - самое худшее значение атрибута за все время работы накопителя
  • Raw - абсолютное значение атрибута
  • Type - некоторые из программ в данном необязательном поле отображают информацию из флажков атрибутов или признаки их критичности (Critical или Pre-Fail , отражающих ухудшение характеристик оборудования, и Old-age для атрибутов, отражающих выработку ресурса);

        Для анализа состояния накопителя, пожалуй самым важным значением атрибута является Value - условное число (обычно от 0 до 100 или до 253), заданное производителем. Значение Value изначально установлено на максимум при производстве накопителя и уменьшается в случае ухудшения его параметров. Для каждого атрибута существует пороговое значение, при достижения которого, производитель не гарантирует его работоспособность - поле Threshold . Если значение Value приближается или становится меньше значения Threshold , - накопитель пора менять.

    Перечень атрибутов и их значения жестко не стандартизированы и некоторые из них могут определяться изготовителем накопителя, но основная часть интерпретируются одинаково. Например, атрибут с идентификатором 05 (Reallocated sector count ) будет характеризовать число забракованных и переназначенных из резервной области секторов диска, как для устройств производства компании Seagate Technology, так и для устройств производства Western Digital . Набор поддерживаемых атрибутов зависит от модели накопителя и может значительно отличаться по составу для разных моделей.

        Наиболее распространенным программным средством для получения данных S.M.A.R.T в среде Linux, является утилита smartctl из комплекта smartmontools , как правило, входящего в состав устанавливаемого по умолчанию программного обеспечения любого дистрибутива. При необходимости, обновить версию, а также скачать документацию на английском языке можно на сайте проекта smartmontools.org .

    Для работы с утилитой smartctl требуются права суперпользователя root .

    Формат командной строки smartctl :

    smartctl параметры устройство

    Примеры использования smartctl

    smartctl –help или smartctl --usage - отобразить подсказку об использовании команды.

    Параметры smartctl :

    -V, --version, --copyright, --license - отобразить версию, информацию копирайта и лицензии.

    -i, --info - отобразить идентификационную информацию для устройства.

    -g NAME, --get=NAME - отобразить параметры настроек диска (all, aam, apm, lookahead, security, wcache, rcache, wcreorder)

    -a, --all - отобразить все данные SMART указанного диска.

    -x, --xall - отобразить все технические данные для указанного диска.

    --scan - выполнить поиск дисковых устройств.

    -q TYPE, --quietmode=TYPE установить режим детализации вывода для smartctl (errorsonly, silent, noserial)

    -d TYPE, --device=TYPE - установить тип устройства (ata, scsi, sat[,auto][,N][+TYPE], usbcypress[,X], usbjmicron[,p][,x][,N], usbsunplus, marvell, areca,N/E, 3ware,N, hpt,L/M/N, megaraid,N, cciss,N, auto, test) Обычно установка типа устройства требуется в тех случаях, когда утилита smartctl не может определить его автоматически.

    -b TYPE, --badsum=TYPE - задать реакцию на обнаружение ошибок контрольных сумм (warn, exit, ignore)

    -r TYPE, --report=TYPE - опция предназначена для разработчиков smartmontools и позволяет получить детализированную информацию при выполнении транзакций функции управления устройствами ввода/вывода ioctl (ioctl, ataioctl, scsiioctl и уровень отладки). Подробности - man smartctl

    -n MODE, --nocheck=MODE - режим запрета на выполнение тестов для режимов энергосбережения (never, sleep, standby, idle). Обычно используется для предотвращения запуска шпиндельного двигателя по команде smartctl.

    -s VALUE, --smart=VALUE - отключение или включение SMART (on/off)

    -o VALUE, --offlineauto=VALUE - запрет или разрешение автоматического выполнения тестов в неинтерактивном режиме (в режиме простоя накопителя), принимаемые значения - on/off

    -S VALUE, --saveauto=VALUE автосохранение атрибутов (on/off)

    -s NAME[,VALUE], --set=NAME[,VALUE] - запрет/разрешение параметров оборудования накопителя (aam,, apm,, lookahead,, security-freeze, standby,, wcache,, rcache,, wcreorder,)

    -H, --health - отобразить состояние накопителя (SMART health status)

    -c, --capabilities - отобразить информацию о поддерживаемых возможностях SMART указанного жесткого диска.

    -A, --attributes - отобразить атрибуты SMART

    -f FORMAT, --format=FORMAT - задать формат отображаемых атрибутов SMART (old, brief, hex[,id|val]). В основном, влияет на формат отображаемых значений идентификаторов атрибутов и формат отображения их флагов:
    old - идентификаторы атрибутов выводятся в десятичной системе счисления, значения флагов отображаются в шестнадцатеричной и интерпретируются в виде текста.
    hex - то же, что и в предыдущем случае, но идентификаторы атрибутов отображаются в шестнадцатеричной системе счисления.
    brief - компактный вывод, идентификаторы отображаются в десятичной системе счисления, флаги отображаются в виде символов с расшифровкой в нижней части таблицы:
    ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate POSR-- 114 100 006 - 78309029 . . . . . . 254 Free_Fall_Sensor -O--CK 100 100 000 - 0 ||||||_ K auto-keep |||||__ C event count ||||___ R error rate |||____ S speed/performance ||_____ O updated online |______ P prefailure warning

    -l TYPE, --log=TYPE - отобразить указанный журнал устройства (selftest, selective, directory[,g|s], xerror[,N][,error], xselftest[,N][,selftest],background, sasphy[,reset], sataphy[,reset], scttemp, scttempint,N[,p], scterc[,N,M], devstat[,N], ssd, gplog,N[,RANGE], smartlog,N[,RANGE]

    -v N,OPTION , --vendorattribute=N,OPTION - установить параметр для определенного производителем атрибута с идентификатором N

    -F TYPE, --firmwarebug=TYPE - адаптация программы для учета ошибок в аппаратной прошивке накопителя (none, nologdir, samsung, samsung2, samsung3, xerrorlba, swapid)

    -P TYPE, --presets=TYPE - предустановки параметров диска. По умолчанию, обнаружив информацию о накопителе в своей базе, утилита smartctl , использует набор параметров, доступный для данной модели. Опция use - использовать предустановки для данного накопителя, ignore - не использовать, show - отобразить предустановки для данного диска, showall - отобразить предустановки для указанной модели. Примеры:

    smartctl –P ignore /dev/hdb - игнорировать предустановки для диска /dev/hdb;
    smartctl –P show /dev/sdb - отобразить предустановки для указанного диска;
    smartctl –P showall ‘ST9250315AS’ - - отобразить предустановки для указанной модели диска - ST9250315AS;
    smartctl –P showall ‘ST3750515AS’ ‘SD15’ - отобразить предустановки для указанной модели диска ST3750515AS с прошивкой SD15;

    -B [+]FILE, --drivedb=[+]FILE - прочитать и изменить базу данных моделей дисков из файла FILE. Знак “+” перед именем файла, означает добавление новых записей в базу, перед уже существующими.

    По умолчанию, база данных хранится в файле /usr/share/smartmontools/drivedb.h

    DEVICE SELF-TEST OPTIONS =====

    -t TEST, --test=TEST - запустить выполнение теста TEST Run test. TEST: offline, short, long, conveyance, force, vendor,N, select,M-N, pending,N, afterselect,

    -C, --captive - выполнение тестов в режиме захвата накопителя. Используется совместно с параметром -t для тестов не в режиме offline . Использование данного параметра может вызвать занятость устройства на все время выполнения теста и привести к нарушению работы системы и потере данных. Не стоит использовать опцию -c для выполнения тестов накопителей с монтированными разделами. Для SCSI устройств данная опция означает выполнение встроенных тестов в режиме "Foreground mode" .

    -X, --abort - принудительно завершить тест, выполняющийся без ключа --captive .

    Примеры использования smartctrl.

    smartctl --info /dev/sdb - отобразить идентификационную информацию для устройства /dev/sdb. Пример вывода команды:

    === START OF INFORMATION SECTION === Device Model: ST9500620NS Serial Number: 9XF0AW8T Firmware Version: SN01 User Capacity: 500,107,862,016 bytes Device is: Not in smartctl database ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Tue Oct 28 15:05:31 2014 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled

    smartctl --all /dev/hdа - отобразить все данные SMART для устройства /dev/hda

    Пример отображаемых данных:

    === START OF INFORMATION SECTION === Device Model: ST9500620NS Serial Number: 9XF0AW8T Firmware Version: SN01 User Capacity: 500,107,862,016 bytes Device is: Not in smartctl database ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Tue Oct 28 15:05:45 2014 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: (0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (634) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: (1) minutes. Extended self-test routine recommended polling time: (102) minutes. Conveyance self-test routine recommended polling time: (2) minutes. SCT capabilities: (0x10bd) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 082 064 044 Pre-fail Always - 190274202 3 Spin_Up_Time 0x0003 096 096 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 72 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 070 060 030 Pre-fail Always - 11302732 9 Power_On_Hours 0x0032 073 073 000 Old_age Always - 24037 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 72 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 081 048 045 Old_age Always - 19 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 38 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 73 194 Temperature_Celsius 0x0022 019 052 000 Old_age Always - 19 (0 14 0 0) 195 Hardware_ECC_Recovered 0x001a 118 100 000 Old_age Always - 190274202 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

    smartctl -A -v 9,minutes /dev/hda - отобразить все данные атрибутов SMART для устройства /dev/hda и атрибут с идентификатором 9 (время нахождения во включенном состоянии) интерпретировать как внутреннее значение, задаваемое в минутах, а не в часах.

    smartctl --smart=on --offlineauto=on --saveauto=on /dev/hda - включить SMART для диска /dev/hda, разрешить автоматическое выполнение оффлайн-тестов и самосохранение атрибутов. Команду можно выполнять на работающей системе. Фактически, это установка стандартных параметров эксплуатации для обычного дискового накопителя.

    smartctl --test=long /dev/hda - выполнить расширенные встроенные тесты для диска /dev/hda.Команду можно использовать на работающей системе. Для просмотра результатов выполнения тестов используется команда вывода внутреннего журнала после завершения теста
    smartctl -l selftest /dev/hda

    smartctl --attributes --log=selftest --quietmode=errorsonly /dev/had - отобразить данные внутреннего журнала самотестирования и атрибуты ошибок.

    smartctl -s on -t offline /dev/hdc - включить SMART и выполнить оффлайн-тест для диска /dev/hdc. Если при тестировании будет обнаружена ошибка, то информация по ней будет записана во внутренний журнал, просмотреть который можно с использованием параметра -l error .

    smartctl -q silent -a /dev/had - проверить данные SMART без вывода полученной информации.Обычно используется в скриптах. После выполнения команды проверяется код возврата (переменная $? командной оболочки)для определения факта выхода значения какого – либо атрибута за предельную величину или наличия записи об ошибках в журналах устройства.

    smartctl -q errorsonly -H -l selftest /dev/had - выводить информацию только при наличии ошибочного состояния SMART или если какой-либо из внутренних тестов завершился с ошибкой.

    smartctl -t select,10-100 -t select,30-300 -t afterselect,on -t pending,45 /dev/hda - выполнить внутренний тест в заданной области блоков LBA и после его завершения сканировать оставшуюся часть диска. Если при сканировании будет выполнено выключение питания, то продолжить его через 45 минут после включения.

    smartctl --all --device=3ware,0 /dev/sda - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware.

    smartctl -a -d 3ware,0 /dev/twe0 - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware RAID 6000/7000/8000.

    smartctl -a -d 3ware,0 /dev/twa0 - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware RAID 9000

    smartctl -t short -d 3ware,3 /dev/sdb - запустить выполнение коротких внутренних тестов для 4-го диска, второго дискового SCSI устройства /dev/sdb

    smartctl -a -d hpt,1/3 /dev/sda - получить данные SMART диска, подключенного к 3-му каналу первого контроллера HighPoint RocketRAID

    Расшифровка атрибутов S.M.A.R.T

    Идентификаторы атрибутов указаны в десятичной системе счисления, а в скобках они же – в шестнадцатеричной.

  • 001 (1h) Raw Read Error Rate - абсолютное значение ошибок считывания. Существует некоторые отличия в формировании значения данного атрибута разными производителями. Из практики могу сказать, что накопители Seagate могут иметь гигантское значение RAW этого атрибута, реально будучи в хорошем состоянии, а накопители Western Digital могут иметь его нулевым, имея критические показатели по другим характеристикам. Некоторые модели вообще не поддерживают данный атрибут.
  • 002 (02h) Throughput Performance - усредненная производительность жесткого диска. Редко встречающийся атрибут.
  • 003 (3h) Spin Up Time - Среднее время раскрутки шпинделя диска от 0 RPM до рабочей скорости. Для SSD дисков не поддерживается.
  • 004 (4h) Start/Stop Count - Количество циклов запуск/останов шпинделя.
  • 005 (5h) Reallocated Sector Count - Количество переназначенных (перераспределенных) секторов. Современные накопители имеют резервную область поверхности для использования ее объема в случае ухудшения характеристик блоков из основной зоны. Если микропрограмма накопителя обнаруживает ошибки с записи/чтения какого-либо блока рабочей поверхности, то запускается механизм, обеспечивающий переадресацию обращений к дефектному блоку (сектору), на блок из резервной части. Он автоматически перемещает его данные в резервную область, а данный блок помечается как "переназначенный". Часто этот процесс называют "remapping", или "automatic defect reassignment". Процедура переназначения сбойных секторов на резервные, выполняется автоматически внутренней микропрограммой накопителя, и для пользователя (операционной системы) она невидима. Сам факт переназначения и количество переназначенных секторов доступны только из журналов SMART. Поле абсолютного значения атрибута Raw Value содержит общее количество переназначенных секторов. Нормализованное значение Value отражает процент допустимого количества дефектных блоков. При исчерпании резервной области, переназначение становится невозможным и диск подлежит замене. Даже некритическое, но большое значение этого поля, может привести к снижению скорости обмена данными, поскольку накопитель выполняет дополнительные операции установки головок на дорожки резервной области, которая обычно находится в конце рабочей поверхности диска.
  • 007 (7h) Seek Error Rate - Частота появления ошибок позиционирования блока магнитных головок (БМГ) . Дисковые накопители контролирует правильность установки головок на требуемую дорожку поверхности. В случае, когда установка выполнилась неверно, фиксируется ошибка и операция повторяется. На практике, большое количество ошибок позиционирования может быть вызвано не только проблемами оборудования, но и влиянием внешних факторов – не соответствующим температурным режимом или вибрацией.
  • 008 (8h) Seek Time Performance
  • 009 (09h) Power-On Hours (POH) Количество рабочих часов - количество часов, когда диск находился во включенном состоянии за весь срок с момента производства, в виде целочисленного значения в часах. Иногда встречаются модели накопителей, в которых внутреннее значение данного атрибута сохраняется в виде количества рабочих минут или секунд, а не часов. Достижение порогового значения данного атрибута означает выработку ресурса, заданного производителем (MTBF - Mean Time Between Failures
  • 010 (0Ah) Spin Retry Count - Количество повторных попыток старта шпинделя. После включения питания, накопитель раскручивает диски и контролирует достижение рабочей скорости вращения, заданной производителем для данной модели. Если за отведенное контрольное время рабочая скорость не достигнута, увеличивается значение данного атрибута и выполняется повторная раскрутка двигателя.
  • 011 (0B) Recalibration Retries - атрибут отражает количество повторных рекалибровок, в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью накопителя. Кроме того, увеличение абсолютного значения данного атрибута может быть вызвано тем, что процедура рекалибровки используется внутренней микропрограммой накопителя для коррекции других типов ошибок.
  • 012 (0Ch) Device Power Cycle Count - абсолютное значение Raw Value указывает на количество циклов включения/выключения питания накопителя за весь период эксплуатации. Нормализованное значение Value обычно не изменяется и равно 100.
  • 013 (0Dh) - Soft Read Error Rate - Количество программных сбоев - совокупное количество программных сбоев. Нормализованное значение: начиная со 100, отображает процент оставшегося допустимого нарастающего количества программных сбоев.
  • 100 (64h) Erase/Program Cycles - количество циклов стирания –записи перепрограммируемой памяти (flash) для SSD-дисков. Количество таких циклов ограниченно и зависит от микросхем постоянной перезаписываемой памяти, используемых в данной модели SSD.
  • 103 (67h) Translation Table Rebuild - количество событий, связанных с разрушением внутренних таблиц транслятора и его перестроением.
  • 170 (AAh)Reserved Block Count - количество доступных резервных блоков для переназначения сбойных секторов (см. атрибут E8h).
  • 171 (ABh) Program Fail Count - ошибки записи в перепрограммируемую память SSD
  • 172 (ACh) Erase Fail Count – ошибки стирания flash-памяти SSD. Процесс записи в перезаписываемую постоянную память состоит из двух частей - стирания и записи. Процедура стирания всегда выполняется перед записью данных.
  • 173 (ADh) Wear Leveller Worst Case Erase Count - максимально допустимое количество операций стирания для единичного блока SSD-диска.
  • 174 (AEh) Unexpected Power Loss - непредвиденное отключение питания для SSD . Также этот показатель называется «Количество аварийных выключений» в терминологии жестких дисков с магнитными носителями. Абсолютное значение Raw Value: совокупное количество нештатных выключений за весь срок использования устройства.
  • 175 (AFh) Program Fail Count – данный атрибут используется в SSD-накопителях производства Intel и отображает информацию о сбоях защиты от отключения питания SSD-дисков. Результаты последнего теста в виде количества микросекунд до разряда конденсатора, фиксируется на максимальном значении. Также записывается количество минут после последнего теста и общее количество тестов за весь срок использования устройства. Необработанное значение Raw Value: Байты 0-1: Результаты последнего теста в виде количества микросекунд до разряда конденсатора, фиксируется на максимальном значении. Результат теста должен быть в диапазоне 25 - 5 000 000, более низкое значение указывает на определенный код ошибки. Байты 2-3: количество минут после последнего текста, фиксируется на максимальном значении. Байты 4-5: количество тестов за весь срок использования устройства, не увеличивается при циклах включения и отключения, фиксируется на максимальном значении. Значение Value устанавливается равным 1 при сбое теста, или 11 при тестировании конденсатора в недопустимых температурных условиях; в противном случае устанавливается равным 100.
  • 183 (B7h) SATA Downshifts - Количество снижений скорости SATA Необработанное значение: количество случаев, когда из-за ошибок для интерфейса SATA была выбрана пониженная скорость передачи данных (с 6 Гб/с до 3Гб/с или 1,5Гб/с или с 3Гб/с. До 1.5Гб/с. Очень часто данный атрибут характеризует недостаточное качество электропитания, окисление контактов интерфейсного кабеля, или его неисправность.
  • 184 (B8h) End-to-End error Количество обнаруженных сквозных ошибок кэш-памяти (disk cache). Абсолютное значение: количество обнаруженных и исправленных оборудованием сквозных ошибок.
  • 187 (BBh) Reported Uncorrectable Errors Количество невосстановимых ошибок. Необработанное значение Raw Value: количество ошибок, которые не удалось исправить с помощью внутренних подпрограмм накопителя.
  • 188 (BCh) Command Timeout - количество команд, прерванных по таймауту.
  • 189 (BDh) High Fly Writes - количество событий, связанных с ошибками, зафиксированными монитором контроля высоты полета Fly Height Monitor, когда головки записи находятся в положении, не гарантирующем нормальное выполнение операции. Если высота полета головки над магнитной поверхностью, даже на короткое время превысит оптимальную, то записанные ею данные, в дальнейшем, могут не прочитаться. Современные накопители используют специально разработанную технологию контроля высоты полета головок, позволяющую не выполнять запись данных при неоптимальной высоте. В счетчик данного атрибута добавляется единица, а запись выполняется после установки нормальной высоты полета. Повышенное значение данного атрибута может быть вызвано внешними ударами или вибрациями, ненормальной температурой, ухудшением характеристик магнитной поверхности или головки.
  • 190 (BEh) Airflow Temperature температура воздушного потока (корпус). Значение Raw Value: статистические данные по температуре корпуса. Байты 0-1: текущая температура корпуса в градусах по Цельсию; байт 2: недавняя минимальная температура корпуса в градусах по Цельсию; байт 3: недавняя максимальная температура корпуса в градусах по Цельсию; байты 4-5: счетчик превышений температуры. Количество случаев, когда зафиксированная температура превышала максимальную допустимую рабочую температуру накопителя.
  • 191 (BFh) G-sense error rate - количество ошибок, возникающих в результате ударных нагрузок. Атрибут хранит показания встроенного акселерометра, который фиксирует все удары, толчки, падения и даже неаккуратную установку диска в корпус компьютера. Обычно довольно точно характеризует условия эксплуатации ноутбуков - большое значение атрибута говорит о резких толчках и падениях при работе устройства.
  • 192 (C0h) Emergency Retract Cycle Count Количество аварийных выключений (количество нештатных выключений) - совокупное количество событий аварийного (нештатного) отключения питания за весь срок использования устройства. Для SSD дисков под «нештатным выключением» понимается отключение питания устройства без предварительной выдачи команды STANDBY IMMEDIATE.
  • 194 (C2h) HDA Temperature - температура самого накопителя (HDA - Hard Disk Assembly). В данном атрибуте хранятся показания встроенного температурного датчика, которым обычно служит одна из магнитных головок (как правило - нижняя). У SSD дисков термодатчик размещается внутри корпуса на печатной плате. Данные, записанные в полях атрибута отображают текущую, минимальную и максимальную температуру. Поле Worst показывает наихудшую, достигнутую за время работы накопителя, температуру (можно установить факт перегрева и его степень), Raw Value - текущую температуру. Некоторые модели накопителей могут поддерживать атрибут 205 (CDh) Thermal asperity rate (TAR), фиксирующий количество опасных перепадов температуры.
  • 195 (C3h) Hardware ECC Recovered - количество ошибок считывания, исправленных оборудованием накопителя с применением кода коррекции ошибок. Подобные ошибки не требуют повторного считывания сектора, и не приводят к потере скорости обмена данными, но большое их количество говорит об ухудшении параметров тракта считывания.
  • 196 (C4h) Reallocation Event Count raw value
  • Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область. Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped).
  • 198 (C6) Uncorrectable Sector Count - Счетчик некорректируемых ошибок, т.е, счетчик ошибок, которые не были исправлены внутренними средствами коррекции оборудования накопителя. Это означает, что такие ошибки проявляются как классические сбойные блоки файловой системы (Bad Block). Причиной подобных сбоев диска, может быть неисправность отдельных элементов или отсутствие свободных секторов в резервной области диска, когда возникла необходимость переназначения.
  • 199 (C7h) UltraDMA CRC Error Rate - Количество ошибок при передаче данных в режиме прямого доступа к памяти, обнаруженных средствами циклического избыточного кода (англ. Cyclic redundancy check, CRC). Аппаратные средства контроля передачи данных из накопителя в оперативную память обнаружили ошибку контрольной суммы и исправили ее “на лету”, если ошибка исправимая. В данном случае алгоритм обычной работы диска не изменяется. В случае же неисправимой ошибки, процедура ее обработки выполняется системой. Обычно, данный атрибут содержит счетчик любых видов ошибок CRC. Нередко этот тип ошибки связан не столько с оборудованием накопителя, сколько с неисправным интерфейсным кабелем, окислившимися контактами, некачественным электропитанием, разгоном частоты шины PCI, перегревом микросхем чипсета материнской платы и т.п.
  • 200 (C8h) Write Error Rate (Multi Zone Error Rate) - ошибки записи данных.
  • 232 (E8h) Total Count of Write Sectors Для SSD-дисков - количество записанных секторов. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой. Для SSD Intel - Intel SSD Available Reserved Space - процент доступной резервной области, используемой для переназначения дефектных блоков.
  • 233 (E9h) Power-On Hours - Время работы накопителя. Для SSD-дисков этот атрибут интерпретируется как Remaining Life - указатель износа носителя. Количество циклов работы носителя NAND. Линейно снижается от 100 до 1 по мере увеличения среднего количества циклов стирания от 0 до максимального. Нормализованное значение перестанет уменьшаться после достижения 1, но, по всей вероятности, устройство выдержит значительный дополнительный износ.
  • 241 (F1h) Total LBAs Written - Общее количество записанных секторов LBA. Значение Raw Value: совокупное количество секторов, записанных системой. Значение увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой.
  • 242 (F2h) Total LBAs Read - Общее количество прочитанных секторов LBA. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), прочитываемых системой.
  • 254 (FEh) Free Fall Event Count - количество событий ускорения свободного падения диска за время эксплуатации (сколько раз диск падал).

    Оценка технического состояния жесткого диска по данным S.M.A.R.T

    Набор атрибутов поддерживаемых конкретной моделью жесткого диска, даже если он минимален, позволяет с высокой достоверностью определить техническое состояние и перспективы эксплуатации устройства. Можно определить время нахождения во включенном состоянии по значению атрибута 9 , а в совокупности со значением атрибута 12 - количество включений /выключений электропитания, и следовательно, – круглосуточный или периодический режим эксплуатации. Интенсивность использования, температурный режим, негативные внешние воздействия – все эти факты легко отслеживаются по абсолютным значениям соответствующих атрибутов. Подобным же образом, можно оценить и уровень износа оборудования, качество поверхности и тракта записи/чтения.

    Минимально информативный контроль состояния дисков может выполняться даже на уровне BIOS. В случае достижения критического значения любого атрибута, характеризующего работоспособность, при включенном мониторинге состояния S.M.A.R.T в настройках BIOS, загрузка операционной системы приостанавливается и на экран выводится сообщение:

    Primary Master Hard Disk: S.M.A.R.T status BAD!, Backup and Replace.
    Press F1 to Resume

    Таким образом, без установки или запуска дополнительного программного обеспечения, имеется возможность вовремя определить факт критического состояния накопителя средствами Базовой Системы Ввода-Вывода (BIOS) при включении компьютера.

    Техническое состояние жесткого диска, не достигшее критического порога, характеризуется абсолютным значением атрибутов, отражающих счетчики сбоев, обнаруженных и исправленных оборудованием накопителя.

  • 001 (1) Raw Read Error Rate - абсолютное значение ошибок считывания. Существует некоторые отличия в формировании значения данного атрибута разными производителями. На практике, накопители Seagate могут иметь гигантское значение RAW этого атрибута, реально будучи в хорошем состоянии, а накопители Western Digital могут иметь его нулевым, имея критические показатели по другим характеристикам. Некоторые модели вообще могут не поддерживать данный атрибут.
  • 005 (5) Reallocated Sector Count - Количество переназначенных секторов. Ненулевое значение данного счетчика говорит о том, что были обнаружены дефектные блоки, данные которых перенесены в резервную область.
  • 196 (C4) Reallocation Event Count - Число событий переназначения сбойных секторов. В поле raw value данного атрибута хранится общее число попыток переноса данных из нестабильных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.
  • 197 (C5) Current Pending Sector Count - Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область (remap). Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped). Если значение атрибутов 5,196,197 увеличивается за короткий промежуток времени (дни, или даже часы), то это является настораживающим признаком – либо ухудшаются технические параметры самого накопителя, либо сказывается влияние внешних воздействий.
  • 007 (07h) Seek Error Rate - Частота появления ошибок позиционирования блока магнитных головок (БМГ). Большое значение говорит о проблемах механизма позиционирования, хотя может быть вызвано и внешними факторами, такими как перегрев или повышенная вибрация.
  • 008 (08h) Seek Time Performance - средняя скорость позиционирования магнитных головок. Если значение атрибута уменьшается (замедление позиционирования), то велика вероятность проблем с механической частью привода головок.
  • 199 (C7) UltraDMA CRC Error Count - Счетчик ошибок, возникших при передаче данных в режиме UltraDMA. Рост абсолютного значения указывает на проблемы при передаче данных контроллером диска в оперативную память. Чаще всего, вызвано плохим кабелем и нестабильным электропитанием.

    Изменение абсолютных значений атрибутов нужно рассматривать в динамике, и в логической взаимосвязи друг с другом.

    Выполнение встроенных тестов S.M.A.R.T

    Набор встроенных тестов S.M.A.R.T определяется производителем и может значительно отличаться для разных моделей жестких дисков. В основном, встроенные тесты SMART представлены короткими тестами (short self-test) и длинными (extended sels-test). Короткие тесты выполняют сканирование небольшой части дисковой поверхности, определенной производителем, и выполняются, в среднем, около 1 минуты. Длинные тесты выполняют сканирование всей рабочей поверхности диска и могут выполняться, в зависимости от быстродействия и объема диска, даже несколько часов. Также, для современных дисков, можно выполнять селективные тесты (selective self-test), параметры которых задаются пользователем и тесты после транспортировки устройства (conveyance self-test). Выполнение тестов можно прервать, если не задан режим захвата накопителя (captive) и накопитель поддерживает команду отмены теста. Что касается режима захвата накопителя при выполнении тестов captive , то пользоваться им нужно осторожно, если диск используется системой.

    Примеры:

    smartctl --test=short /dev/sdb - запустить короткий тест. В ответ на команду, будет выведена информация:

    === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Short self-test routine immediately in off-line mode". Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful. Testing has begun (previous test aborted). Please wait 1 minutes for test to complete. Test will complete after Fri Dec 5 16:08:09 2014 Use smartctl -X to abort test.

    Что означает, что диску отправлена команда на выполнение короткого теста, диск ее воспринял успешно, тест будет продолжаться 1 минуту, и для принудительного его прекращения можно воспользоваться командой smartctl –X.

    Результат выполнения теста можно проверить, просмотрев журнал тестов командой smartctl –l selftest . В ответ будет получена информация журнала selftest :

    === START OF READ SMART DATA SECTION === SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 831 -

    Колонки журнала: Num - номер записи.
    Test_Description - описание теста.
    Status - статус завершения (выполнен без ошибок)
    Remaining - процент оставшегося времени до завершения теста, если он еще не завершен (00%)
    LifeTime(hours) - время работы накопителя с начала эксплуатации.
    LBA_of_first_error - номер логического блока LBA где обнаружена первая ошибка при выполнении теста. В данном примере, ошибок нет.

    Для запуска длинного теста используется команда:

    smartctl --test=long /dev/sdb

    В ответ на команду выводится информация о начале теста:

    === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Extended self-test routine immediately in off-line mode". Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful. Testing has begun. Please wait 70 minutes for test to complete. Test will complete after Fri Dec 5 17:15:44 2014

    Как видно, длинный тест для данной модели накопителя будет выполняться 70 минут.

    Результат выполнения можно проверить командой smartctl –l selftest /dev/sda

    Список команд ATA для работы с S.M.A.R.T

    SMART_READ_VALUES 0xd0 SMART_READ_THRESHOLDS 0xd1 SMART_AUTOSAVE 0xd2 SMART_SAVE 0xd3 SMART_IMMEDIATE_OFFLINE 0xd4 SMART_READ_LOG_SECTOR 0xd5 SMART_WRITE_LOG_SECTOR 0xd6 SMART_ENABLE 0xd8 SMART_DISABLE 0xd9 SMART_STATUS 0xda SMART_AUTO_OFFLINE 0xdb

    Дополнительно по теме оборудования в Linux:

  • Маленький рассказ об S.M.A.R.T. атрибутах, их важности и понимании. В статье пойдет речь об расшифровке всех smart атрибутов ATA дисков. В предыдущих статьях речь шла об и . Теперь хочу немного описать атрибуты обычных АТА дисков на примере Seagate Barracuda ES.2 (ST31000340NS). Так же определим самые важные атрибуты, на которые нужно обращать внимание при мониторинге дисков используя smartctl. Для начала, можно убедиться, что наш диск поддерживает смарт

    Root@ s01:~# smartctl -i /dev/sda smartctl 5.41 2011-06-09 r3365 (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net === START OF INFORMATION SECTION === Model Family: Seagate Barracuda ES.2 Device Model: ST31000340NS Serial Number: 9QJ2ADVC … ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Fri Feb 21 16:18:35 2014 CET … SMART support is: Available - device has SMART capability. SMART support is: Enabled

    Две последние строки свидетельствуют о том, что диск поддерживает smart и можно посмотреть значение всех его атрибутов и их интерпретация будет корректной(интерпретация RAW_VALUE) . В данном случаи тип интерфейса (устройства) не указывался явно (не было указанно атрибут «-d»), по этому smartctl автоматически определил тип устройства и сказал, что «SMART support is: Enabled». Но если используются, к примеру массивы дисков (RAID контроллер), то smartctl может сказать, что смарт не поддерживается:

    Root@s06:~# smartctl -i /dev/sda smartctl 5.41 2011-06-09 r3365 (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net Vendor: SMC Product: SMC2108 Revision: 2.90 User Capacity: 2,996,997,980,160 bytes Logical block size: 512 bytes Logical Unit id: 0xSerial number: Device type: disk Local Time is: Fri Feb 21 17:32:27 2014 IST Device does not support SMART

    Но на самом деле, нужно просто знать (или подбирать) какие дисковые массивы используются, и тогда можно получить желаемый результат явно указав тип устройства:

    Root@s06:~# smartctl -d megaraid,14 -i /dev/sda smartctl 5.41 2011-06-09 r3365 (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net Vendor: SEAGATE Product: ST1000NM0001 Revision: 0002 User Capacity: 1,000,204,886,016 bytes Logical block size: 512 bytes Logical Unit id: 0x5000c50041080343 Serial number: Z1N0TV980000C2157TYR Device type: disk Transport protocol: SAS Local Time is: Fri Feb 21 17:34:45 2014 IST Device supports SMART and is Enabled Temperature Warning Enabled

    Также может быть проблема в версии smartctl ибо не все жесткие диски добавляются в базу SMART сразу после выхода в мир нового HDD или RAID контроллера. Или же в BIOS отключено поддержку (нужно включить). Так же может быть проблема в прошивке (firmware) самого жесткого диска. Можете также стоит для начала попытаться включить SMART командой:

    Root@s01:~# smartctl -s on /dev/sda smartctl 5.41 2011-06-09 r3365 (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net === START OF ENABLE/DISABLE COMMANDS SECTION === SMART Enabled.

    Следующая, интересующая нас часть вывода покажет суммарный результат проверки статуса здоровья диска (Если не Passed – нужно проводить замену диска). Так же выводится дополнительные характеристики диска и предполагаемое время выполнения коротких и длинных тестов.

    Root@s01:~# smartctl -Hc /dev/sda smartctl 5.41 2011-06-09 r3365 (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: (41) The self-test routine was interrupted by the host with a hard or soft reset. Total time to complete Offline data collection: (634) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: (1) minutes. Extended self-test routine recommended polling time: (226) minutes. Conveyance self-test routine recommended polling time: (2) minutes. SCT capabilities: (0x003d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported.

    В нашем случаи тип устройства определился автоматически и теперь можно вывести самое интересное — список атрибутов.

    Root@s01:~# smartctl -A /dev/sda smartctl 5.41 2011-06-09 r3365 (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 068 059 044 Pre-fail Always - 130449727 3 Spin_Up_Time 0x0003 099 099 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 23 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 4 7 Seek_Error_Rate 0x000f 063 039 030 Pre-fail Always - 549998464474 9 Power_On_Hours 0x0032 052 052 000 Old_age Always - 42335 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 037 020 Old_age Always - 63 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 093 000 Old_age Always - 4295032870 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 076 049 045 Old_age Always - 24 (Min/Max 18/26) 194 Temperature_Celsius 0x0022 024 051 000 Old_age Always - 24 (0 17 0 0) 195 Hardware_ECC_Recovered 0x001a 041 021 000 Old_age Always - 130449727 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0

    Используя SMART можно предугадать с довольно большой вероятностью проблемы связанные с:

    • Магнитными головками диска
    • Физическими повреждениями диска
    • Логическими ошибками
    • Механическими проблемами (проблемы привода, системы позиционирования)
    • Подачей питания (платы)
    • Температурой

    Расшифруем полученный вывод.


    Каждый атрибут имеет группу значений:

    • ID# — идентификационный номер атрибуты (детали ). Каждый атрибуты имеет свой уникальный ID, который должен быть одинаковым для всех фирм производителей дисков.
    • ATTRIBUTE_NAME – название атрибута. Так как разные фирмы производители дисков могут называть атрибуты по своему (сокращать, синонимы), лучше всего ориентироваться по ID атрибута.
    • FLAG (Status flag) – каждый атрибут имеет определенный флаг, назначенный фирмой разработчиком диска. В ОС с графическим интерфейсом значения этого флага предоставляется в виде набора буквенных обозначений – w,p,r,c,o,s (расшифровка ниже). И эти наборы предоставляются в виде шестнадцатеричного числа которые вы видели выше.
    1. W arranty: Указывает на жизненно важный атрибут диска и покрывается гарантией. Если этот флаг установлен и значение атрибута с этим флагом достигнет порогового (threshold) значения, в то время, когда диск еще на гарантии, то фирма должна будет заменить диск бесплатно.
    2. P erformance: Указывает на атрибут, который представляет показатель производительности диска – не критический.
    3. Error R ate: Атрибут с частотой ошибок.
    4. C ount of occurrences: Атрибут-счетчик происшествий.
    5. O nline test: Атрибут, который обновляет значения только через on-line тесты. Если не указан, то обновляется через off-line тесты.
    6. S elf preserving: Указывает на атрибут который может собирать и сохранять данные о диска, даже если S.M.A.R.T. отключен.
    • Value – Текущее значение атрибута(оценка атрибута диска на основе Raw_value). Низкое значение говорит о быстрой деградации диска или о возможном скором сбое. т.е. чем выше значение Value атрибута, тем лучше. Это значение атрибута нужно сравнивать с пороговым (threshold) значением. Если это критический атрибут и значение ниже порогового — нужно проводить замену диска.
    • Worst – Самое низкое значение атрибута за жизненный цикл диска. Значение может изменяться на протяжении жизни диска, и не должно быть ниже или равным пороговому значению (threshold).
    • Thresh (Threshold) – Пороговое значения атрибута назначенное создателем диска. Значение не меняется за жизненный цикл диска. Если значение Value атрибута станет равным или меньше порогового – появиться уведомление в колонке WHEN_FAILED. И диск нужно заменить.
    • Type – тип атрибута. Может быть критическим (pre-fail), который указывает на предстоящий отказ диска из-за ошибок или не критический, указывающий на достижение конца жизненного цикла диска.
    • Raw_value – Объективное значения атрибута, которое показывается в десятичном формате (вычисляется firmware диска) и известных только производителю единицах (имеет связь с Value, Threshold и Worst значениями).
    • WHEN_FAILED – Указывает на проблемы с атрибутом.

    Атрибут диска примет значение failed, в случаи:

    Value = f(Raw_value ) <= Threshold

    • f(Raw_value) – функция вычисления деградации (уменьшения) значения параметра Value в зависимости от значения Raw_value.

    Недостатки такого подхода к вычислению деградации диска:

    • Для каждого производителя дисков и даже модели диска функция f(Raw_value) вычисляется по-разному.
    • Оценка каждого атрибута подсчитывается независимо друг от друга – т.е. игнорируются связи между атрибутами.

    Теперь хочу представить таблицу с перечисленными всех атрибутов. Те атрибуты, которые выделены розовым — относятся к атрибутам критическим. К тому же, указано тип параметра в зависимости от величины значения. Т.е. чем больше значение параметра, тем лучше состояние здоровья диска или наоборот.

    Теперь приступим к атрибутам:

    #ID HEX Имя атрибута Лучше если… Описание
    01 01 Raw Read Error Rate Частота ошибок при чтении данных с жёсткого диска. Происхождение их обусловлено аппаратной частью винчестера.
    02 02 Throughput Performance Общая производительность накопителя. Если значение атрибута уменьшается перманентно, то велика вероятность проблем с винчестером.
    03 03 Spin-Up Time Время раскрутки шпинделя из состояния покоя (0 rpm) до рабочей скорости. В поле Raw_value содержится время в миллисекундах/секундах в зависимости от производителя
    04 04 Start/Stop Count * Полное число запусков, остановок шпинделя. Иногда в том числе количество включений режима энергосбережения. В поле raw value хранится общее количество запусков/остановок жёсткого диска.
    05 05 Reallocated Sectors Count Число операций переназначения секторов. При обнаружении повреждённого сектора на винчестере, информация из него помечается и переносится в специально отведённую зону, происходит утилизация bad блоков, с последующим консервированием этих мест на диске. Этот процесс называют remapping. Чем больше значение Reallocated Sectors Count, тем хуже состояние поверхности дисков - физический износ поверхности. Поле raw value содержит общее количество переназначенных секторов.
    07 07 Seek Error Rate Частота ошибок при позиционировании блока магнитных головок. Чем больше значение, тем хуже состояние механики, или поверхности жёсткого диска.
    08 08 Seek Time Performance Средняя производительность операции позиционирования. Если значение атрибута уменьшается, то велика вероятность проблем с механической частью.
    09 09 Power-On Hours (POH) Время, проведённое устройством, во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ.
    10 0A Spin-Up Retry Count Число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной.
    11 0B Recalibration Retries Количество повторов рекалибровки в случае, если первая попытка была неудачной.
    12 0C Device Power Cycle Count Число циклов включения-выключения винчестера.
    13 0D Soft Read Error Rate Число ошибок при чтении, по вине программного обеспечения, которые не поддались исправлению.
    187 BB Reported UNC Errors Неустранимые аппаратные ошибки.
    190 BE Airflow Temperature Температура воздуха внутри корпуса жёсткого диска. Целое значение, либо значение по формуле 100 - Airflow Temperature
    191 BF G-sense error rate Количество ошибок, возникающих в результате ударов.
    192 C0 Power-off retract count Число циклов аварийных выключений.
    193 C1 Load/Unload Cycle Количество циклов перемещения блока головок в парковочную зону.
    194 C2 HDA temperature Показания встроенного термодатчика накопителя.
    195 C3 Hardware ECC Recovered Число коррекции ошибок аппаратной частью диска (ошибок чтения, ошибок позиционирования, ошибок передачи по внешнему интерфейсу).
    196 C4 Reallocation Event Count Число операций переназначения в резервную область, успешные и неудавшиеся попытки.
    197 C5 Current Pending Sector Count Число секторов- кандидатов на перенос в резервную зону. Помечены как не надёжные. При последующих корректных операциях атрибут может быть снят.
    198 C6 Uncorrectable Sector Count Число некорректируемых ошибок при обращении к сектору.
    199 C7 UltraDMA CRC Error Count Число ошибок при передаче данных по внешнему интерфейсу.
    200 C8 Write Error Rate / Multi-Zone Error Rate Общее количество ошибок при заполнения сектора информацией. Показатель качества накопителя.
    201 C9 Soft read error rate Частота появления «программных» ошибок при чтении данных с диска, а не аппаратной части HDD.
    202 Ca Data Address Mark errors Число ошибок адресно помеченной информации (Data Address Mark (DAM)).Если автоматически не корректируется - заменить устройство.
    203 CB Run out cancel Количество ошибок ECC данных, присоединяемые к передаваемому сигналу, позволяющие принимающей стороне определить факт сбоя или исправить несущественную ошибку.
    204 CC Soft ECC correction Количество ошибок ECC, скорректированных программным способом.
    205 CD Thermal asperity rate (TAR) Число ошибок в следствии температурных колебаний.
    206 CE Flying height * Высота между головкой и поверхностью диска компьютера.
    209 D1 Offline seek performance * Drive’s seek performance during offline operations.
    220 DC Disk Shift Дистанция смещения блока дисков относительно шпинделя. В основном возникает из-за удара или падения.
    221 DD G-Sense Error Rate Число ошибок, возникших из-за внешних нагрузок и ударов. Атрибут хранит показания встроенного crash датчика.
    222 DE Loaded Hours * Время, проведённое блоком магнитных головок между выгрузкой из парковочной области в рабочую область диска и загрузкой блока обратно в парковочную область.
    223 DF Load/Unload Retry Count * Количество новых попыток выгрузок/загрузок блока магнитных головок винчестера в/из парковочной области после неудачной попытки.
    224 E0 Load Friction Величина силы трения блока магнитных головок при его выгрузке из парковочной области.
    225 E1 Load Cycle Count Число циклов вход-выход в парковочную зону.
    226 E2 Load ‘In’-time * Время, за которое привод выгружает магнитные головки из парковочной области на рабочую поверхность диска.
    227 E3 Torque Amplification Count Количество попыток скомпенсировать вращающий момент.
    228 E4 Power-Off Retract Cycle Количество повторов автоматической парковки блока магнитных головок в результате выключения питания.
    230 E6 GMR Head Amplitude * Амплитуда «дрожания» (расстояние повторяющегося перемещения блока магнитных головок).
    231 E7 Temperature Температура жёсткого диска.
    240 F0 Head flying hours * Время позиционирования головки.
    250 FA Read error retry rate Число ошибок во время чтения жёсткого диска.

    Атрибуты дисков нужно смотреть в целом и самостоятельно прогнозировать замену, не только опираясь на smart атрибуты. Нужно дополнительно проводить тесты на бедблоки и запускать fscheck и smart тесты, о которых пойдет речь в следующих статьях.