最小化硬碟驅動器故障和資料丟失/檢測即將發生的驅動器故障
作業系統工具,如 Windows 上的 chkdsk;以及 Linux 上的 fsck、smartctl 和 badblocks 可以定期使用,也許每三個月一次,以檢查驅動器上使用的檔案系統的完整性並儘可能修復錯誤。掃描的第三方工具也可用。除了例行掃描之外,如果在驅動器上操作檔案時遇到問題,還必須立即執行掃描。此類問題的典型例子是移動檔案時出現掛起或 CRC 錯誤。
診斷檢查還可以包括 壞扇區 掃描。雖然對大型驅動器執行壞扇區掃描可能需要幾個小時到幾天,具體取決於驅動器和使用的實用程式,但建議這樣做。驅動器上存在多個或數量增加的壞扇區可能是驅動器健康狀況不佳的跡象。可以更換此類驅動器,以避免進一步丟失資料。
可以使用各種 S.M.A.R.T. 工具 從驅動器查詢 S.M.A.R.T. 可靠性資料。這些資料可以用作驅動器健康的估計。根據資料,如果軟體報告驅動器健康狀況低於可接受水平,則可以主動更換驅動器。
存在軟體應用程式可以根據時間表自動監控 S.M.A.R.T. 資料。如果最小可靠性閾值被超過,應用程式可以提醒使用者。與僅手動查詢 S.M.A.R.T. 資料的應用程式相比,可能更喜歡此類應用程式。具有此功能的 Windows 免費軟體應用程式包括 PassMark DiskCheckup 和 Acronis Drive Monitor。
也存在軟體可以解釋 S.M.A.R.T. 資料並將數值百分比分配給驅動器的健康狀況。具有此功能的 Windows 免費軟體應用程式包括 SpeedFan(當與它的線上分析功能一起使用時)和 Acronis Drive Monitor。
與溫度資料一樣,驅動器提供的 S.M.A.R.T. 資料可能由於各種原因而不可讀。特別是,透過 USB 和 Firewire 外部連線的大多數驅動器無法讀取 S.M.A.R.T. 資料。這是因為 USB 和 ATA 協議之間的協議橋似乎不支援 S.M.A.R.T. 資料。
雖然 S.M.A.R.T. 有多個引數,但其中一部分引數對故障機率有很大影響。這些引數是掃描錯誤、重新分配計數、離線重新分配計數和試用計數。這四個引數的臨界閾值都是 1。
| 引數 | 達到引數的臨界閾值 1 後,驅動器在 60 天內發生故障的可能性增加的次數。 |
|---|---|
| 掃描錯誤 | 39* |
| 重新分配計數 | 14 |
| 離線重新分配計數 | 21 |
| 試用計數 | 16 |
*年輕驅動器中的掃描錯誤比舊驅動器更劇烈地增加了其發生故障的機率。雖然只有一個掃描錯誤的驅動器比沒有掃描錯誤的驅動器更容易發生故障,但具有多個掃描錯誤的驅動器會更快發生故障。
不幸的是,S.M.A.R.T. 資料本身不可能用於開發有效的單個驅動器故障預測模型。這是因為很大一部分發生故障的驅動器根本沒有 S.M.A.R.T. 錯誤。

作業系統記錄系統事件。特別令人關注的是由磁碟或磁碟控制器觸發的系統事件。只有記錄為錯誤或警告的事件才值得關注,而那些僅用於資訊目的而記錄的事件則不值得關注。在 Windows 下,可以使用內建的 事件檢視器 應用程式檢視事件。在其他作業系統下,可能可以使用其他應用程式來檢視事件日誌。
可以監視系統事件日誌中是否存在與磁碟相關的錯誤和警告。如果記錄了任何此類事件,則可以檢查它們以檢視它們與哪個驅動器或裝置相關。如果在短時間內多個驅動器突然記錄了類似的事件,則問題更有可能出在公共控制器卡或主機板元件上,而不是單個驅動器上。
根據事件及其頻率,如果問題出在驅動器上,則可以執行診斷軟體。如果事件繼續發生,它可以作為驅動器即將發生故障的徵兆。如果錯誤持續存在,則可以更換相關裝置。