smartctl -aの出力について


13

NASボックスに6台のドライブがあります。それらの2つはシーゲイトであり、エラーに対して高いRAW_VALUESを返します。下記参照。

私の他のドライブははるかに低い値を示しています。

これはアラームの原因ですか?それとも、シーゲイツの報告方法だけですか?

見てくださいRaw_Read_Error_RateSeek_Error_Rate

# smartctl -a /dev/ada1
=== START OF INFORMATION SECTION ===
Device Model:     ST3000DM001-9YN166
Serial Number:    W1F09S26
LU WWN Device Id: 5 000c50 0456076fc
Firmware Version: CC4C
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Sat Aug 18 17:34:24 2012 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 249) Self-test routine in progress...
                    90% of test remaining.
Total time to complete Offline 
data collection:        (  575) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    ( 255) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.
SCT capabilities:          (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   111   099   006    Pre-fail  Always       -       34053632
  3 Spin_Up_Time            0x0003   093   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       32
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   060   055   030    Pre-fail  Always       -       21480133713
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       2696
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       32
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   064   061   045    Old_age   Always       -       36 (Min/Max 34/38)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       28
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       63
194 Temperature_Celsius     0x0022   036   040   000    Old_age   Always       -       36 (0 19 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       43748536879750
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2867098636991
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       17478042509157

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 90%      2696         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

回答:


4

SeagateはSER(Seek_Error_Rate)を使用して、2つの異なるカウンターをコーディングします。シークエラーカウントには16の高重みビットが使用され、シークカウントには32の低重みビットが使用されます。これら2つのカウンターの読み取りを容易にするために、16進表示をお勧めします(エラーカウントの場合は6ニブル= 2 +シークカウントの場合は4)。

RRER(Raw_Read_Error_Rate)はインクリメンタルカウンターを表示しませんが、-10 log(エラーセクターの数/ディスク上の合計ビット)のような結果で、最小値と最大値があることを説明しています。最大値に近い方が良い。

これに関する詳細な説明はこちら:http : //www.users.on.net/~fzabkar/HDD/Seagate_SER_RRER_HEC.html


3

私が今まで見たすべてのシーゲイトドライブは、これらの2つのフィールドの奇妙な生の値を報告します。

できることの1つは、ユーティリティ(およびドライブ)が内部で行うのと同じことです:しきい値に対して正規化された値を確認します。値がしきい値に下がると、属性は失敗(または失敗)として報告されます。

もう1つできることは、別のSeagateドライブを購入しないことです。私はこのルートに行きましたが、彼らがファームウェアを書くことを学ぶまで、私は別のものを買いません。


3

セルフテストの結果は非常に信頼性が高く、自己説明的です(最後の実行が失敗したか、合格しました)。

ベンダー固有のさまざまな属性はまさにそれです。実際にそれらを解釈する標準化された方法はありません(そのため、smartmonツールはこれらの値の解釈を含むドライブデータベースを維持します)。ここにフラグがある場合、多くの意味の説明を見つけることができます:http : //en.wikipedia.org/wiki/SMART#Known_ATA_S.MART_attributes

SMART overall-health self-assessment test result: PASSEDは、その下に印刷された値から派生し、変換され、正規化され、ドライブデータベースによってしきい値が指定されます。

正規化された値の場合、通常は低いほど良いですが、すべてのフラグがそれ自体が機械的故障の前兆となることを示すわけではありません(しきい値を持つものがより可能性が高い)。訂正不能な読み取りエラー、スピンアップの失敗などの可能性があります。

これらの結果から、ドライブは良好な状態に見えます。


1

私がやっていることは、read hweccをチェックしてエラー率を探すことです。また、移転または保留中のセクターが存在しないことを確認します。最初の3つの#を取得した後、ドライブとの間で大量のコピーを行い、再度#を確認します。彼らが大きく上がっていない場合、私はドライブに目を離さない。彼らが撃った場合、私はベンダーに電話して、rmaを得るために何をしなければならないかを見てください。

23441590読み取りエラー206428348シークおよび27659067 eccの3年前のドライブがあります。thatsはhrs btwで動作します。5.5 yarの古いドライブには0 0 687123415 eccがあります。スマートな故障は、恐ろしい早期警告システムですが、数字はドライブを監視するために使用できます。故障が発生する前にスマートに予測されたドライブがほとんどないことを確認しました。また、私の3年前のドライブはシーゲイトであり、5年はシーゲイトが熱く走るサムスンです:/現在実行中のすべてのシーゲイトには、他のブランドのほとんどがいけないエラーがたくさんあります。

もう1つすべきことは、ドライブのベンチマークを時々保持することです。hdd tuneは、Windowsの良い例です。スワップファイルを持たない、またはグラフから起動したドライブで実行すると、読み取りの問題がある領域があるかどうかを確認できます。最近のドライブでは、50mb +から25mb程度の読み取り速度まで階段状に進むことがよくあります。急な落ち込みがある場合は、そのエリアに弱いまたは不良なセクターがある可能性があります。ドライブのベンチマークを毎月または3回保持している場合、突然何かが起こった場合に良いアイデアを得ることができます。D4xxの緯度は良い例でした。ドライブコントローラーが失敗し始めると、読み取り速度は5MB程度から始まり、10MBを超えることがあります。そのため、それらのドライブは常にrma'dになっています。ただし、テストするときにドライブを使用しているものが他にないことを確認するために、Bartpeディスクなどから起動する必要があります。

私はよく、これらの結果とhdd tuneなどを使用して、完全に死ぬ前にドライブにrmaを取得します。


故障したドライブと言ったときにセルフテストの結果が間違っていること、故障したドライブを常に見つけたり、事前に警告したりしないことを付け加えなければなりません。作業中のsmeドライブはすべてのテストに合格していますが、クリック音が聞こえるか、特定の領域でベンチマークが遅いことを示しています。1週間後、失敗します。その週に奇妙なアプリケーションがすべてハングするなど、ドライブが失敗するという症状になりました。
ケンドリック

1

smartctl私のボックスのmanページには、Linux Journalの著者の記事へのリンクがあります。特に、リスト3はの出力を説明していますsmartctl -a

それは10年以上経っていますが、それを読んだことはまだ関連性があり、権威ある説明を提供していると思います。


1
情報を複製し、リンク切れのジレンマを防ぐために、ここでその部分を引用することをお勧めします
;
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.