syslogのこれらのディスクエラーはどういう意味ですか?


13

しばらくして監視サーバーを初めて再起動したところ、画面が次のようになりました。

Jul 11 23:52:30 monit kernel: [   25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 11 23:52:30 monit kernel: [   25.256170] ata1.00: BMDMA stat 0x24
Jul 11 23:52:30 monit kernel: [   25.256278] ata1.00: failed command: READ DMA
Jul 11 23:52:30 monit kernel: [   25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in
Jul 11 23:52:30 monit kernel: [   25.256416]          res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error)
Jul 11 23:52:30 monit kernel: [   25.256809] ata1.00: status: { DRDY ERR }
Jul 11 23:52:30 monit kernel: [   25.256933] ata1.00: error: { UNC }
Jul 11 23:52:30 monit kernel: [   25.304388] ata1.00: configured for UDMA/66
Jul 11 23:52:30 monit kernel: [   25.304430] ata1: EH complete

. . . 

Jul 11 23:52:30 monit kernel: [   25.552451] sd 0:0:0:0: [sda] Unhandled sense code
Jul 11 23:52:30 monit kernel: [   25.552462] sd 0:0:0:0: [sda]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 11 23:52:30 monit kernel: [   25.552475] sd 0:0:0:0: [sda]  Sense Key : Medium Error [current] [descriptor]
Jul 11 23:52:30 monit kernel: [   25.552490] Descriptor sense data with sense descriptors (in hex):
Jul 11 23:52:30 monit kernel: [   25.552498]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Jul 11 23:52:30 monit kernel: [   25.552529]         00 35 68 41 
Jul 11 23:52:30 monit kernel: [   25.552543] sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
Jul 11 23:52:30 monit kernel: [   25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00
Jul 11 23:52:30 monit kernel: [   25.552587] end_request: I/O error, dev sda, sector 3500097
Jul 11 23:52:30 monit kernel: [   25.556607] ata1: EH complete

HDDを交換する必要があることは既に知っていますが(データのコスト> HDDのコスト)、実際に問題なのかを自分の知識で知りたいと思います。

はい、監視サーバーにはRAIDがなく、HDDが1つだけです。私を見ないでください...


3
「はい、監視サーバーにはRAIDがなく、HDDが1つしかありません...私を見てはいけません...」-十分なバックアップがあれば、あまり見ていません。
ヤンネピッカライネン

2
良いバックアップがあればいいのですが。おそらく必要になるでしょう。監視サーバーがそれほど重要な場合は、ハードドライブを少なくともRAID 1に交換するコストを簡単に正当化できるはずです。
マイケルハンプトン

1
RAIDがない場合でも、すべてのディスクのSMARTデータを監視する必要があります。
ジェームズヤングマン

回答:


16
sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed

ドライブに不良セクタがあり、これらを再割り当てできないようです(おそらく予備セクタが不足しているため)。の出力はsmartctl -a /dev/sda、ドライブの状態に関する詳細情報を提供します。


また、このエラーは単純な読み取り(cpファイルからの試行など)で発生することも確認しました。その場合、不良になったセクターのファイルへの損傷は深刻であり、データを再構築することさえできなかったため、データを他の場所に保存しようとする前に「再割り当て」エラーが実際に発生しました。
ランドール

12

ラッシーは「arf!arf arf!arf!」と言っています。これは愚かです。なぜなら、これはティミー井戸とは何の関係もないからです。これが、犬からシステム管理者のアドバイスを受け取らない理由です。

ドライブは、「Unrecovered read error-auto reallocate failed」を表示します。これは、基本的に「読み込もうとして失敗し、リカバリしようとしました(セクタをさらに数回読み込み、ECCを適用し、データを壊れていないセクター)、それは機能しませんでした」。これはおそらく、ディスクがしばらくの間死にかけているため、ディスクがすでに再割り当てされたセクターでぎっしり詰まっていることを(mgorvenが言っているように)おそらく意味しますが、セクターをまったく回復できなかったことを意味する可能性もあります(繰り返し読み取り+ ECCは見栄えの良いデータブロックを取得できませんでした。

いずれにせよ、そう、ドライブは非常に、非常にサボテンです。あなたのデータも実際には健全に見えません。


1
正しい-SMARTデータは、すでに再割り当てされたセクターの数も示す場合があります。
ジェームズヤングマン

3

私はこれが古いことを知っていますが、誰かがまだこの投稿を読んでいる場合のために:「DDは壊れたセクターも読み込もうとします」-gddrescueはここで役に立ちます。それはしません(大丈夫、しかし、一度だけ)。


1

そのディスクのddイメージまたはrsyncコピーをすぐに作成します。++ 、便利そのボックスのリストアを。そして、互換性があり動作する交換用ディスクを探し始めます。

ところで、UDMA / 66、それは10年前のPATAディスクですか?


2
DDは、破損したセクターの読み取りも試みます。
ヘネス

3
通常、最高の効果はありません...エラー動作をよりよく制御するddrescueと呼ばれる高度なバージョンがあります。
rackandboneman

常にありconv=noerrorますが、それが壊れたファイルシステムになる場合にそれがどのくらいうまく機能するのか分かりません。おそらく悪くないファイルでデータファイルを読むよりますが、確かではない任意のより良い...
からCVn

0

すでに述べたように、ドライブが寿命に近づいているが、必ずしもすぐではないことを意味する可能性があります- fsckディスク上で実行してエラーを修復する必要があります(不良ブロックの修正についてはsmartmontools wikiを参照してください)長い間。

ただし、実行を開始しsmartdsmartmontoolsパッケージの一部として提供されます)、そのレポートを監視したり、電子メール通知を設定する必要があります。また/etc/smartmontools/run.d/、によって呼び出されるスクリプト()を作成することにより、独自のカスタム通知を追加できますsmartd-runner

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.