私は小さなUbuntuサーバを自宅で走らせています。 mdadmによって管理されるディスク上に2つのソフトウェアRAID(raid1)があります。 これは無関係だと思いますが、とにかく言及しています。
どちらのハードドライブもWestern Digitalであり、そのうちの1つがクリック音を出し始めて死亡した約2年間使用されてきました。 私は2年後にそれが自然であるかもしれないと考えたので、私は新しいものを買い、そしてRAIDアレイを再同期しました。約1ヵ月後、他のドライブも死にました。
両方のドライブが同時に購入されているので、私は疑わしくはありませんでした。 もう一人。
これまでのところ、2台の古いドライブが故障し、2台がシステムに新しく追加されました。 1か月後、新しいドライブの1つが死亡しました。それが疑わしくなり始めたときです。 PCはいくつかの本当に古い部品(AthlonXPだと思う)からまとめられたので、私はおそらくマザーボードのSATAコントローラが原因であると考えました。 もちろん、このような古いPCでは部品を簡単に切り替えることができないので、システム全体、新しいMB、新しいCPU、新しいRAMを購入しました。故障したばかりのドライブを取り戻しました、 保証期間中だったので交換しました。
そのため、古いドライブから最大2ドライブ、新しいドライブから最大1ドライブです。 1ヶ月間問題なし。その後、エラーが/ var / log / messagesに再び表示され、mdadmはRAIDアレイの障害を報告していました。私は私を引き裂き始めました 脱毛する。システムのすべてが新しい、それは第3の真新しいハードドライブ次第です、それは私が買った新しいドライブのすべてが不完全であるということは単に不可能です。
それでも一般的なものを見てみましょう…ケーブル。さて、ロングショット、SATAケーブルを交換しましょう。ハードドライブを取り戻し、カウンターでその男に微笑みかけてそれを言う 私は本当に不運です。彼はハードドライブを交換します。私は家に帰って、1か月経ちます、そして、ハードドライブのうちの1つは再び失敗します。冗談じゃないよ。
真新しい2台のハードドライブが故障しました。 たぶんそれはOSのバグです。製造元のテストツールの内容を見てみましょう。テストツールをダウンロードし、CDに焼き付け、再起動して、ハードドライブのテストを一晩中放置します。 テストはドライブが故障していると言っています、それでも私はそれができるならすべてをバックアップするべきです。何が起こっているのかわかりませんが、ソフトウェアの問題のようには見えません。 何かが間違いなくハードドライブを悩ませています。
システム全体が靴箱に入っていることを今すぐ言及する必要があります。 「自分でイケアケースを作る」ものがたくさんあるので、私は何もないはずだと思いました 物を箱に捨てて、どこかに捨ててしまう問題。ボックスはよく換気されていますが、ドライブが過熱しているのではないかと思いました。 これに対する他の可能な答えはありません。それで私はハードドライブを取り戻し、そしてそれを交換し(3回目)、そしてハードドライブクーラーを買った。
そして今、私は運命の音を聞いたことがあります。 click click whizzzzzzzzz 。 ボックスにSSHで接続します。
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
dmesgの出力:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
要約:
- 過熱する可能性なし
- 6台のドライブが故障し、そのうち4台が新品です。元の2つが不良であること、または新しいものと同じことに苦しんでいることが今はわかりません。
- 現在Ubuntu KarmicであるOS(Jauntyから始まっている)を除いて、システムに共通するものは何もありません。新しいMB、新しいCPU、新しいRAM、新しいSATAケーブル。
- いいえ、ハードドライブの小さな穴はふさがれていません
私は泣いてる。本当に。私は今店に戻るような顔をしていません。4か月で4台のドライブが故障することはあり得ません。
私が考えてきたいくつかのアイデア: ドライブをパーティション分割して再同期すると、何かがおかしくなる可能性はありますか?ドライブを物理的に破壊するほどひどい状態になりますか? (ベンダー提供のツール以来 ドライブが破損していると言う 私はfdiskでパーティショニングをし、raid1パーティションにも同じブロックサイズを使います(fdisk -luで正確なブロックサイズをチェックします)
Linuxカーネルまたはmdadm、あるいは何かがこの正確なブランドのハードドライブと互換性がなく、それらを破壊する可能性はありますか?
靴箱かもしれませんか。他の場所に配置してみますか?今は棚の下にあるので、湿度も問題ではありません。 通常のPCケースで問題が解決する可能性はありますか(私はその後自分で撃つつもりです)。明日写真を撮ります。
私はただ呪われているだけですか?
任意の助けや推測は大歓迎です。
編集する : 電源タップは過電圧から保護されています。
編集2 : 私はこの4ヶ月の間に移動したので、両方の場所で原因が「汚れた」電気である可能性は非常に低いです。
編集3 : 私はBIOSで電圧をチェックしました(マルチメータを借りることができませんでした)、そしてそれらはすべて正しいようです、それが11.3を供給しているので、最大の食い違いは12Vにあります。私はそれについて心配するべきですか?
編集4 : デスクトップPCのPSUをサーバーに入れました。 BIOSははるかに正確な電圧測定値を報告しました、そしてまたそれは首尾よくraid1アレイを再構築するのに成功しました。それをテストするために明日新しいPSUを入手するでしょう。 また、箱についての写真を添付してください:( 3番目のドライブを無視してください)