ハードドライブに障害が発生したのはなぜですか？

24

私は小さなUbuntuサーバを自宅で走らせています。 mdadmによって管理されるディスク上に2つのソフトウェアRAID（raid1）があります。これは無関係だと思いますが、とにかく言及しています。

どちらのハードドライブもWestern Digitalであり、そのうちの1つがクリック音を出し始めて死亡した約2年間使用されてきました。私は2年後にそれが自然であるかもしれないと考えたので、私は新しいものを買い、そしてRAIDアレイを再同期しました。約1ヵ月後、他のドライブも死にました。

両方のドライブが同時に購入されているので、私は疑わしくはありませんでした。もう一人。

これまでのところ、2台の古いドライブが故障し、2台がシステムに新しく追加されました。 1か月後、新しいドライブの1つが死亡しました。それが疑わしくなり始めたときです。 PCはいくつかの本当に古い部品（AthlonXPだと思う）からまとめられたので、私はおそらくマザーボードのSATAコントローラが原因であると考えました。もちろん、このような古いPCでは部品を簡単に切り替えることができないので、システム全体、新しいMB、新しいCPU、新しいRAMを購入しました。故障したばかりのドライブを取り戻しました、保証期間中だったので交換しました。

そのため、古いドライブから最大2ドライブ、新しいドライブから最大1ドライブです。 1ヶ月間問題なし。その後、エラーが/ var / log / messagesに再び表示され、mdadmはRAIDアレイの障害を報告していました。私は私を引き裂き始めました脱毛する。システムのすべてが新しい、それは第3の真新しいハードドライブ次第です、それは私が買った新しいドライブのすべてが不完全であるということは単に不可能です。

それでも一般的なものを見てみましょう…ケーブル。さて、ロングショット、SATAケーブルを交換しましょう。ハードドライブを取り戻し、カウンターでその男に微笑みかけてそれを言う私は本当に不運です。彼はハードドライブを交換します。私は家に帰って、1か月経ちます、そして、ハードドライブのうちの1つは再び失敗します。冗談じゃないよ。

真新しい2台のハードドライブが故障しました。たぶんそれはOSのバグです。製造元のテストツールの内容を見てみましょう。テストツールをダウンロードし、CDに焼き付け、再起動して、ハードドライブのテストを一晩中放置します。テストはドライブが故障していると言っています、それでも私はそれができるならすべてをバックアップするべきです。何が起こっているのかわかりませんが、ソフトウェアの問題のようには見えません。何かが間違いなくハードドライブを悩ませています。

システム全体が靴箱に入っていることを今すぐ言及する必要があります。「自分でイケアケースを作る」ものがたくさんあるので、私は何もないはずだと思いました物を箱に捨てて、どこかに捨ててしまう問題。ボックスはよく換気されていますが、ドライブが過熱しているのではないかと思いました。これに対する他の可能な答えはありません。それで私はハードドライブを取り戻し、そしてそれを交換し（３回目）、そしてハードドライブクーラーを買った。

そして今、私は運命の音を聞いたことがあります。 click click whizzzzzzzzz 。ボックスにSSHで接続します。

You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...

dmesgの出力：

[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete

要約：

過熱する可能性なし
6台のドライブが故障し、そのうち4台が新品です。元の2つが不良であること、または新しいものと同じことに苦しんでいることが今はわかりません。
現在Ubuntu KarmicであるOS（Jauntyから始まっている）を除いて、システムに共通するものは何もありません。新しいMB、新しいCPU、新しいRAM、新しいSATAケーブル。
いいえ、ハードドライブの小さな穴はふさがれていません

私は泣いてる。本当に。私は今店に戻るような顔をしていません。4か月で4台のドライブが故障することはあり得ません。

私が考えてきたいくつかのアイデア：ドライブをパーティション分割して再同期すると、何かがおかしくなる可能性はありますか？ドライブを物理的に破壊するほどひどい状態になりますか？（ベンダー提供のツール以来ドライブが破損していると言う私はfdiskでパーティショニングをし、raid1パーティションにも同じブロックサイズを使います（fdisk -luで正確なブロックサイズをチェックします）

Linuxカーネルまたはmdadm、あるいは何かがこの正確なブランドのハードドライブと互換性がなく、それらを破壊する可能性はありますか？

靴箱かもしれませんか。他の場所に配置してみますか？今は棚の下にあるので、湿度も問題ではありません。通常のPCケースで問題が解決する可能性はありますか（私はその後自分で撃つつもりです）。明日写真を撮ります。

私はただ呪われているだけですか？

任意の助けや推測は大歓迎です。

編集する ：電源タップは過電圧から保護されています。

編集2 ：私はこの4ヶ月の間に移動したので、両方の場所で原因が「汚れた」電気である可能性は非常に低いです。

編集3 ：私はBIOSで電圧をチェックしました（マルチメータを借りることができませんでした）、そしてそれらはすべて正しいようです、それが11.3を供給しているので、最大の食い違いは12Vにあります。私はそれについて心配するべきですか？

編集4 ：デスクトップPCのPSUをサーバーに入れました。 BIOSははるかに正確な電圧測定値を報告しました、そしてまたそれは首尾よくraid1アレイを再構築するのに成功しました。それをテストするために明日新しいPSUを入手するでしょう。また、箱についての写真を添付してください：（ 3番目のドライブを無視してください）

picture of box of doom

hard-drive troubleshooting

— K. Norbert
ソース

7

なぜあなたはハードディスクをそんなに嫌いなのですか。

— Jeff Atwood

3

それは逆です、彼らは私を憎みます。情熱を込めて。

— K. Norbert

4

WishCow、ドライブテストがフレーク電源で行われた場合、それはフレーク電源でのドライブ操作のみを反映します。それに供給される貧弱な電力で故障するハードウェアは何度も適切な電力が供給されるときうまく動くでしょう。率直に言って、悪い電力はすべてのハードウェア問題の非常に大きな部分を占めます。悪いハードウェアコンポーネントが疑われるときの私の最初の行動は、よく知られている電源を試すことです...

— Richard T

3

電源タップは過電圧からあなたを保護するだけです。低電圧からあなたを守ることはできません。他の人が指摘するように、UPS（少なくともその塩の価値があるもの）は、コンセントから直接ではなくバッテリーで動くので、汚れた電力を「きれいにする」でしょう。

— Wayne Hartman

3

こんにちはウィッシュカウ、あなたはそれらを導電性材料ですべて一緒に接続することによってコンポーネントを接地します。伝統的に、人々は「ケース」を使います、しかしあなたはワイヤーを使うことができます。ディスクドライブにはネジ用のネジ穴がたくさんあります - これらは完璧です。マザーボードはケースの取り付けスタッドを通して接地されるように意図されていたので、もう少しトリッキーかもしれません。彼らは一方の端にネジがあり、ネジ山を持っている "スタンドオフ"ファスナーを作るにもう一人。ボードの取り付け穴の1つに取り付けるのに、ネジとナットのいずれかを使用することができます。ワイヤの取り付けはボード自体から遠ざけてください。 - コント -

— Richard T

27

あなたの電源も古くありますか？おそらくそれは、故障の原因となっているドライブの過小／過大供給です。あなたがマルチメータを持っているならば、私はあなたのハードドライブで動いている電圧を測定して、そしてそれをある期間にわたって見てみるでしょう。もう1つの原因は「汚れた」電気である可能性があるので、UPSはPSUに入る電力を「きれいにする」ために適切である可能性があります。

— Wayne Hartman
ソース

っ！それもそう古いです、マルチメータを取得しようとします。私が言及するのを忘れていたが、電源タップは過電圧に対して保護されている、少なくともそれはいくつかの特別なタイプです。提案をありがとう。

— K. Norbert

危険な電源装置は、ハードドライブなどの電気部品の故障の原因となる可能性があります。 PSUは私があなたの投稿を読んだときに私が最初に思ったことです。

— ConcernedOfTunbridgeWells

hddsが再びあきらめて、そしてコンポーネントを接地することを検討するまで、これを受け入れられたとマークしよう。先端をありがとう！

— K. Norbert

WishCow、これが正しい答えではないことを今すぐ理解してください。問題は、あなたがコンポーネントに根拠を与えなかったことです。

— Richard T

2

オッズはそれがPSUプラス接地の欠如です。あなたが引用した+ 12Vの電圧は（実際にはATXの仕様からは外れて）低く、私は経験上、HDDの低電圧に対する脆弱性の程度を知っています。 PCを扱う人にとっては、問題のないことを確認できるように、電源の問題がないことを確認するために、実際には問題のないPSUを使用することをお勧めします。

— raw_noob

14

私は他人に同意します：権力。

しかし、ひねりを加えた。

すべてのコンポーネントは共通のアースを持つ必要があります - シャーシは典型的です、しかしあなたの場合、誰が知っている！「漂流地」はこれを引き起こすでしょう、私は 確かに。

すべてのコンポーネントを1つのアースに接続し、そのアースを施設の「電力網」アースからのアースに接続する必要があります。これは重要。

ところで、それは可能古いハードウェアはすべてまだ大丈夫です。適切な電源が供給されていれば、フレーク電源を供給されていた機器でも問題なく耐えられることがあります。

これが役に立つことを願っています。

RT

— Richard T
ソース

ああ、私はそれを捨てたので、私は古いハードウェアが機能していないことを願っています。テスターツールは、HDDが壊れていると述べました。 PSUを交換してみます。

— K. Norbert

6

私は「ケースレス」システムを動かしている接地問題を抱えていました（すべての部品はplexyにマウントされ、壁に掛けられていました）。

— Chris Nava

5

これは古い投稿であり、元の質問は質問をしている人に関連性がなくなる可能性があります。しかし、予算のあるPCを製造している人々への将来の参照のために、電力はディスクドライブに関するすべての包括的な問題ではありません。 EMC認定の実装エンジニアとしての私の専門的見解では、コンピューターがカードボードの箱の中にあることを考えると、唯一の責任者として電源を責めるのは誤解を招くような答えです。

ハードディスクは振動します、そして、ディスクの寿命を増減させる特定の位置、垂直、水平はありませんが、スピンドルを持つハードドライブが生み出す振動要因があります。ここに表示されているドライブは、段ボール箱に入っているだけです。これは予算工学の一例であり、振動するドライブはその側面にあり、プラッタの共振をさらに高めます。これ自体は答えではありませんが、不適切にマウントされたハードディスクは、振動するプラッタが読み書きヘッドをプラッタに正しく接触させることを妨げるため、ディスク障害を引き起こす可能性があります。

電源、安価な電源は、一般的にコンピュータには常に悪いですが、このPSUがハードドライブを殺害し、ボード上の他のより敏感なコンポーネントを殺害することはまずありません。このシステムは段ボール箱に入っているので、技術と力が壊滅的な失敗を招く可能性がありましたが、必ずしも彼のディスク障害ではありませんでした。それは可能ですが、この場合は証明されていません。

熱：熱はディスクを破壊する可能性がありますが、障害発生時にディスクの温度が上がっていなければ、熱は原因ではありません。段ボール箱は、PCやサーバーの設計には適していません。あなたは自分の部品をコンピュータの机や作業台にボルトで固定することをお勧めします、少なくともそれらは接地されるでしょう。

ソフトRAIDと安価なドライブ写真で見た段ボール箱と古い部品を考えると、あなたは標準的なデスクトップドライブとソフトRAIDを使っているように見えます。デスクトップドライブはRAIDコントローラに配置できますが、ディスク上のI / Oが増加すると、ディスク障害の可能性が高まります。この場合にイメージされたディスクは、ハードウェアRAIDコントローラ上にはありませんが、マザーボード上のソフトウェアコンポーネントと一緒にグループ化されています。これはハードドライブには理想的ではありません。これはあなたのCPUの作業負荷を増加させます、そして、ソフトRAIDは時期尚早にエラーを持ちそしてハードドライブを殺すことが知られています。ソフトRAIDが他の何よりもこれらのドライブを殺した可能性があります。

将来のビルドの防止あなたがこれを読んでいて、グーグルの質問を通してこの古いユーザーのシナリオを見ているかどうか。

ディスクが安定したハードドライブシャーシに正しく取り付けられていることを確認します。少なくとも4本のハードドライブネジでディスクを固定するか、シャーシに付属の特殊なディスクスレッドを使用してください。

- あなたのケースでは十分な空気の流れがあることを確認してください、RAID内のハードディスクはディスク上により多くのI / Oを持つ傾向があり、そして物理的なボリュームが個別にマウントされるよりはるかに熱くなります。

- 安い電源を使わないでください。汚れた電力は高価なコンピュータ部品の殺人者です。また、ご使用の電源装置が、必要な作業負荷を処理するのに十分なワット数を提供していることを確認してください。

- RAIDコントローラカードを使用してください。マザーボードのソフトRAIDを絶対に使用しないでください。ソフトRAIDはディスクのパフォーマンスを低下させ、RAIDコントローラカードよりもディスク障害の可能性を高めます。

-RAIDは一般に、すべてのボリュームでI / Oが増加するため、ディスク障害の可能性が高くなります。参加するディスクプールが大きいほど、ドライブが故障する可能性が高くなります。ドライブをRAIDする場合は、必ずパリティドライブとホットスペアを使用してください。 RAID 0 2-3ディスクの場合、データを失う可能性があります。ディスクが3つある場合は、RAID 5を使用してください。お使いのドライブが保証の対象となっている場合は、ホットスペアを備えたRAID 5（4 + 1）上の6台のディスクが理想的です。これ以上ディスクを購入できない場合、またはディスクの保証対象外の場合は、RAIDを使用しないでください。

- デスクトップドライブはエンタープライズドライブではありません。デスクトップドライブはエンタープライズドライブに似ていますが、RAIDコントローラによってもたらされる莫大な作業負荷を処理するようには設計されていません。デスクトップドライブをneweggから購入し、それらをマザーボード上でRAIDすると、最初の1年間に少なくとも1台のドライブ障害が発生する可能性があります。マシンをRAID上で長く操作するほど、ディスクに書き込まれるI / Oが増え、ボリュームに障害が発生する可能性が高くなります。安価なドライブと安価なマザーボードのソフトRAIDを組み合わせると、怪我をすることになります。

このユーザーは、自分のシューズボックスサーバーでこれらすべての要素を経験した可能性があります。安い電力、悪い空気の流れ、シャーシに正しく取り付けられていない古い安いドライブ、およびマザーボードのソフトRAID ...これはすべてディスク障害の可能性を高めます。

— user2809007
ソース

4

靴箱の中でどのように換気と冷却がうまくいくか想像できませんか？あなたは本当に本物のコンピュータケースのために50または60ドルを払うべきですか？

電源タップは電力サージに対してのみ保護します。電子機器の一般的な問題は、低電圧（電圧低下）と過電圧（スパイク）です。 EMIノイズも一般的です - しばらく前に不安定なコンピュータを持っていましたが、これは同じ回路にトレッドミルがあることが原因であることがわかりました（私は個人的に疑いを超えてこれを検証しました）。それはモデムをオフラインでキックし、システムを時々フリーズさせます。

また、ノイズや電源の変動に絶えずさらされると、最終的にPSUが損傷し、電子機器に供給される電力の品質が低下します。

編集：電力変動は特定の回路に分離することができます。さらに重要なことには、電子レンジ、冷蔵庫、トレッドミル、ストーブなどのような高性能の電化製品は、その回路の電力品質に大きな影響を与える可能性があります。そして冷蔵庫のようなものはまた、モーターが作動して出入りするときに順番に茶色になりそしてライン上の電力を急上昇させる連続的な作動のオン/オフサイクルを持っています。

また、同じ電力会社から電力を供給されているのであれば、彼らは全面的に電圧を供給し続けている可能性があります。 105Vと125Vの間で絶えず変動すると、電子機器に悪影響を及ぼします（私が理解しているように）。

— Lawrence Dol
ソース

箱は覆われておらず、HDDにはクーラーが付いています。良い換気はここでは正しい用語ではないかもしれませんが、それは間違いなく過熱していない、私はsmartmontoolsで温度をチェックしました。しかし、問題が電気の問題である場合、家庭内の他のコンピュータが何らかの症状を引き起こすことはありませんか？また、4ヶ月の間に新しい場所に引っ越したので、両方の場所に電気の問題がある可能性は低いです。

— K. Norbert

移動しても、コンピュータと同じ回線上に同じアプライアンスがある可能性があります。また、あなたのPSUは既に撃たれているかもしれないので、ダメージはすでになされているかもしれません。私は安価なものを手に入れることから始めると思います 電力フィルタリング UPS（約100ドル）を使用して、すぐにコンピュータのPSU（約60ドル）を交換します。

— Lawrence Dol

2

それは本当に電力問題のように聞こえます。

あなたが電力サージを持っているならば、多くの安い電源タップは一度だけ働くでしょう - そして通常それらがもはや保護していないという表示はありません。

優れたUPSは役に立つかもしれません - いくつかのハイエンドのものは実際に電池から電力を生成し、そして完全に隔離された電力を供給して、継続的に充電しています。唯一の欠点は、それらがうるさいことがあるということです。

— chris
ソース

それは彼が "それを離れて詰め込んでいる"アウトレットからの問題ではないでしょうか？私は最初に家のどこかでそれを試す傾向があります。

— mtone

私は実際にCostcoから100ドルの電力調整UPSを手に入れた。バッテリーはそれほど大きくはなく、インターネットモデムと電話ボックスを稼働させるのに十分なだけのものですが、私は主にコンピュータの電源を調整するためにそれを購入しました。

— Lawrence Dol

箱は基本的に棚の下にあり、それは覆われていません、そしてそれは他の電化製品の近くにはありません。（atmに接続されていないps2は別として）それが電気だとしたら、それは他のPCにも問題を起こさないでしょうか。

— K. Norbert

私は建物に入ってくる電力かもしれません、それは家の中で何か他のものかもしれません - 故障している器具の近くは電力に影響を与える必要はありません。それは電源が限界であるかもしれないので、それは他のコンピュータより干渉の影響を受けます

— chris

2

実際、HDDメーカーはドライブの作業位置に関する情報を印刷していませんが、ハードドライブを横に置いても問題ありません。前回その情報を確認したとき、ドライブは平らにまたは横に置いて、これらの位置から最大5または10度の角度で配置することができました。コネクタを上下逆にして配置したり、コネクタを上向きまたは下向きにしたりすることは正当な位置ではありません。上向きまたは下向きのコネクタは、約15年前までは輸送に最適な位置でした。これは私がこれについて持っている最新の情報です。

私は真新しい500GB WDの緑のハードドライブに同じ種類のエラーを抱えています、そしてあなたのSATAケーブルは私のように見えます、そして私はそれらをひどく疑っています。

接地の問題は適切に悪いことではありません。部品は金属製のケースに正しく取り付けることで接地する必要がありますが、すべてのコネクタとケーブルが100％問題なければ問題にならないはずです。

もちろん、悪い電源がシステム全体に多くの悪いことをする可能性があります、私はできるだけ早く、まともなシャーシにマウントされたすべてのもので、新しいPSUでテストするでしょう。

がんばろう

— Sérgio Gaspar
ソース

1

悪いところが原因である可能性が高いことに同意します。ただし、考えられる原因として過熱を検討してください。ドライブが高温になっている場合は、高温すぎます。それらにファンを置きなさい。

— Chris Nava
ソース

ドライブにファンがあります。

— K. Norbert

1

あなたは彼らがS.M.A.R.Tを見ることによって彼らが過熱されたかどうか調べることができます。値多くのホットスワップキャリアはプラスチック製で接地されていないため、ケースを接地する必要はありません。 SATAケーブルを介して接地すれば十分です。しっかりと固定することで振動の問題を解決することができます。ヘッドはプラッタに触れませんが、わずかに上に乗り、プラッタに衝突すると小さな粒子が分裂し、最終的にヘッドがクラッシュすることがあります。

— disk guy
ソース

0

あなたはおそらくあなたのUbuntuインストールを更新するべきです。数ヵ月（数年前）前に、Ubuntuインストールでハードドライブの消耗を増加させるバグが見つかりました。

この問題/バグについてのこのリンクをチェックしてください。ハードディスクのロード/アンロードの頻度が高いと、寿命が短くなることがあります。

— cyclo
ソース

一見するとこれは別の問題のように思えますが、それを通して読むでしょう、ありがとう。

— K. Norbert

0

あなたの（完全にシールドされていない）靴箱の隣に大きなスピーカー、冷蔵庫、エアコン、電気モーターあるいは他の磁気源があるかもしれませんか？

— Console
ソース

残念ながらいいえ、何もありません。

— K. Norbert

0

悪い土地があなたのストレージの悲劇の原因かもしれないことに同意します。ただし、振動によって永久的な損傷が発生する可能性があるため、ハードディスクドライブの固定も強化します。

— pistache
ソース

0

ドライブファンの電力を分配する電力分配器を確認してください。断続的なコネクタは、重大な瞬間にドライブの電源を切ってクラッシュさせる可能性があります。 MB、PSU、およびHDの間のしっかりした接地の場合が絶対に必要です。

— Steve
ソース

-3

ほとんどの場合、ハードドライブはコンピュータケースに平らに横たわってマウントされているため、ハードドライブを横にすると正しく動作しなくなる可能性があります。

— monster
ソース

2

これは原因ではありません。ハードドライブは、その向きをあまり気にしません。

— Dan D.