障害が発生する前にサーバーのハードドライブを変更する理由はありますか?


11

簡単な質問:障害が発生する前にx年後にサーバーのハードドライブを変更する理由があるか(最終的にはある時点で)、または障害が発生するまでそのままにしておくべきですか?実際のサーバー管理の経験がほとんどないので、...


多くの答えが得られるとは思いませんでした。すごい:)すべてを確認し、a)サーバーのハードドライブが目的に適していることを考慮した後b)バックアップは完全に保証されています(RAID +レプリケーションスレーブ+毎日のバックアップを使用して外部ソース)ドライブの変更を提案する理由はありません。皆さんありがとう!
スピロス

回答:


8

変更する大きな理由は、何か問題が発生する可能性を高めながら、実行するタスクのリストに別のタスクを追加したい場合です。

冗談はさておき、前もってドライブを変更する理由は聞いたことがありません。RAIDを設置している場合は、すでに適切な保護が施されており(適切なバックアップがあると仮定)、廃棄するドライブの形で廃棄物を生成しておらず、不要な除去に取り組む必要はありません。ドライブからの機密データ。新しいドライブに余分なお金を費やすことはありませんし、ドライブコントローラーとして障害が発生する可能性があります。

一方、これはRAID 5で発生したように、RAIDユニットでアラームをトリガーしない回復不能なドライブエラーを発見するのに役立ちます。これに噛まれて、バックアップからベアメタルから再構築する必要がありましたその場合、適切なバックアップが回復に役立ちます。)今日のより大きなドライブ容量と回復不能なエラー許容度を考慮したRAIDレベルは、バックアップが1日を節約するのに役立つでしょう。

ほとんどの管理者はまともなRAIDとバックアップ計画を持っているので、ドライブを不必要に交換することによって余分な無駄を生成する必要はありません。


6

これを検討できるのは、同じバッチから多数のディスクがあり、バッチ内の他のディスクが失敗し始めた場合だけです。

もしスペースがきついなら、それをやるだろう-しかし、それが古くなっているという理由以外の理由はないのか?いいえ。平均して、初年度の故障率は他の年の故障率と似ているためです。(グラフは最初の1年を3か月、6か月、1年に分けていますが、1年で失敗する可能性を得るためにそれらをすべて加算する必要があることに注意してください)。また、高いディスク使用率を見ると、次の3年間を合わせた場合よりも最初の1年で失敗する可能性が高くなります。

遅いドライブ障害との唯一の相関関係は、より暑い部屋でのことであり、サーバー室は涼しく保ちます。


5

私はすべて先を見越して取り組んでいますが、私はそれをやったことがないし、誰もそれをやったことを聞いたことがありません。おそらく、何らかのタイプのRAIDセットアップがあり、問題のシステムに対して定期的に発生する有効なバックアップがあります。


5
+1、考えたことがない。念のためディスクを交換し、意図的にアレイの再構築をトリガーすることは、残りの運用ディスクを「実行」する最良の方法とは思えません。再構築に失敗した場合にシステムがダウンした理由を上司に説明するのは困難です。
jscott

3
SMARTエラーのあるディスクを交換しますが、技術的には機能していても、故障したと見なします。
クリスS

4

はい、パフォーマンスと容量。古いハードドライブが70MB /秒の持続読み取りと100 IOPSを実行し、潜在的な交換が200MB /秒の持続読み取りと175 IOPSを実行し、3倍の容量を持っている場合、新しいドライブを購入して古いものを新しいものと交換するだけの正当な理由があるかもしれませんパフォーマンス/容量の理由。(これらの数値は完全に構成されているので、ポイントは新しいほど大幅に高速化できます)。

今、あなたは古いドライブで何をしますか。テストサーバーで使用したり、ディスクアレイへのバックアップに追加したり、緊急スペアとして保持したりできます。または、単にそれらを拭いて廃棄するためにそれらを送ってください。

現在の平均的なサーバーは、プロセッサにバインドされている(または少なくとも私のすべてにバインドされている)よりもIOバインドされています。そのため、CPU時間やメモリ不足の問題のない非常に古いサーバーがある場合は、簡単に購入して交換できる数世代のハードドライブを交換することで、パフォーマンスを大幅に改善する余地があります。


3

ハードドライブに障害が発生した場合の影響によって異なります。

RAID
がない場合サービスを停止できるため、または高可用性にあり、データの作業用バックアップがあるためにサーバーの可用性を気にしない場合。ドライブを停止させて変更し、障害が発生したときにデータを復元します。
あなたが可用性を気にするなら、私はRAIDを使用すると言います;)

RAID(1、5、6、...)
がある場合、障害の前にハードドライブを変更する理由は何でしょうか。RAID(およびバックアップ)はそのためにあります。故障する可能性がある場合に備えてハードドライブを変更することは、何かを壊すリスクです(RAIDの再構築は常に危険です)

しかし、それは私の視点にすぎません!ドライブが古すぎると思われる場合は、サーバーも変更する必要があります。


2

1時間で死ぬディスクもあれば、20年続くディスクもあります。

失敗も失敗もしていない場合(通常、SMART監視またはパフォーマンスの問題を介して確立できるもの)、それを捨てる唯一の理由は、目的に十分な大きさまたは十分な速度がない場合です。


1
SMARTでドライブを監視するだけで、通常は手遅れになる前に障害の兆候を示します。
モリアーティ教授

@Prof Googleの大容量ディスクの調査では、SMARTは「通常」44%〜72%の信頼性があることが示されました。 static.googleusercontent.com/external_content/untrusted_dlcp/...
jscott

2

ディスクの場合、問題はそれらが失敗するかどうかではなく、いつですか。それらは機械的なデバイスであり(SSDを使用している場合を除き、独自の警告があります)、遅かれ早かれ失敗します。

ディスクベンダーは、製造プロセスを可能な限り安価に調整する傾向があります。なぜなら、ディスクを1枚1セント節約するだけでも、数千個のディスクを生産および販売する際に非常に重要になるからです。しかし、彼らはもちろん、保証期間が終了する前にディスクが故障することを望んでいないか、または常に無料で交換することを望んでいます。そのため、保証でカバーされている限り、必要なだけそれらを長持ちさせることができますが、それ以上の費用はかかりません。

最終結果は次のとおりです。ほとんどのディスクは、保証期間が終了するとすぐに故障する傾向があります。もちろんこれは一般的なルールではなく、統計に過ぎず、ディスクは現在または今後必要なくなるまで故障する可能性があります...しかし、統計的には、数日または数か月後に故障するディスクがたくさんあります保証期限切れ。

もちろん、まだ必要ないときに新しいものを購入するのは費用がかかる可能性があります...しかし、保証期間が終了し、故障した後は交換するのは費用がかかります。

今、あなたがまだ保証されている間にそれらを失敗させる方法を見つけることができれば(そして、プロセスでデータを失わない、すなわち良いRAID バックアップを持っている)、それは最適です;-)


2

稼働中の電源を交換するよりも、稼働中のドライブを交換することはありません。どちらも最終的には失敗しますが、正当な理由なしにそれらを交換することは、技術的にも財政的にも意味がありません。トラブルの兆候が見え始めたら交換してください。

ハードドライブの場合、傾向は、ドライブが早期に故障する場合、最初の年に故障する可能性が高いということです。6年間問題なく動作したドライブは、通常、少なくともあと数年間は動作し続けることができます。それには明らかに多くの例外がありますが、それは一般的な傾向です。


1
あなたは(通常)電源が故障してもデータを失いません
Massimo

1
@Massimo-正しいですが、サーバーでは、1つのドライブに障害が発生してもデータが失われることは通常ありません。私の意見では、冗長性がなければ、それはただの栄光のワークステーションであり、実際のサーバーではありません。
ジョンガーデニアーズ

1

また、ほとんどのサーバークラスのドライブには、より厳しい製造要件があり、通常は低コスト/予算のデスクトップドライブよりも信頼性が高いことに注意してください。したがって、故障した可能性がある場合に「良好な」ドライブを交換する危険性は別として、これを大規模なアレイに対して行うと、合計金額が大きくなる可能性があります。

また、RAIDを使用する場合、サーバーに少なくとも1つのホットスペアを用意することをお勧めします。したがって、必要に応じて交換品を購入するまで、すぐに再構築を開始して正常な状態を維持できます。


1

「ゼロダウンタイム」システムで実行しました。実際、RAIDの再構築時に別のドライブが失われる可能性があります...私は1つを一度交換してから、再構築中に別のドライブがエラーをスローし始めたときに交換しました。

それは本当に哲学的な質問です:積極的なストレステスト(アレイと心血管系の両方)を信じるなら、ドライブを交換する必要があります。しかし、実際には、次にどのドライブが悪くなるかを知ることは決してありません。古い実証済みのドライブを失う前に、新しく交換したドライブを失う可能性はまったくありません。

そうは言っても、バックアップソリューションのストレステストに時間を浪費し、実際にエラーをスローし始めるまでドライブを安心して置いてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.