障害間の平均時間は解釈が難しい場合がありますが、いくつかのハードデータがある場合に使用できる豊富な統計的方法があります。
問題は、MTBF番号を報告する人がいないことです。(とにかく、ハードドライブメーカー以外)。
どこか、あなたは、コンポーネントとサーバのためのMTBFのデータを見つけるために行きますか?
障害間の平均時間は解釈が難しい場合がありますが、いくつかのハードデータがある場合に使用できる豊富な統計的方法があります。
問題は、MTBF番号を報告する人がいないことです。(とにかく、ハードドライブメーカー以外)。
どこか、あなたは、コンポーネントとサーバのためのMTBFのデータを見つけるために行きますか?
回答:
MTBFが重要ではない理由
失敗回数の平均時間は、修正不可能なエラー率ほど重要ではありません。MTBFはパーツの完全な故障を扱い、ドライブを読み取ります。ただし、エラーのある1ビットが原因でRAID 5のパニックが発生し、ホットスペアが機能する場合は、この数値は意味がありません。
プロフェッショナルレベルおよびコンシューマーレベルのドライブのMTBFは、近年1桁増加していますが、修正不能なエラー率は比較的一定しています。12件のテラバイト当たり1ビットが消費者SATAドライブ、のために、読み取るように、この速度は、10 ^ 14ビットであると推定されているソース。
RAID 5アレイでスリープを失う必要がある理由
したがって、これは、ブランドの新しい2Tbドライブの6パスのみです。12Tbのデータを読み取るのにどのくらい時間がかかりますか?そのドライブのMTBFよりもはるかに短い時間。
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
さらに懸念されるのは、そのような大きなドライブで構成されるRAID 5アレイでの二重読み取り障害の可能性です。7 1TbドライブのRAID 5アレイでは、RAIDの再構築中に2番目の読み取りエラーが発生する可能性は50%です。
MTBFの数値は複雑なシステムには当てはまらないと人々が考えるのは残念です。実際の問題(afaik)は、ハードウェアモジュールのMTBF値がメーカーにないことです。これらはすべての権利によって利用可能であるはずの数字です。デルは、「デルはサーバの特定のMTBFを一覧表示しなくなりました」と述べています。本当にひどい!彼らはまた、「MTBFの数値が必要な場合に使用できるほど信頼性が低い」とも言っているかもしれません。
信頼性エンジニア(またはREの帽子をかぶった男)は、可用性の調査の範囲を制限することになっています。これは多くの場合、ハードウェアモジュールに限定されます。
何が失敗を構成するかの分類に関しては…まあ、それがFMECA分析を実行する理由です。
確かにシステムは複雑で、障害モードにはソフトウェアの障害が含まれますが、それは多くの場合、調査の範囲ではありません。ハードウェア用のMTBF数値が必要です。これを提供するようにセールスマンに依頼してください。あなたにそれを提供するのは彼らの技術的責任です...彼らがそれを拒否したりサイドステップしたりした場合は、ハードウェアの可用性の数値が義務付けられたテレコムグレードのサーバーがある場所に行ってください。
MTBFが会社のサポートサイトで報告されるのを見ました。情報を入手するには、営業担当者またはSEに相談してください。
私の考えでは、MTBF番号は販売ツールになっています。最新のハードウェアは、MTBF番号が本質的に役に立たない状態に達しています。最下位のベンダーでも、賢明なアップグレードサイクルより長持ちするハードウェアを製造しています。お気づきのように、誰もMTBF数を報告していません。これが理由だと思います。
残念ながら、MTBFは最近のサーバーでは実用的または信頼できる測定ではありません。MTBFのすべての概念は、特定のモデル/構成が長期間にわたって多くの人によって使用されている場合、その信頼性を知ることができるということです。
今日、私たちのほとんどは、証明された追加のパフォーマンスと電力効率と潜在的な追加の信頼性を喜んで交換しています。たとえば、信頼性が証明されたという理由だけで、18〜24か月前のハードウェア上に新しいサーバーを構築しますか?それとも、より多くのコア、馬力、電力効率を備えた最新世代のCPUをそのまま使用しますか?
また、旧式のテレフォニーシステムとは異なり、システムはかなりカスタマイズされており、もちろんソフトウェアに大きく依存しています。BIOSバージョンx.xxまたはドライバーバージョンy.yyyの信頼性はどのくらいですか?最新のOS / DB /アプリサーバーのパッチは安定性を向上させますか、それとも安定性の低下がありますか?世界中でいくつのサーバーが実際にハードウェア/スタックバージョンのまったく同じ混合物を使用していますか?
高可用性が必要な場合は、とにかくシステムに冗長性を追加する必要があります(デュアルエブリシング、クラスタリング、ホットスペア、DRPなど)。したがって、単一のコンポーネントの障害に耐えられるようにインフラストラクチャを構築するため、各ハードウェアコンポーネントの相対的な信頼性は通常、重要な要素ではありません。不確実性(信頼性は遡及的)に対応し、それに応じて計画するだけです。
私は他のほとんどの回答に同意します。MTBF番号は私には役に立たず、確認することはありません。
唯一の例外はハードドライブですが、私はMTBFを非常に大まかにしか見ていません。選択肢がある場合は、より信頼性の高い "サーバークラス"ドライブを購入するようにしています。