MTBFデータはどこにありますか？

9

障害間の平均時間は解釈が難しい場合がありますが、いくつかのハードデータがある場合に使用できる豊富な統計的方法があります。

問題は、MTBF番号を報告する人がいないことです。（とにかく、ハードドライブメーカー以外）。

どこか、あなたは、コンポーネントとサーバのためのMTBFのデータを見つけるために行きますか？

hardware

MTBFデータの使用方法を知りたいです。

— dr.pooter 2009年

2

MTBFが重要ではない理由

失敗回数の平均時間は、修正不可能なエラー率ほど重要ではありません。MTBFはパーツの完全な故障を扱い、ドライブを読み取ります。ただし、エラーのある1ビットが原因でRAID 5のパニックが発生し、ホットスペアが機能する場合は、この数値は意味がありません。

プロフェッショナルレベルおよびコンシューマーレベルのドライブのMTBFは、近年1桁増加していますが、修正不能なエラー率は比較的一定しています。12件のテラバイト当たり1ビットが消費者SATAドライブ、のために、読み取るように、この速度は、10 ^ 14ビットであると推定されているソース。

RAID 5アレイでスリープを失う必要がある理由

したがって、これは、ブランドの新しい2Tbドライブの6パスのみです。12Tbのデータを読み取るのにどのくらい時間がかかりますか？そのドライブのMTBFよりもはるかに短い時間。

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

さらに懸念されるのは、そのような大きなドライブで構成されるRAID 5アレイでの二重読み取り障害の可能性です。7 1TbドライブのRAID 5アレイでは、RAIDの再構築中に2番目の読み取りエラーが発生する可能性は50％です。

http://blogs.zdnet.com/storage/?p=162

— デイブ・チェイニー
ソース

おそらくRAID6を常に使用できますか？

— Chopper3

3

すばらしい回答ですが、ハードドライブのみを対象としています

— マークヘンダーソン

@ Chopper3、はいRAID6は状況を改善しますが、パリティ用に2つのディスク、ホットスペア用に3番目のディスクを割り当てると、7ドライブアレイでは、RAID10アレイと同じスペースにかなり近づきます。

— デイブチェニー

ハードドライブ以上のデータを探しています。サーバー全体は依然として時々失敗するので、どれくらいの頻度で測定する価値があります。

1

MTBFの数値は複雑なシステムには当てはまらないと人々が考えるのは残念です。実際の問題（afaik）は、ハードウェアモジュールのMTBF値がメーカーにないことです。これらはすべての権利によって利用可能であるはずの数字です。デルは、「デルはサーバの特定のMTBFを一覧表示しなくなりました」と述べています。本当にひどい！彼らはまた、「MTBFの数値が必要な場合に使用できるほど信頼性が低い」とも言っているかもしれません。

信頼性エンジニア（またはREの帽子をかぶった男）は、可用性の調査の範囲を制限することになっています。これは多くの場合、ハードウェアモジュールに限定されます。

何が失敗を構成するかの分類に関しては…まあ、それがFMECA分析を実行する理由です。

確かにシステムは複雑で、障害モードにはソフトウェアの障害が含まれますが、それは多くの場合、調査の範囲ではありません。ハードウェア用のMTBF数値が必要です。これを提供するようにセールスマンに依頼してください。あなたにそれを提供するのは彼らの技術的責任です...彼らがそれを拒否したりサイドステップしたりした場合は、ハードウェアの可用性の数値が義務付けられたテレコムグレードのサーバーがある場所に行ってください。

— ピーター
ソース

ベンダーがMTBFを公開する必要がある場合の問題は、実際のデータを収集するよりも早くMTBFを公開する必要があることです。したがって、彼らは何らかの外挿を通じてMTBFを生成する必要があります。時にはそれは道を外れることができます。私が見た最悪のケースは3桁以上ずれていました。

— kasperd

0

MTBFが会社のサポートサイトで報告されるのを見ました。情報を入手するには、営業担当者またはSEに相談してください。

— pcapademic
ソース

0

私の考えでは、MTBF番号は販売ツールになっています。最新のハードウェアは、MTBF番号が本質的に役に立たない状態に達しています。最下位のベンダーでも、賢明なアップグレードサイクルより長持ちするハードウェアを製造しています。お気づきのように、誰もMTBF数を報告していません。これが理由だと思います。

— dr.pooter
ソース

それでも、一部のサーバーは他のサーバーよりもさらに信頼性が高くなっています。「セカンドパワーサプライはそれに値するのか？」のような質問に答える必要があります。そのためにはデータが必要です。理想的には、これは、同様のデバイスの母集団全体で報告される実際の障害統計になるでしょう。実際の配布の弱いプロキシとしてMTBFを使用します。

けっこうだ。私の小さな世界では、冗長性の概念はプロセスの予想される部分です。別の例として、ほとんどの大規模なホスティングプロバイダー、またはgoogleを見てください。wintelサーバーの商品状況を考えると、これは衰退する問題であると私はまだ示唆しています。Zシリーズなどについて話している場合、方程式と期待値は大きく異なります。

— dr.pooter 2009年

0

残念ながら、MTBFは最近のサーバーでは実用的または信頼できる測定ではありません。MTBFのすべての概念は、特定のモデル/構成が長期間にわたって多くの人によって使用されている場合、その信頼性を知ることができるということです。

今日、私たちのほとんどは、証明された追加のパフォーマンスと電力効率と潜在的な追加の信頼性を喜んで交換しています。たとえば、信頼性が証明されたという理由だけで、18〜24か月前のハードウェア上に新しいサーバーを構築しますか？それとも、より多くのコア、馬力、電力効率を備えた最新世代のCPUをそのまま使用しますか？

また、旧式のテレフォニーシステムとは異なり、システムはかなりカスタマイズされており、もちろんソフトウェアに大きく依存しています。BIOSバージョンx.xxまたはドライバーバージョンy.yyyの信頼性はどのくらいですか？最新のOS / DB /アプリサーバーのパッチは安定性を向上させますか、それとも安定性の低下がありますか？世界中でいくつのサーバーが実際にハードウェア/スタックバージョンのまったく同じ混合物を使用していますか？

高可用性が必要な場合は、とにかくシステムに冗長性を追加する必要があります（デュアルエブリシング、クラスタリング、ホットスペア、DRPなど）。したがって、単一のコンポーネントの障害に耐えられるようにインフラストラクチャを構築するため、各ハードウェアコンポーネントの相対的な信頼性は通常、重要な要素ではありません。不確実性（信頼性は遡及的）に対応し、それに応じて計画するだけです。

— オフィルマナー
ソース

絶えず変化する構成の問題は実際の問題です。そのため、単一の構成ポイントで一連のエクスペリエンスを構築することは困難です。それでも、冗長構成であってもHAを計画している場合は、個々のデバイスの信頼性についてある程度の概念が必要です。

ITが科学になることは望めないようです。私たちは、仮定、ハードデータ、リソースの浪費に取り組み続けます。最近は何よりも黒魔術に似ています。エンジニアリングは遠い目標のようです。

— Giovanni Tirloni 2013年

0

私は他のほとんどの回答に同意します。MTBF番号は私には役に立たず、確認することはありません。

唯一の例外はハードドライブですが、私はMTBFを非常に大まかにしか見ていません。選択肢がある場合は、より信頼性の高い "サーバークラス"ドライブを購入するようにしています。

— ワード-モニカの回復
ソース