Sobriqueは、手動による介入があなたのsup-最適であることが提案された解決策原因について説明し、様々な部品の故障の可能性についてewwhite会談を。これらのIMOはどちらも非常に優れた点であり、強く検討する必要があります。
しかし、今のところ誰もコメントしていないように見える問題が1つあります。次のことを提案します。
[現在のホットスペアホスト]をコールドスペアにし、ハードドライブをプライマリホストに配置して、RAIDを1から1 + 1に変更します。
これは、OSがディスク上で行うことからユーザーを保護するものではありません。
ミラー(RAID 1)からミラーのミラー(RAID 1 + 1)に移行することで、最初からの影響を大幅に減らすことで、ディスク障害から本当に保護するだけです。各ミラーセットのディスク数を増やすことで同じ結果を得ることができ(たとえば、2ディスクRAID 1から4ディスクRAID 1へ)、通常の操作中の読み取りパフォーマンスが大幅に向上します。
それでは、これが失敗する可能性があるいくつかの方法を見てみましょう。
- システムアップデートをインストールしていて、何かが原因でプロセスが途中で失敗したとします。おそらく電源とUPSの障害が発生している、またはあなたがひどい事故に遭って、致命的なカーネルバグに遭遇したかもしれません(最近のLinuxはかなり信頼できますが、それでもリスクはあります)。
- おそらく、更新により、テスト中に把握できなかった問題(システム更新をテストしますか?)が発生し、プライマリを修正する間、セカンダリシステムへのフェイルオーバーが必要になります。
- ファイルシステムコードのバグが原因で、ディスクに誤った無効な書き込みが行われる可能性があります。
- 多分ファットフィンガー(または悪意のある)管理者がする
rm -rf ../*
か、rm -rf /*
代わりにrm -rf ./*
。
- たぶん、あなた自身のソフトウェアのバグがデータベースの内容を大いに破壊する原因になるかもしれません。
- ウイルスがこっそり侵入したのかもしれません。
多分、多分、多分...(そして、あなたの提案したアプローチが失敗する可能性がある多くの方法があると確信しています。)しかし、結局これはあなたの "2つのセットが常に同期している" "利点"に要約されます。完全に同期したくない場合があります。
正確に何が起こったかに応じて、ホットスタンバイまたはコールドスタンバイをオンに切り替えたり、適切なバックアップを行う準備ができている場合です。どちらの方法でも、障害モードにハードウェアストレージデバイスの障害(ディスククラッシュ)以外の多くのものが含まれている場合、ミラーのRAIDミラー(またはRAIDミラー)は役に立ちません。ZFSのraidzNのようなものは、いくつかの点では少し優れている可能性がありますが、他の点ではまったく優れていません。
私にとって、これは、意図が何らかの種類の災害フェイルオーバーである場合、提案されたアプローチを最初から実行不可能にするでしょう。