ホットスペアホストとコールドスペアホスト?


8

複数のホストがあり、同じホットスペアホストがあり、パッチが適用されて更新されているため、同じソフトウェアと構成に非常に近くなります。障害が発生した場合は、ネットワークケーブルが切り替えられ、DHCPサーバーが新しいMACアドレスで更新されます。これは最良のケースです。通常、修正が必要なものが少し多いためです。

ホットスペアホストを用意するのは電力の浪費であり、それを維持するのに時間の浪費だと感じています。フェイルオーバーの場合は構成の変更が必要なので、次のことを質問します。

ホットスペアホストは古い学校で、今より良い方法がありますか?

ホットスペアホストを使用する代わりに、コールドスペアにして、ハードドライブをプライマリホストに配置し、RAIDを1から1 + 1に変更することは理にかなっていますか。障害が発生した場合は、ネットワークケーブルを変更し、DHCPサーバーを更新し、ハードドライブをコールドスペアに挿入して電源を入れるだけです。私が見ると、2x2ディスクは常に同期しているので、フェイルオーバー時に1つのホストのみを維持し、構成を変更する必要がないという利点があります。

それは良い考えですか?


1
これらの物理的な「ホスト」は実際のサービスを備えていますか、それともゲストの束を備えたVMホストですか?
Nathan C

2
VMware FTとHyper-Vレプリカが仮想化オプションとして利用可能であるだけでなく(単純な古いHAも)、単一目的のホスト専用のホットスペアを用意するという考えは少しずれています。
joeqwerty 14

回答:


6

Sobriqueは、手動による介入があなたのsup-最適であることが提案された解決策原因について説明し、様々な部品の故障の可能性についてewwhite会談を。これらのIMOはどちらも非常に優れた点であり、強く検討する必要があります。

しかし、今のところ誰もコメントしていないように見える問題が1つあります。次のことを提案します。

[現在のホットスペアホスト]をコールドスペアにし、ハードドライブをプライマリホストに配置して、RAIDを1から1 + 1に変更します。

これは、OSがディスク上で行うことからユーザーを保護するものではありません。

ミラー(RAID 1)からミラーのミラー(RAID 1 + 1)に移行することで、最初からの影響を大幅に減らすことで、ディスク障害から本当に保護するだけです。各ミラーセットのディスク数を増やすことで同じ結果を得ることができ(たとえば、2ディスクRAID 1から4ディスクRAID 1へ)、通常の操作中の読み取りパフォーマンスが大幅に向上します。

それでは、これが失敗する可能性があるいくつかの方法を見てみましょう。

  • システムアップデートをインストールしていて、何かが原因でプロセスが途中で失敗したとします。おそらく電源とUPSの障害が発生している、またはあなたがひどい事故に遭って、致命的なカーネルバグに遭遇したかもしれません(最近のLinuxはかなり信頼できますが、それでもリスクはあります)。
  • おそらく、更新により、テスト中に把握できなかった問題(システム更新をテストしますか?)が発生し、プライマリを修正する間、セカンダリシステムへのフェイルオーバーが必要になります。
  • ファイルシステムコードのバグが原因で、ディスクに誤った無効な書き込みが行われる可能性があります。
  • 多分ファットフィンガー(または悪意のある)管理者がするrm -rf ../*か、rm -rf /*代わりにrm -rf ./*
  • たぶん、あなた自身のソフトウェアのバグがデータベースの内容を大いに破壊する原因になるかもしれません。
  • ウイルスがこっそり侵入したのかもしれません。

多分、多分、多分...(そして、あなたの提案したアプローチが失敗する可能性がある多くの方法があると確信しています。)しかし、結局これはあなたの "2つのセットが常に同期している" "利点"に要約されます。完全に同期したくない場合があります。

正確に何が起こったかに応じて、ホットスタンバイまたはコールドスタンバイをオンに切り替えたり、適切なバックアップを行う準備ができている場合です。どちらの方法でも、障害モードにハードウェアストレージデバイスの障害(ディスククラッシュ)以外の多くのものが含まれている場合、ミラーのRAIDミラー(またはRAIDミラー)は役に立ちません。ZFSのraidzNのようなものは、いくつかの点では少し優れている可能性がありますが、他の点ではまったく優れていません。

私にとって、これは、意図が何らかの種類の災害フェイルオーバーである場合、提案されたアプローチを最初から実行不可能にするでしょう。


それがバックアップと構成管理の目的です。
ewwhite 2014

@ewwhite絶対に、それは非常に簡単である必要があり、必要であれば、既に(おそらく知らよい)の構成(ソフトウェアおよび設定)を持つセカンダリホストに切り替えるために、物理的にディスクを移動すると、RAIDミラーを解除するよりも、どの作ります必要な構成変更(ネットワークのケーブル接続、DNS、IP設定など)を行い、スタンバイホストがうまく機能する前に、最初に切り替える必要がある問題を修正する必要があります。その時点で、適切に修正することもできます。(または、特にVMを実行している場合は、関連するスナップショットに戻ります。)
CVn 14

ああ、間違いなく。レプリケーションソリューションがある場合は、RPO / RTOの考慮事項と、上記のシナリオをカバーするためのオフセット(10〜15分)もあります。
ewwhite 2014

@ewwhite私はあなたの主張を論じていません(そして実際にはあなたの答えを支持していません)。OPの提案されたソリューションがどのようにして最も可能性の高い望ましい結果を生み出すことができない(失敗する)かについて誰も言及しなかった別の方法を追加します。それは障害回復です。私の答えが受け入れられるのを見つけて、実際には驚きました。
CVn 2014

5
サンドラは神秘的な方法で動作します...
ewwhite 2014

11

はい、少し古い学校です。最近のハードウェアは、それほど頻繁に故障するだけではありません。アプリケーションの可用性を高める(常に可能とは限りません)か、個々のホストの回復力を高めるために必要なアイテムに焦点を当てます...

ホストの場合:

  • より良いハードウェアを購入します。
  • サポート契約があることを確認します。
  • サーバーのサポート契約を登録します(スペアパーツは登録データに基づいてローカルに在庫されています!)
  • 冗長電源、(ハードウェア?)RAID、冗長ファンを使用します。
  • サーバーが上記の冗長機能に対応できない場合は、障害が発生した場合に自己修復できるように、予備のシャーシまたはコンポーネントを手元に用意してください。

障害の発生頻度が低い順に、ディスク、RAM、電源、ファンが最も頻繁に表示されます...システムボードまたはCPUが時々あります。しかし、最後の2つは、サポート契約が交わすべき場所です。


可動部品が最初に死ぬ-ありがたいことにRAIDをディスクに入れてください。さもなければ、それらは私の最も頻繁な障害になるでしょう。
ソブリケ

2
「サーバーのサポート契約を登録する」ための+1。私の限られた経験でも、新しいサイトでSHTFの状況でサポートに電話をかけると思っているよりも一般的で、サポートは特定のハードウェアが存在することを知らず、契約が関連付けられています。

問題のサーバーはすべてIBMであり、おそらく5年前のものです。これまでのところ、メインボードとCPUの障害はそれぞれ1つだけです。
Jasmine Lognnes、2014

1
IBMとHPはしっかりしています。時々デル。Supermicroの場合、サーバーごとに2つのスペアを
用意

1
私のHPサーバーでは、初期のECCしきい値を超え、アラートがトリガーされます。RAMは通常、アプリケーションに影響が出る前に交換されます。数百台のサーバーで年に約10回見ています。
ewwhite 2014

9

それはかなり非効率的です-特に切り替えを行うための手動介入に依存しているためです。

私はホットなDRサイトを運営している場所で働いていました-文字通り、プライマリと同じサーバーで、すぐに行く準備ができています。ただし、DRスイッチオーバーは自動化されたプロセスです。つまり、ケーブル配線、少しいじる、スイッチではありません。ボタンを押すと、サイト間ですべてが反転します。

このアプローチは驚くほど高価ですが、それはビジネス上の決定です-許容可能なリスク対目的を達成するために必要なお金。原則として、目標復旧時間には指数曲線があります。ゼロに近づくほど、コストが高くなります。

しかし、それが実際の質問です。復旧時間の目標何ですか、それを達成するための最も効果的な方法は何ですか。サーバーが起動するまで数分かかります。午前4時にポップになると、誰かが調整と「回復タスク」を行うのにどのくらいの時間がかかりますか?

また、許容可能な停止時間はどれくらいですか?

「ホットリカバリ」を実行している場合は、クラスタリングを検討することをお勧めします。VMWareを上手に使用すると、クラスタリングがかなり安くなる可能性があります。つまり、物理マシンからでもVMに「フェイルオーバー」するということは、冗長ハードウェアを実行していないということです。(まあ、2NではなくN + 1)。

RTOが十分に長い場合は、ボックスをオフにします。RTOは、バックアップからのコールド再構築が問題なく十分であることに気付く場合があります。


2
回復時間曲線の場合は+1。キットとセットアップの費用で99%の稼働率が得られることを常にクライアントに伝えますが、必要と判断した9を追加するたびに、費用が2倍から10倍増加します。
MadHatter、2014

夜間のダウンタイムは良くありませんが、受け入れられたCEOを受け入れます。勤務時間中は、6か月ごとに30分で十分です。VMへのフェイルオーバーは興味深いアイデアです。KVMでできますか?VMをパッチと構成変更で維持する必要はありますか、それとも自動化できますか?
Jasmine Lognnes、2014

VMは仮想マシンであり、KVMとは関係ありません。(キーボード/ビデオ/マウス)。はい、OSインスタンスを最新の状態に保ち、すべて正常に動作することを確認する必要があります。ただし、プライマリデバイスで行うのと同じ更新メカニズムを使用できるはずです。
Sobrique 14

真剣にではありますが、サーバーがどれほど頻繁に転倒したのですか?ハードウェア関連の理由で、私は完全に意味しますか?ほとんどの「サーバーグレード」のハードウェアは、N + 1の復元力を備えています。
Sobrique 14

3
このコンテキストでの@sobrique KVMは、おそらくカーネルベースの仮想マシンを表しています-linux
Grant

5

それが古い学校であるという事実は、必ずしもホットスペアの使用を悪い考えにするわけではありません。

あなたの主な関心事は、根拠、あなたが実行するリスクは何か、そしてホットスペアを実行することでそれらをどのように軽減するかです。私の考えでは、ホットスペアはハードウェア障害にしか対処しないため、これは珍しいことではありませんが、実行する唯一の運用リスクでも、最も可能性も高いものではありません。2番目の懸念は、代替戦略がリスクの軽減または大幅な節約を提供することです。

複数の手動フェイルオーバー手順でホットスペアを実行すると時間がかかり、失敗する可能性がありますが、HAクラスタースイートが自動クラスター化してメジャークラスタースタックになることもあるようです。

もう1つは、同じ場所でのホットスタンバイまたはコールドスタンバイでは、ローカルな災害が発生した場合にビジネスの継続性が提供されないことです。


2

ホットスペアまたはコールドスペアの概念は、最初にアプリケーションをどのように構築するによって異なります

つまり、アプリケーションがデータとサービスの負荷が複数のマシンに分散するように構築されている場合、システムを停止させる単一のマシンの概念はなくなるはずです。そのような状況では、ホットスペアは必要ありません。代わりに、個々のマシン/コンポーネントが死んだときに処理するのに十分な過剰容量が必要です。

たとえば、標準のWebアプリケーションには通常、Webサーバーとデータベースサーバーが必要です。Webサーバーの場合は、2以上をロードバランスします。人が死んだとしても、大したことはありません。データベースは、参加するマシン間ですべてのデータが同期されるマルチマスターになるように設計する必要があるため、通常はより困難です。したがって、単一のDBサーバーの代わりに、2つ(またはそれ以上)のサーバーができ、どちらもデータのニーズに対応しています。グーグル、アマゾン、フェイスブックなどの大規模なサービスプロバイダーがこの道を進んでいます。開発期間には先行投資が多くなりますが、スケールアウトが必要な場合は効果があります。

アプリケーションがこのように構成されていない場合、または単にアプリケーションをレトロフィットすることが禁止されている場合は、はい、おそらくホットスペアが必要になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.