タグ付けされた質問 「high-availability」

高可用性は、システムまたはコンポーネントに障害が発生した場合の可用性を保証するための冗長性の度合いを伴うことが多いアーキテクチャ上の考慮事項です。

2
Linuxでクライアント側のNFSフェールオーバーを行う方法
NFSストレージにアクセスする必要があるCentOS 6.3クライアントがあります。クラスタ化されたファイルシステムでSANに保存された同じコンテンツを提供する2つのNFSサーバーがあります。必要に応じて、バックアップNFSサーバーにフェールオーバーするようにCentOSを設定するにはどうすればよいですか?私がグーグルをするとき、私はLinuxがこれをサポートしていないことを読み続けますが、クラスター化されたLinux NFSサーバーファームをセットアップする方法に関する情報がたくさんあるので、それは奇妙です...

4
2ノードのアクティブ/パッシブLinux HAペースメーカークラスタでSTONITHをセットアップする方法
PostgreSQLデータベースを稼働状態に保つために、corosyncとpacemakerを備えたアクティブ/パッシブ(2ノード)Linux-HAクラスターをセットアップしようとしています。DRBDとservice-ipを介して動作します。node1に障害が発生した場合、node2が引き継ぎます。PGがnode2で実行され、失敗した場合も同じです。STONITHのものを除き、すべてが正常に機能します。 ノード間には専用のHA接続(10.10.10.X)があるため、次のインターフェース構成があります。 eth0 eth1 host 10.10.10.251 172.10.10.1 node1 10.10.10.252 172.10.10.2 node2 Stonithは有効になっており、ノードを強制終了するためにssh-agentでテストしています。 crm configure property stonith-enabled=true crm configure property stonith-action=poweroff crm configure rsc_defaults resource-stickiness=100 crm configure property no-quorum-policy=ignore crm configure primitive stonith_postgres stonith:external/ssh \ params hostlist="node1 node2" crm configure clone fencing_postgres stonith_postgres crm_mon -1 ショー: ============ Last updated: Mon Mar …

1
20を超える仮想アドレスのKeepalived
高可用性のために2台のDebianマシンでkeepalivedをセットアップしましたが、に割り当てることができる仮想IPの最大数に達しましたvrrp_instance。20以上の仮想IPを構成してフェールオーバーするにはどうすればよいですか? これは、非常に単純なセットアップです。 LB01: 10.200.85.1 LB02: 10.200.85.2 Virtual IPs: 10.200.85.100 - 10.200.85.200 各マシンは、SSLクライアント証明書の終了とバックエンドWebサーバーへのプロキシのために、仮想IPでApache(後のNginx)バインディングも実行しています。私が非常に多くのVIPを必要とする理由は、HTTPSでVirtualHostを使用できないことです。 これが私のkeepalived.confです: vrrp_script chk_apache2 { script "killall -0 apache2" interval 2 weight 2 } vrrp_instance VI_1 { interface eth0 state MASTER virtual_router_id 51 priority 101 virtual_ipaddress { 10.200.85.100 . . all the way to . 10.200.85.200 } BACKUPマシンにも同じ構成があり、正常に機能していますが、20番目のIPまでです。 この問題を議論するHOWTOを見つけました。基本的に、VIPを1つだけ持ち、この1つのIPを「経由して」すべてのトラフィックをルーティングし、「すべてがうまくいく」ことを提案します。これは良いアプローチですか?マシンの前でpfSenseファイアウォールを実行しています。 …

4
Glusterは正確に何をしますか?
私は過去2日間glusterで遊んでいて、ここと彼らの質問システムで質問をしていました。私は本当にいくつかのことを理解していません。次のようなことを言っている人がいます サーバー間でレプリケートされたブリックを設定します(3のみを使用しているため、レプリケートされた方が安全です)。各サーバーは、他のすべてのサーバーのファイルを「ローカル」として認識します他のサーバー。 または Glusterは、ボリューム(ブリック)全体でファイルの同期を維持し、1つのサーバーがオフラインになっていることによる不整合を処理する「自己修復」機能を備えています。 サーバーからクライアントにリモートボリュームをマウントするので、glusterはサーバーノードの障害をどのように処理しますか?ボリュームをマウントしたクライアント上のフォルダーを試したところからアクセスできなくなり、umountを使用してブロックを解除する必要があります。その後、サーバーからのコンテンツはありません。 これは、基本的には説明に含まれていないものです。サーバーノードに障害が発生した場合、一体型またはrsyncのようにコンテンツを実際に複製できるかどうかはどうなりますか。

3
プライマリWebサーバーとしてnginxを使用することのマイナス面は?
Apacheと連携してプロキシングWebサーバーとしてnginxを使用している何百万ものWebサイトを見てきました。しかし、デフォルトのウェブサーバーとしてのみnginxを実行しているサーバーはほとんどありません。そのような構成の主な欠点は何ですか? 私はいくつかを見ることができます: .htaccessのようなディレクトリごとの構成ファイルを使用できないため、すべての構成変更はメインサーバーの構成ファイルに対して行う必要があり、サーバーの再読み込みが必要です。しかし、pecl htscannerはそれらをphp設定で補正できます nginxのmod_phpが利用できない。これは、たとえばphp-fpmで補うことができます。 他は何ですか?なぜApacheを落としてnginxや他の軽量なソリューションに移行しないのですか?おそらく、いくつかの特別な理由がありますか? 編集:この質問は主にLAMPスタックでの作業に関するものです。

5
Linuxで使用するクラスター管理ソフトウェアは何ですか?
次のクラスター管理ソフトウェアツールが見つかりました。 pacemaker(clusterlabs.org)-高可用性に焦点を合わせたオリジナルのHeartbeatプロジェクトは、次のdebianバージョンになります openqrm(openqrm.com)、-web gui-より広い使用法、 両方のプレゼンテーションがあるサイト 仮想統合HA:KVM、Pacemaker、DRBDによる仮想化 openORMによる仮想マシン管理 ペースメーカーはより広く使用されているようです。12の異なるVM用に2つのハードウェアサーバーがあります。使用するLinuxシステムはdebian lennyです。使用するセットアップ:drdb、heartbeart、kvm。クラスタ管理ソフトウェアの経験がありません。 ペースメーカーやopenqrmの経験がある人はいますか?どちらが使いやすいですか?他の候補者はいますか?

1
Webサーバーの高可用性を設計/保証する方法は?
RAID 1構成の2台のハードドライブを持つ1&1インターネットから専用サーバーが提供されました。破損したディスクが交換されるまで、一方のディスクが故障しても他方が引き継ぐことができるので、これで十分だと思っていました。ただし、2回の場合、両方のハードドライブが故障した(または1&1が機能せず、間違った順序で交換した)ため、深刻な問題が発生しました。 専用マシンで実行されているWebサーバーの高可用性を確保するための最良の方法は何ですか?これまでのところ: IIS 7、SQL Server + Web Appソフトウェアを実行する2x500GB HDDの専用サーバー 1日に2回実行されるEaseUSサーバーバックアップ ロードバランサーなし 私が抱えている問題は、マシンが再びダウンした場合、回復するのに平均3日で1&1かかることです。私はそのような別の損失を買う余裕はありません。彼らは専用サーバー用のロードバランサーを提供していませんが、おそらく私にはわからないソフトウェアでそれを行うことができます。 私の他の唯一のオプションは、専用サーバーを完全に削除し、VMWareマシンである「クラウド」サーバーに移動することです。インフラストラクチャが非常に大きいため、ハードウェアの問題が顧客にほとんど影響を与えないため、彼らはその堅牢性を主張しています。しかし、専用サーバーを簡単に構成できないため、専用サーバーを失うという考えは嫌いです。 これを行うための良い方法は何ですか?つまり、ほとんど停止せずに、自分のWebサイトをいつでも利用できます。私の予算は月額約150ドルです。私のサーバーは現在、約60米ドルです。

2
drbdをセカンダリに切り替えることができません
私はdrbd83一緒ocfs2に走っていて、彼らと一緒centos 5に使うつもりpackemakerです。しばらくして、私はdrbdスプリットブレインの問題に直面しています。 version: 8.3.13 (api:88/proto:86-96) GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-05-07 11:56:36 1: cs:StandAlone ro:Primary/Unknown ds:UpToDate/DUnknown r----- ns:0 nr:0 dw:112281991 dr:797551 al:99 bm:6401 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:60 drbdをセカンダリに切り替えることはできません。 drbdadm secondary r0 1: State change failed: (-12) Device is held open by someone Command 'drbdsetup 1 secondary' terminated …

3
ロードバランサーをどのようにロードバランスできますか?
単一サーバーの単一データベースWebアプリケーションを、2つの物理的な場所にサーバーがある物理的に分散された高可用性構成に変換しようとしています(現時点では)。今、明らかに、私はのためにどのしまうルート要求、(よりこの場合は、リバースプロキシのように、私は簡単にするために、「ロードバランサ」と呼んでます)ロードバランサを必要とmywebsiteするいずれかnode1.mywebsiteまたはnode2.mywebsite。ただし、ロードバランサーがダウンした場合、高可用性サーバーは役に立ちません。そのため、私の考えでは、各場所に1つずつ、2つのロードバランサーが実際に必要になります。ただし、単一の外部アクセスポイントが必要なため、ロードバランサー用のロードバランサーが必要になります。ロードバランサーは、場所ごとにバランスを取る必要があります。 それで私の推論の何が問題になっていますか?物理的な場所のそれぞれが長時間電源から切断される可能性があると仮定して、実際にロードバランサーの高可用性を確保するにはどうすればよいですか? PS:HAと負荷分散の違いについての私の理解はせいぜい平凡であるという事実を知っています。私が欲しいのは、ある場所の電源が落ちた場合でも利用可能なサーバーです。ご理解いただきありがとうございます。

7
CDNを使用している高可用性アプリの測定に関する推奨事項を探しています
私は、高可用性アプリケーション(つまり、5秒のページ間ナビゲーションで99.5%増加しているアプリ)のパフォーマンスと可用性を正確に測定することに苦労しているFortune 500企業で働いています。この可用性の数値を決定するために、予定されたダウンタイムと予定外のダウンタイムの両方を考慮します。ただし、最近CDNをミックスに追加したため、メトリックが少し複雑になります。現在、CDNはトラフィックの約75%を処理し、残りを独自のサーバーに送信しています。 「真のユーザーエクスペリエンス」と呼ばれるものの測定を試みます(つまり、テストスクリプトは、一般的なユーザーがアプリケーションをクリックすることをエミュレートします)。これらの監視スクリプトは、ネットワークの外側にあります。時間。 経営陣は、可用性を測定するために最悪のシナリオを採用することを決定しました。したがって、オリジンサーバーに問題があり、CDNがコンテンツを正常に提供している場合でも、可用性が低下します。同じことが逆の場合にも当てはまります。私は、「ユーザーエクスペリエンス」が成功している限り、不必要に自分を罰するべきではないと考えています。結局のところ、パフォーマンスと可用性を改善するためにCDNがあります! 他のフォーチュン500企業が可用性の数値をどのように計算するかについての知識を持っている人がいるかどうか疑問に思っています。たとえば、ダウンしていないように見えるCDNを使用する店頭のapple.comを見てください(主要な製品発表がある場合を除きます)。これらの指標で不必要に自分自身を傷つける必要があるとは思わない。私たちはされているこれらの数字に基づいてビジネス上の意思決定を行います。 しかし、これらの指標が経営陣に見えることを考えると、問題は非常に迅速に解決され、解決されます(読む:すぐに赤テープを切り抜けます)。何らかの外部要因(CDN)が数値に影響しているため、アプリケーションがアップまたはダウンしていること。 考え? (誤ってこの質問をStackOverflowに投稿しましたが、クロスポストは事前に申し訳ありません)

8
高可用性DNSホスティング戦略?
いくつかの既存のWebサイトで高可用性DNSホスティングを行う方法のいくつかのオプションを見つけようとしています。今朝、レジストラ(bulkregister.com)を介したドメインのDNSホスティングが停止したため、私が働いている会社は立ち往生しました。私は現在、単一のDNSプロバイダーに翻弄されない代替案を見つけることを求められています。 私たちが探しているもの: 単一障害点はありません。 時間効率的。 提案されている解決策の1つは、複数のDNSホストを実行することです。これは優れた代替手段のように思えますが、20を超えるドメインがあり、2つのプロバイダー全体でこれらのドメインすべてのIPアドレスを更新することは禁止されています。 費用対効果。 これを経営陣に売らなければなりません。喜びは私です。 では、これをサポートする方法は何ですか?私は自分自身がプログラマーですが、彼らは私にこれを任せましたので、私よりも経験豊富な人々の意見を聞きたかったのです。

5
中小企業向けの高いサーバー可用性
ある朝出てこないサーバーで少し怖がった後、上位の企業はビジネスに高可用性/フェイルオーバーのセットアップが必要であると判断しました。 会社には5つのメインサーバー(4x Linux、1x OpenBSD)があり、すべてを稼働させる必要があります。3台のサーバーはかなり標準(ファイル/ Web /データベース)で、4台目はほとんどのネットワークルーティングとWebプロキシを処理し、5台目は電話システムをサポートし、非標準のハードウェアを備えています。 私の上司は、サーバー障害のターンアラウンド時間は30分未満であると述べています。 この分野での私の経験は存在しません(私は「昇格した」プログラマーです)、私の質問は次のように要約されます。 これは、平均的なサーバー管理スキルを持っている人でも試してみるべきものです。もしそうなら、私は何を読み、誰と話すべきですか? ありがとう。

7
数学的に、ノードの数とそれぞれの稼働時間の割合に基づいて稼働時間の割合を計算する方法は?
この質問はサーバーの質問というよりは数学の質問ですが、サーバーに強く関連しています。 95%の稼働時間を保証できるサーバーがあり、そのサーバーを2のクラスターに配置した場合、稼働時間はどのくらいになりますか?さて、私が同じことをしたとしましょう。しかし、それを3のクラスターにしますか? 単一障害点などのことは考慮せず、ここでは単に数学に焦点を当てます。これを少し複雑にする理由の1つは、たとえば2台のサーバーがある場合、両方がオフになる可能性が2 ^ 2であるため、1/4です。または3の場合は2 ^ 3なので、1/8になります。これらのサーバーごとに5%のダウンタイムがあるとすると、合計平均はその5%の1/8になりますか? このようなものをどのように計算しますか?

2
GlusterFSとWindowsでSPOFSを回避する
処理機能に使用するGlusterFSクラスターがあります。Windowsを統合したいのですが、GlusterFSボリュームを提供するSambaサーバーである単一障害点を回避する方法を理解するのに問題があります。 ファイルフローは次のように機能します。 ファイルはLinux処理ノードによって読み取られます。 ファイルが処理されます。 結果(小さくすることもかなり大きくなることもあります)は、完了時にGlusterFSボリュームに書き戻されます。 結果をデータベースに書き込むことも、さまざまなサイズのファイルをいくつか含めることもできます。 処理ノードは、キューおよびGOTO 1から別のジョブをピックアップします。 Glusterは分散ボリュームとインスタントレプリケーションを提供するので素晴らしいです。耐災害性がいいです!私たちはそれが好き。 ただし、WindowsにはネイティブのGlusterFSクライアントがないため、Windowsベースの処理ノードが同様に復元力のある方法でファイルストアと対話するための何らかの方法が必要です。GlusterFSドキュメント状態のWindowsへのアクセスを提供する方法がマウントされGlusterFSのボリュームの上にSambaサーバを設定することであること。これは、次のようなファイルフローになります。 それは私にとって単一障害点のように見えます。 1つのオプションはSambaをクラスター化することですが、現在は不安定なコードに基づいているため、実行されていません。 だから私は別の方法を探しています。 使用するデータの種類に関するいくつかの重要な詳細: 元のファイルサイズは、数KBから数十GBまでの範囲です。 処理されるファイルサイズは、数KBから1〜2 GBです。 .zipや.tarなどのアーカイブファイルを掘り下げるなどの特定のプロセスでは、含まれているファイルがファイルストアにインポートされるときに、さらに多くの書き込みが発生する可能性があります。 ファイル数は数千万に達する可能性があります。 このワークロードは、「静的ワークユニットサイズ」のHadoopセットアップでは機能しません。同様に、S3スタイルのオブジェクトストアを評価しましたが、不足していることがわかりました。 私たちのアプリケーションはRubyでカスタム作成されており、WindowsノードにCygwin環境があります。これは私たちを助けるかもしれません。 私が検討している1つのオプションは、GlusterFSボリュームがマウントされているサーバーのクラスター上の単純なHTTPサービスです。Glusterで実行しているのは基本的にGET / PUT操作だけなので、HTTPベースのファイル転送メソッドに簡単に転送できるようです。それらをロードバランサーペアの背後に配置すると、WindowsノードはHTTPでそれらの小さな青いハートのコンテンツにPUTできます。 私が知らないのは、GlusterFSの一貫性がどのように維持されるかです。HTTPプロキシレイヤーは、書き込みが完了したことを処理ノードが報告してから、実際にGlusterFSボリュームに表示されるまでの間に十分な待機時間を導入します。それを見つける。direct-io-mode=enablemount-option を使用すると効果があると確信していますが、それで十分かどうかはわかりません。一貫性を向上させるために他に何をすべきですか? または、私は完全に別の方法を追求すべきですか? トムが下で指摘したように、NFSは別のオプションです。だから私はテストを実行しました。上記のファイルには、保持する必要があるクライアント提供の名前があり、どの言語でも使用できるため、ファイル名を保持する必要があります。だから私はこれらのファイルでディレクトリを構築しました: NFSクライアントがインストールされているServer 2008 R2システムからマウントすると、次のようなディレクトリリストが表示されます。 明らかに、Unicodeは保持されていません。したがって、NFSは私にとってうまくいきません。

3
グローバル高可用性セットアップの質問
私はvisualwebsiteoptimizer.com / を所有して運営しています。このアプリは、特定のメトリックを追跡するために私の顧客がWebサイトに挿入するコードスニペットを提供します。コードスニペットは外部JavaScript(サイトコードの上部)であるため、顧客のWebサイトを表示する前に、訪問者のブラウザーがアプリサーバーにアクセスします。アプリサーバーがダウンした場合、ブラウザはタイムアウトする前に接続を確立しようとし続けます(通常60秒)。ご想像のとおり、どのような状況でもアプリサーバーを停止することはできません。これは、Webサイトの訪問者だけでなく、お客様のWebサイトの訪問者のエクスペリエンスにも悪影響を与えるためです。 現在、1つのバックアップサーバーが別のデータセンター(実際には別の大陸)に配置されているDNSフェールオーバーメカニズムを使用しています。つまり、アプリサーバーを3つの別々の場所から監視し、それがダウンしていることが検出されるとすぐに、バックアップサーバーのIPを指すようにAレコードを変更します。これはほとんどのブラウザーで正常に機能します(TTLは2分です)が、IEはDNSを30分間キャッシュします。弊社のvisualwebsiteoptimizer.com/split-testing-blog/maximum-theoretical-downtime-for-a-website-30-minutes/の最近の投稿をご覧ください。 それでは、アプリのデータセンターで大規模な障害が発生した場合に、ほぼ瞬時にフェールオーバーを行うには、どのような設定を使用できますか?私はここwww.tenereillo.com/GSLBPageOfShame.htmを読みました。複数のAレコードを持つことが解決策ですが、(まだ)セッションの同期はできません。私たちが検討しているもう1つの戦略は、2つのAレコードを使用することです。1つはアプリサーバーを指し、2つ目は、別のデータセンターにあるリバースプロキシを指します。この戦略は合理的だと思いますか? 私たちの優先事項を確認するために、私たちは私たち自身のウェブサイトやアプリをダウンさせておく余裕がありますが、ダウンタイムのために顧客のウェブサイトを遅くさせることはできません。したがって、アプリサーバーがダウンした場合、デフォルトのアプリケーション応答で応答するつもりはありません。空白の応答で十分ですが、ブラウザがそのHTTP接続を完了することだけが必要です(他には何も必要ありません)。 参照:有用なこのスレッドを読みましたserverfault.com/questions/69870/multiple-data-centers-and-http-traffic-dns-round-robin-is-the-only-way-to-assure

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.