タグ付けされた質問 「disaster-recovery」

災害復旧と準備は、システム管理の不幸な側面です。このタグは、サーバーまたはデータセンター環境での壊滅的なイベントからの回復に関連する計画、実装、およびベストプラクティスを支援するために使用する必要があります。

10
月曜日の朝の間違い:sudo rm -rf --no-preserve-root /
注:この質問への回答とコメントには、外部メディアから多くの注目を集めているが、ある種のバイラルマーケティングスキームではデマの質問であることが判明した別の同様の質問のコンテンツが含まれています。このような方法でServerFaultを悪用することは許可されていないため、元の質問は削除され、回答はこの質問に統合されました。 ここに面白い悲劇があります。今朝、実稼働サーバーで少しメンテナンスを行っていたときに、誤って次のコマンドを実行しました。 sudo rm -rf --no-preserve-root /mnt/hetznerbackup / 前の最後のスペースを見つけられず/、数秒後に警告がコマンドラインをあふれさせたとき、私はちょうど自己破壊ボタンを押しただけだと気づきました。これが私の目に焼き付いたものです。 rm: cannot remove `/mnt/hetznerbackup': Is a directory rm: cannot remove `/sys/fs/ecryptfs/version': Operation not permitted rm: cannot remove `/sys/fs/ext4/md2/inode_readahead_blks': Operation not permitted rm: cannot remove `/sys/fs/ext4/md2/mb_max_to_scan': Operation not permitted rm: cannot remove `/sys/fs/ext4/md2/delayed_allocation_blocks': Operation not permitted rm: cannot remove `/sys/fs/ext4/md2/max_writeback_mb_bump': Operation not …

13
エンジニアは爆発物を使用して、オフィスビルの外の硬い岩を取り除きます。どのような対策が必要ですか?
私たちの建物は約に位置しています。爆発物から100メートル。それらは1日に数回発生し、実際に建物全体を大きく揺らします。これは何日も続き、爆発は強くなるはずです。 私たちのサーバールームは空想ではありません。それらの1つはすべてハードコンクリートのラックを備え、もう1つは上げ床(ケーブルをその下に通すことができるもの)を備えています。 誰かが私たちのためのヒント、対策、またはベストプラクティスを持っていますか? 現在、次の対策を検討しています。 サーバールームのステータスライト(HDライト、電源装置など)の日報。 最も重要なサーバーでディスクスキャンを毎晩確認する 予備のハードドライブの追加注文 編集:ここで多くの良い答え!ただし、いずれかを受け入れる必要があります。この編集の時点で最も投票数の多い回答は、回答を受け入れます。


7
サーバーホスティング会社を選ぶとき、あなたは何を探しますか?
ほとんどのサーバー(〜10台のかなり強力な主力製品とデータベースサーバー)のホスティング会社を変更するRFPプロセスを行っています。 既存の会社が選ばれたとき、私は会社にいませんでしたし、過去にホスティング会社と仕事をしたこともありませんでした(以前の会社には常にハードウェアがありました)。今後数週間にわたって各企業のサイトツアーを行います。普段どのようなものを探していますか?現場スタッフなどに尋ねる質問はありますか?評価と比較に役立つものは何でも。 ホスティング会社のほとんどは、ファイバー経由で接続されたDRサイトを持つVM Wareファームを維持しています。

4
サーバールームが浸水しました
最近、ハリケーンを経験し、サーバールームが浸水しました。保険に万歳。とにかく、ハードドライブの1つからできるだけ多くのデータを保存する必要があります。はい、2日間の大半は水没しました。 ドライブを開いて、洪水がないことを確認する必要がありますか?底面のボードを取り外してフォームを乾燥させる必要がありますか?すべてが必要です。 任意の提案が役立ちます。 前もって感謝します!

10
NFSサーバーが表示されなくなったNFSマウントをアンマウントします
サーバーAは、以前はNFSサーバーでした。サーバーBはそのエクスポートをマウントしていました。すべてが大丈夫でした。その後、Aが死亡しました。ただスイッチを切った。消えた。消えた。 ただし、そのフォルダーはまだBにマウントされています。明らかに、そのフォルダーに入れることはできませんcd。ただしumount /mnt/myfolder、ハングしてマウント解除されません。Bを再起動せずにアンマウントする方法はありますか? クライアントとサーバーの両方がLinuxマシンです。

11
災害復旧計画の開発のベストプラクティスまたはリソースですか?[閉まっている]
私は、古くて一方的な災害復旧計画の更新に関するプロジェクトを主導する任務を負っています。今のところ、DRのIT側を整理することを検討しています。最後にこれを行ったとき、彼らは単一の災害(データセンターがflood濫した)を作り、他のすべての災害タイプを除外してそれを計画することによって彼らの範囲を設定しました。もっと丸みのあるアプローチを取りたいです。これは解決された問題であり、他の組織がDR計画を作成していることは知っています。 私たちの計画は、IT DR計画を進めて、「これはITのDR計画に必要なものです。大学の他の部分と一致していますか?修復されたサービスの優先順位はありますか?変更したいですか?」計画の残りの部分が何であるかについてはかなり良い考えがあり、これがうまくいくと期待しています。 私が探しているのは、DR計画の範囲を決める方法と、考えるべき質問に関するガイダンスです。DR計画の開発に関連するお気に入りのリソース、書籍、トレーニングはありますか?

2
Apacheの実行中のインスタンスからRSAキーを取得しますか?
SSL証明書用のRSAキーペアを作成し、秘密キーをに保存しました/etc/ssl/private/server.key。残念ながら、これは私が持っていた秘密鍵の唯一のコピーでした。 その後、誤ってディスク上のファイルを上書きしました(はい、わかります)。 Apacheはまだ実行中で、SSLリクエストを処理しているので、秘密鍵の回復に希望があると私を信じさせます。(おそらくどこかにシンボリックリンクがあるのでしょう/procか?) このサーバーはUbuntu 12.04 LTSを実行しています。

5
BBWC:理論上は良い考えですが、データを保存したことはありますか?
私はBBWC(バッテリーバックアップ式書き込みキャッシュ)の目的に精通しています。以前は、UPSが良好であってもサーバーで使用していました。保護を提供しない明らかな障害があります。それが実際に実際の利益をもたらすかどうかを理解したいのですが。 (注:BBWCを使用しており、クラッシュ/障害が発生した人々からの応答、およびBBWCが回復に役立ったかどうかを特に探しています) 更新 ここでのフィードバックの後、私はBBWCが価値を付加するかどうかについてますます懐疑的になりました。 データの完全性について自信を持たせるために、ファイルシステムは、データが不揮発性ストレージ(必ずしもディスクではない-私が戻ってくるポイント)にコミットされたときを知っている必要があります。データがディスクにコミットされた時期について多くのディスクが存在することに注意してください(http://brad.livejournal.com/2116715.html)。ディスク上のキャッシュを無効にするとディスクがより正直になると想定するのは妥当と思われますが、これが当てはまるという保証もありません。 BBWCのバッファは通常非常に大きいため、バリアはディスクにより多くのデータをコミットする必要があるため、書き込みの遅延が発生します。一般的なアドバイスは、不揮発性ライトバックキャッシュを使用する場合はバリアを無効にすることです(そして、ディスクキャッシュ)。ただし、これは書き込み操作の整合性を損なうように見えます-不揮発性ストレージにより多くのデータが保持されているからといって、それがより一貫性があるということにはなりません。実際、論理的なトランザクション間の境界がなければ、一貫性を確保する機会は他の方法よりも少ないようです。 データが(ディスクにコミットされるのではなく)不揮発性ストレージに入る時点でBBWCがバリアを認識した場合、パフォーマンスを低下させることなくデータ整合性要件を満たしているように見えます-バリアを有効にする必要があることを意味します。ただし、これらのデバイスは通常、物理デバイスへのデータのフラッシュと一貫した動作を示し(バリアを使用すると大幅に遅くなります)、バリアを無効にするための広範なアドバイスを示すため、このように動作することはできません。何故なの? OSのI / Oが一連のストリームとしてモデル化されている場合、書き込みキャッシュがOSによって管理されている場合、書き込みバリアのブロッキング効果を最小限に抑えるスコープがあります-このレベルでは論理トランザクション(単一のストリーム)コミットする必要があります。一方、トランザクションを構成するデータのビットがわからないBBWCでは、キャッシュ全体をディスクにコミットする必要があります。カーネル/ファイルシステムが実際にこれを実際に実装するかどうかは、現時点で投資しようと思っているよりもはるかに多くの努力を必要とします。 コミットされたことと突然の電源喪失をfibsに伝えるディスクの組み合わせは、間違いなく破損につながります。また、ジャーナリングまたはログ構造化ファイルシステムでは、停止後に完全なfsckを実行しないため、破損は言うまでもありませんそれを修復しようとしました。 故障モードに関しては、私の経験では、主電源の喪失(UPSと管理されたシャットダウンで簡単に軽減できる)が原因で、ほとんどの突然の停電が発生します。間違ったケーブルをラックから引き出すと、データセンターの品質が低下します(ラベル付けとケーブル管理)。UPSによって防止されない突然の電力損失イベントにはいくつかのタイプがあります-PSUまたはVRMの障害は、障害のあるBBWCが障害の場合にデータの整合性を提供しますが、そのようなイベントはどれくらい一般的ですか?ここでの回答の不足から判断して非常にまれです。 確かに、スタック内のフォールトトレランスを高くすると、BBWCよりもかなり高価になりますが、サーバーをクラスターとして実装すると、パフォーマンスと可用性に関して他にも多くの利点があります。 突然の電力損失の影響を軽減する別の方法は、SANを実装することです。AoEはこれを実用的な提案にします(iSCSIにはあまり意味がありません)が、やはりコストが高くなります。

9
物理的に多様な場所での自動フェイルオーバーを備えた高可用性MySQLのアーキテクチャ
私は、データセンター間のMySQLの高可用性(HA)ソリューションを研究しています。 同じ物理環境にあるサーバーの場合、アクティブパッシブアプローチを使用するハートビート(フローティングVIP)を備えたデュアルマスターを優先しました。ハートビートは、シリアル接続とイーサネット接続の両方で行われます。 最終的に、私の目標はこの同じレベルの可用性をデータセンター間で維持することです。手動の介入なしで両方のデータセンター間で動的にフェールオーバーし、データの整合性を維持したい 上部にBGPがあります。両方の場所にあるWebクラスター。これにより、両側のデータベースにルーティングされる可能性があります。サイト1でインターネット接続がダウンした場合、クライアントはサイト2を介してWebクラスターにルーティングし、両方のサイト間のリンクがまだアップしている場合はサイト1のデータベースにルーティングします。 このシナリオでは、物理リンク(シリアル)がないため、スプリットブレインが発生する可能性が高くなります。WANが両方のサイト間でダウンした場合、VIPは最終的に両方のサイトで終了し、さまざまな不快なシナリオが非同期を引き起こす可能性があります。 私が見る別の潜在的な問題は、将来このインフラストラクチャを3番目のデータセンターに拡張するのが難しいことです。 ネットワーク層は焦点ではありません。この段階では、アーキテクチャは柔軟です。繰り返しになりますが、私の焦点は、データの整合性とMySQLデータベースの自動フェイルオーバーを維持するためのソリューションです。私はおそらくこれを中心に残りを設計するでしょう。 物理的に異なる2つのサイト間でMySQL HAの実績のあるソリューションを推奨できますか? これを読んでくれてありがとう。あなたの提案を読むのを楽しみにしています。

9
マニュアルとしてのドキュメントとチェックリストとしてのドキュメント
過去に、部署内の他の人とドキュメント、特に詳細レベルと要件について話し合いました。彼らの見解では、ドキュメンテーションは、Xの問題が発生したときに行うYの簡単なチェックリストです。 同意しません。これは、ITのすべての問題を簡単に復旧手順の簡単なチェックリストに要約できると考えていると思います。状況の複雑さを完全に無視していると思いますし、部署の他の人たちは常に問題について深い理解を持っているわけではないので)ドキュメントには、次のような基本的な背景資料が含まれている必要があります。 問題の(サブ)システムの目的 そのように構成されている理由 設定/手順が実装されたときに発生するイベントの期待 手順が失敗する可能性のある潜在的な問題 ただし、これにはかなり賛成ですので、ドキュメントを「手順ABCを適用して問題Xを解決する」という形式に書き直す必要があります。 1ページの用紙に収める必要があるという嘆きをよく耳にします。 トラブルシューティングを含むこの方法で、Squid ACLの設定を1ページのドキュメントで説明してみてください。これは、回復チェックリストとして「作成待ち」の半ダースのドキュメントの1つにすぎません。 私が提唱している方法は本当に行き過ぎていますか?または、彼らは正しいです、そして、私はちょうどここで私のビジネスを気にして、彼らに単純なチェックリストを書くべきですか?私の懸念は、手順のチェックリストをどれだけうまく書いても、SysAdminが物事を考えることを必要とする問題を実際に解決しないことです。問題の解決に至らない回復手順のチェックリストの作成に時間を費やしている場合(ドキュメントの焦点が狭いため、ドキュメントの一部ではない追加の要因があるため)、およびドキュメントは、マニュアルページやウィキ、ウェブサイトを再度読み直すことを避けるためのものでしたが、なぜ私は動議を受けているのですか?心配しすぎているのですか、それとも本当の問題ですか? 編集: 現在、この部門にはヘルプデスクの役職はありません。ドキュメントの対象者は、他の管理者または部門長です。

7
新しいバックアップスキームのセットアップ
私は今までで初めてのバックアップスキームを設計しています。私はデータのバックアップを管理するのはまったく新しいのですが、完全に理解していない概念がいくつかあります。これまでに得たものと、使用する機器を以下に示します。 バックアップするサーバーは3台のみで、合計データは約200Gbです。毎週土曜日にフルバックアップを行い、その後月曜日から金曜日までの差分バックアップを行います。また、DRの目的でオフサイトに保存される完全なバックアップが月の終わりにあります。 使用されている機器:-8スロットテープバックアップドライブ-LTO2テープ-ExchangeおよびSQLエージェントを使用したBackup Exec 12.5 2組のテープを使用します。1組目は1週目、もう1組目は2週目で、隔週で交互に切り替えます。 だから私の質問はこれです、各セットで何本のテープを使用する必要がありますか?バックアップドライブは最大8本のテープを受け入れるため、8本を使用する必要がありますか?少なめに入れるとスローされますか? 第二に、毎晩の差分バックアップはせいぜい5Gb程度に過ぎないので、メディアプールに5枚のLTO2テープ(最大400Gbを保持)を毎晩1枚入れる必要がありますか?または、理論的には何週間分の差分を保持できるので、1つで十分ですか? 私が理解していないのは、BEが毎日新しいテープを選択するか、それが同じテープにいっぱいになるまで追加し続けてから次のテープにロールオーバーするかどうかです。 おそらく簡単な質問は、上記のバックアップ用のバックアップ機器とサーバーがある場合、バックアップの設計はどうでしょうか? どうもありがとう....

6
RAID 5構成でドライブ障害から回復する方法は?
今朝、データベースサーバーでドライブに障害が発生しました。ドライブアレイ(3台のディスク)は、RAID 5構成でセットアップされています。 ドライブの交換を待つ間、回復戦略の準備を進めています。ユーザーは非常にゆっくりですが、システムでの作業を続けています(理由が分からないのですか??)。 新しいドライブをどのようにインストールしますか?このドライブのデータはパリティから自動的に再構築されますか、それとも別のプロセスに従う必要がありますか? 編集: これはハードウェアRAIDコントローラーです。(これまでの回答に感謝、感謝)

4
ITリーダーにはバックアップがありません。DR計画は書面で[閉鎖済み]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 4年前に閉鎖されました。 ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け付けていません。 これは、IT管理者に対する一般的な管理上の質問です。 私たちは、コロキャビン内に約4台のサーバーを持つ小さな会社です。フルタイムのITマネージャーはいません。しかし、私たちは毎月契約を結んでおり、私は彼にこれらの計画が実際に何であるかを分かち合うためにひどい時間を過ごしています。私は彼が計画を持っていると確信しています(そしておそらく彼の頭の中に..) どうやってこれを処理しますか?彼は長年の友人ですが、これは私たちにとって長期的には危険です。私はこれについて何度か彼に立ち向かいました。 ありがとう。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.