Windows DFSR-複製されたディレクトリのアクセス許可を変更し、1週間以上にわたって350,000のバックログを保持


10

質問:この350,000ファイルのバックログをより速く完了する方法はありますか?ほとんどすべてのファイルで唯一の変更は、影響を受ける各ファイルのACLの変更でした。一部のファイルは内容が変更されていますが、この状況では一般的ではありません。

これは修正される可能性があります。このテキストを編集して、一定の期間と検証後に成功/失敗を確認します。この質問文の終わりに向かって、それを修正した可能性がある最近行われた変更について詳しく説明しました。

約450,000ファイルのDFSRレプリケーショングループがあり、1.5 TBのスペースを使用しています。この状況では、約500マイル離れた2つのWindows Server 2008 R2サーバーがあります。他のサーバーがありますが、このレプリケーショングループには関与していません。サーバーアルファはメインサーバーであり、ほとんどのスタッフが使用しています。サーバーベータは、リモートオフィスのサーバーであり、ビジー状態ではありません。

ここで、このレプリケーション・グループのバックログのグラフは(PNGは、Googleドライブ上にホストされている)スローシンクロの進行状況を示します。

そのレプリケーショングループのルートディレクトリにある権限エントリを削除する必要がありました。もちろん、ほとんどのサブフォルダーに継承されています。この変更はサーバーALPHAで行いました。その直後、DFSRには350,000のファイルバックログがありました。1週間以上経ち、現在は267,000に達しています。(最初に)変更されたのは、単一の権限の変更のみでした。

これは何が起こったかです(これは解決策ではなく、この問題の原因となったものの別の説明です):http : //blogs.technet.com/b/askds/archive/2012/04/14/saturday-mail-sack -because-it-turns-out-friday-night-was-alright-for-fighting.aspx#dfsr

サーバーBETAで発生した変更は、その方向にバックログがないため、サーバーALPHAに非常に迅速に複製されます。ベータ版で変更されたファイルは、問題なくアルファ版に変換されます。

それは、一端で50Mbps接続のファイバーを介して他端で100Mbpsのファイバーに24/7をフルスピードで複製します。ステージング領域は各サーバーで100GBです。イベントログには何も興味深いものはありません。この特定のレプリケーションにも、このALPHA / BETAサーバーペアにもない関連のないレプリケーショングループに表示される、関連のない最高水準点イベントがあります。特に、最高水準点や接続エラーのイベントログエントリはありません。

レプリケーショングループに関するALPHAのビュー:

帯域幅の節約:99.83%の削減(18.1 GBではなく30.85 MBの複製)

30.85MB / 18.1GBは、ALPHAとBETAでDFSRサービスを最後に再起動してから発生したと思います。もしそうなら、これは非常に長い時間がかかっていても(実際にかかるはずの時間よりも長い)、実際にはファイルの内容がネットワーク経由で転送されていないことを示しています。

複製フォルダ:1.46TB(実サイズ)、439,387(ファイル)、52,886(フォルダ)

競合および削除されたフォルダー:100.00GB(構成済みサイズ)、34.01GB(実際のサイズ)、19,620(ファイル)、2,393(フォルダー)

ステージングフォルダー:200.00GB(構成済みサイズ)、92.54GB(実際のサイズ)

ログ(5月14日午後7時)に1つの最高水準点エラーが発生したため、ステージングクォータを100GBから200GBに増やしました。マイクロソフトが承認したルートは20%増加することを知っていますが、私はこれで遊んでいません。ステージングディスクアレイには、十分な空き容量があります。

すべてのサーバーでウイルス対策を無効にしても効果はありませんでしたが、少しは役立つと思いました。今のところ、ウイルス対策を再度有効にしていますが、方程式から変数を削除するために、レプリケーショングループのパスをスキャンから除外するように設定しています。

これを速くする方法はありますか?私はサーバーBETAでもこの変更を加えるだけですが、ALPHAで変更されたが、BETAにレプリケートされていないファイルがあり、BETAで継承されたアクセス許可の変更を行うと、OLDファイルがBETAからALPHAにプッシュされます(DFSRがどのファイルが衝突で勝ったかを比較するとき、ファイルのタイムスタンプを無視します)。そして、それが起こるのはむしろ悪いでしょう。

バックログはゆっくりと減少しています。とてもゆっくりと。しかし、それは進んでいます。しかし、このレートでは、完了するまでに数週間かかります。データセットのコピーを3TBドライブに押し込んでリモートオフィスに発送することを考えています。もっと良い方法はありますか?

5月16日午前4時US PT:問題を修正した可能性のあるもの(とにかく正直に修正されていると仮定):

DCに複数の変更を加えましたが、それはずっと前に行われるべきでした。問題は、このネットワークが他の誰かから継承された可能性があるということです。他の誰かから継承された可能性があります。問題が修正された変更を約束することはできません。ここではそれらは特定の順序ではありません:

  • すべてのDCが "ドメインコントローラー" OUに含まれていませんでした。DCが他の場所にあるWindowsドメインを見たことがありません。それらを元の場所に戻しました。以前は、各オフィスがある都市の名前で分離されたOUにありました。(それらを移動したので、対処する必要がある配管工事があるようですが、現時点ではすべて問題ないようです...)
  • AVGアンチウイルスは、すべてのDCおよびDFSR参加サーバーで実行されています。レプリケートフォルダーとステージングフォルダーをアクティブ/オンアクセススキャンから除外しました。これで問題が修正されたとは思わないので、後でこの問題をテストして、その変更を元に戻すとDFSRの複製速度が低下するかどうかを確認します。それは別の日の挑戦です。
  • dcdiag.exeは、RODCに関するDNSの問題を訴えました。ドメインにRODCがまったくない場合でも、この問題を修正しました。私はこれが何かを修正したとは思いません。
  • _ldap._tcp.domain.GUID._msdcs.DOMAIN.NET SRVレコードの1つがDCSの1つ(DFSRサーバーの1つではない)で欠落していたので、それを修正しました。これも役に立たなかったと思います。
  • サーバーを再起動したときの1つとして、DFSRデータベースの不適切なシャットダウン(イベント2212)が発生し、データベースの再構築に数時間かかりました。終了すると、イベント2214が報告され、終了したことがわかります。その後、レプリケーションはまだ非常に低速で実行されていましたが、スタックされていたものは何でも取り外せるようになった可能性があります。
  • DCの1つは、インターフェイス構成でセカンダリDNSサーバーとして127.0.0.1を持っていませんでした。追加しました。これはDFSRサーバーの1つではなかったので、おそらくそれとは何の関係もありませんでした。
  • 私はTechNetブログをフォローしました DFSRサーバーでのDFSR推奨レジストリ設定でのレプリケーションパフォーマンスのチューニングAsyncIoMaxBufferSizeBytes4194304に設定されていることを除いて、「テスト済みの高パフォーマンス値」の値をすべて使用しましたこれは、高値よりも1ノッチ低い値です。これは問題を解決できたかもしれません...または多分そうではありません。あまりにも多くの変数を変更するときにそれを区別することは困難です。
  • dcdiag.exeはベータ版のRPCサービスとの通信に関する問題について不満を述べましたが、それはすでに上記の変更を行った後です。これが最も起こりそうな問題であるように見えましたが、私がそれを修正するためにしたことは何もありませんでした。VPNは適切に実行されており、ファイアウォールはそれをブロックしていませんでした。上記の項目のいずれかがRPCの問題の原因であり、それを修正した可能性があります。または、単純な偶然の一致であった可能性があります。私はない今、そのエラーを取得し、複製は現在順調に稼働しています。

この話の教訓は、一度に1つずつ変更するか、何が原因でそれが修正されたのか本当に分からないことです。しかし、私は必死で、それを修正するための時間を使い果たしていたので、問題に対して大量の弾丸を発射しました。修正を特定した場合は、ここで報告します。ただし、絞り込みに頼らないでください。

編集5/21/2012: 昨日、リモートサーバーにスペアサーバー(GAMMA)を使って約7時間運転することで、これを解決しました。GAMMAがプライマリローカルサーバーとして機能し、通常のサーバー(ベータ)がレプリケーションに追いつきます。私がそれを配置してから、サーバーはレプリケーション速度の約2倍になります。これはVPN関連の問題である可能性があることを教えてくれますが、ALPHAからGAMMAにすべての新しい更新がレプリケートされているように思われるため、これは非常に迅速で順調です。

編集5/22/2012: 現時点では12000で、数時間で終了するはずです。スロースタートからファストフィニッシュまでの進行状況を示すグラフを掲載します。問題は、実際にそれを実際に「修正」したのはローカルサーバー接続だけだということです。VPNが問題の一部であると、私は現在考えています。そして、もしそうだとしたら、この質問はまだ完全には答えられていないと思います。VPN経由でどのようにレプリケートされているかを確認し、障害が発生していないことを確認するために、もう少し時間があったら、デバッグして進行状況を報告します。

何か変更があったらここで更新します。


複製する必要のあるデータの量と、サイトとリモートサイトの間で使用可能な帯域幅はどれくらいですか。また、DFSレプリケーションを抑制していますか?
MDMarra

1
追加する私の答えはMDMarra(レプリケーションスケジュールとステージングサイズを確認する)と同じなので、コメントを残しておきます。権限が変更された場合、複製されるのは実際のデータではなく、各ファイルのセキュリティ属性です。このような場合、バックログは通常、帯域幅に依存しません。イベントログに表示される内容については何も触れていませんが、一見の価値はあります。レプリケーショングループのDFSR診断レポートも実行します。
ジェフ・マイルズ

2
また、Windows Server 2012には、この問題を永久に解消する機能があります。blogs.technet.com
Jeff Miles

これらの質問に答えるために質問を更新しました。
Emmaly Wilson

dfsrdiag replicationstate /aは、2つのファイルのみを送信しているが、どちらも同じファイル名を持っていることを示しています。とにかく、それはアルファからベータへの2つのアウトバウンド接続を持っていると言います。送信しているファイルは850MBです。前述のように、実際はファイル全体のコンテンツを送信しているとは思いませんが、1つのファイルを処理するだけでは非常に長い時間がかかるため、そうでない場合はどうなるわかりません。ファイルは(両方のサーバーで)2008年に最後に更新されたので、ベータ版のファイルのACL情報を更新する以外に何かする必要がある理由はありません。
Emmaly Wilson、2012

回答:


2

特に編集を確認した後の非常に奇妙な問題。

ここにあるDFSRデバッグログを調べます。%systemroot%\ debugデフォルトでは、GZアーカイブされた以前の9つのログファイルと、現在書き込まれているログファイルが1つあります。

それをテキストファイルで開き、「警告」または「エラー」というテキストを検索します。デバッグログの詳細については、このブログシリーズをご覧ください。http//blogs.technet.com/b/askds/archive/2009/03/23/understanding-dfsr-debug-logging-part-1- logging-levels-log-format-guid-s.aspx

その他の質問/提案:

リソースモニターを見ると、場所がずれていませんか?ベースライン外の過剰なハードドライブまたはCPUアクティビティ?

可能であれば、AlphaサーバーとBetaサーバーの両方を再起動します。それがあなたの問題を解決するならば、あなたは本当の問題が何であったか決してわからないかもしれませんが、これがすぐに解決されることが重要であるなら、それは試す価値があります。

質問の更新に基づいて編集

850 MBのファイルに関連する2つのエントリと、DFSRデバッグログ内のエラーについて言及しました。

ステージング場所を各サーバーの別のフォルダーまたはドライブに変更してみてください。現在ステージングされているファイルが破損しているか、何らかの方法でレプリケーションをブロックしている場合。


最新のログファイルには「警告」に一致するものはありませんが、エラーがあります。エラーはすべて次のようなものです。 "20120513 23:38:59.198 6592 ASYN 755 [警告] AsyncUnbufferedFileWriter :: SetFileSizeEstimate [エラー:87(0x57)FileUtil :: SetFileValidDataLength fileutil.cpp:1657 6592 Wパラメータが正しくありません。] 「私はアンチウイルスも無効にして、それがこの恐ろしい減速を引き起こしているかどうかを確認しました。私はそれらのサーバーでさえもavがあったことを忘れており、それが問題の原因である可能性が非常に高いです。:-|
Emmaly Wilson、2012

ウイルス対策のメモが質問に追加されました。前述のように、それは何にも影響を与えていないようです。
Emmaly Wilson、2012

この問題のデバッグ中に、ALPHAとBETAの両方を何度も再起動しました。反対側のサーバーのイベントログの関連するエラー以外は何も影響がないようです。両方のサーバーのCPUアクティビティが非常に低い。日中の負荷が高い場合でも、平均20%になることはほとんどありません。RAMと同じです。ディスクの書き込みは非常に頻繁ですが、100%で固定されているとは表示されません。これは、ディスクIOバウンドではないようです。今、私はどこかが何らかのルックアップとタイムアウトでどこかで待っていると仮定する必要がありますか?この動作の理由は他にありません。私はまだ掘り起こしています...
エマリーウィルソン

Windows Updateが適用されたためにベータ版を再度再起動する必要があり、2212で戻ってきましたが、2214で戻っていないので、今は待ちます。多分それは来るべき良い事のしるしです。または、それはベータ版でさらに混乱したものが存在することを意味します。サーバー:pfft。
Emmaly Wilson、2012

...サイコロはありません。同じ遅さ、同じ問題。私は押し込み続けます。
Emmaly Wilson、2012

5

レプリケーションスケジュールを微調整して、DFS-Rが営業時間外(または必要に応じて営業時間)にフルスピードでレプリケーションできるようにすることができます。

バックログされたサーバーのステージングサイズを増やすこともできます。この状況では、パフォーマンスが向上するはずです。

上限があるかどうかについては言及していませんが、WANを介したレプリケーションがあるためだと思います。


私はあなたの回答に対応するために質問を更新しました。特に、24時間年中無休のフルスピードレプリケーションスケジュールと100GBのステージング領域について詳しく説明します。これらのアイテムがまだ設置されていない場合、あなたが言ったことは役に立ちます。これについてのあなたの相互作用に感謝します。
Emmaly Wilson、2012

1

私の経験では、これはJust How It Worksです。

4つのDFSレプリケーショングループのかなり小さなコレクション(550 GBのデータ、58kファイル、合計3.4kフォルダー)のセキュリティを更新した後、これに遭遇しました。実際にネットワークで送信されるデータは少ないため、セキュリティの変更だけでファイル全体を移動しているようには見えませんが、ディスクアクティビティは階層全体が再コピーされているように感じられます-60〜100 MB /秒の持続的なディスク転送速度、およびディスクキューSSDの階層型ストレージスペースで最大30、最大500。

私の考えでは、DFSのステージングおよびデステージングプロセスには多くのチャーンがあり、その結果、極端なディスクI / Oが発生します。2つのギガビットLAN接続ボックス間の最初の複製プロセスには、ボックス間でファイルを単にコピーした同じデータよりも数倍の時間がかかります。これは、複製されたすべてのバイトに複数バイトのディスクの読み取りと書き込みが必要であることを示しているようです。

セキュリティの更新には、2012年のクレームベースのセキュリティ(これは広く使用されていない)の使用を禁止する特別なレプリケーションロジックがないため、データの変更に対して同じステージ/デステージチャーンが発生します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.