SQL Serverで大規模なアップグレードを実行する準備ができており、先に進む前に解決しようとしている分散可用性グループの異常な動作に気付いています。
先月、リモートセカンダリサーバーをSQL Server 2016からSQL Server 2017にアップグレードしました。このサーバーは、複数の分散可用性グループ(DAG)と個別の可用性グループ(AG)の一部です。このサーバーをアップグレードしたときに、サーバーが読み取り不能な状態になることを認識していなかったため、この1か月間はプライマリサーバーのみに依存していました。
今後のアップグレードの一環として、CU 4パッチをサーバーに適用し、再起動しました。サーバーがオンラインに戻ったとき、パッチを適用したばかりのセカンダリは、すべてのDAG / AGが問題なく同期していることを示しました。
ただし、プライマリーは非常に異なるストーリーを示していました。報告していた
- 別のAGが問題なく同期していた
- しかし、DAGは非同期/非正常状態でした
最初にパニックに陥った後、次のことを試みて、DAGで再び同期を取りました。
- プライマリから、データの移動を停止して再開しました。これはデータの同期を開始しませんでした。
- セカンダリ(パッチを適用したばかりの)
ALTER DATABASE [<database] SET HADR RESUME;
で実行しました-エラーなしで実行されますが、同期は再開されませんでした
データを再び同期する最後の試みは、セカンダリにログインし、SQL Serverサービスを手動で再起動することでした。サービスを手動で再起動するのは少し極端に思えます。サーバーを再起動すれば十分だったと思うからです。
再起動後にDAGがセカンダリへの同期を開始しないという問題に誰かが遭遇しましたか?もしそうなら、それはどのように解決されましたか?
SQL Serverのエラーログとセカンダリサーバーのイベントビューアーの両方を確認しましたが、目に見える異常はありませんでした。