ファイバチャネルの長距離の問題


52

新鮮な目が必要です。

ファイバーチャネルと10GbEが多重化されている15kmの光ファイバー回線を使用しています(パッシブ光CWDM)。FCには、最大40 kmに適した長距離レーザーがあります(Skylane SFCxx0404F0D)。マルチプレクサは、最大の機能を実現できるSFPによって制限されます。4Gbファイバーチャネル。FCスイッチはBrocade 5000シリーズです。それぞれの波長は、FCの場合は1550、1570、1590および1610nm、10GbEの場合は1530nmです。

問題は、4GbFCファブリックがほとんどきれいにならないことです。時々、彼らは彼らの上に多くのトラフィックがあってもしばらくの間です。その後、わずかなトラフィックしかなくても、エラー(RX CRC、RXエンコーディング、RXディスパリティなど)が突然発生する可能性があります。エラーとトラフィックのグラフを添付します。現在、エラーは1Gb / sのトラフィックの場合、5分あたり50〜100エラーのオーダーです。


光学

1つのポートの電力出力を要約します(sfpshow異なるスイッチで収集されます)

SITE-A単位= uW(マイクロワット)SITE-B
**********************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm(ko)
      RX 95.2 TX 1175.6
FAB2
SW2 TX 1422.0 RX 104.6 SW4 1610nm(ok)
      RX 54.3 TX 1468.4      

この時点で興味があるのは、電力レベルの非対称性です。SW2は1422uWで送信し、SW4は104uWで受信しますが、SW2は54uWでのみ同様の元の電力でSW4信号を受信します。

SW1-3の場合も同様です。

とにかく、SFPのRX感度は-18dBm(ca. 20uW)まであるため、いずれにしても大丈夫です...しかし、何もありません。

一部のSFPは、製造元によって誤動作していると診断されています(上記の「ko」で示された1550nmのもの)。1610nmのものは大丈夫なようで、トラフィックジェネレーターを使用してテストされています。専用回線も複数回テストされています。すべてが許容範囲内です。私は交換を待っていますが、何らかの理由で、一見良いものもゼロエラーを発生させないので、それが物事を改善するとは思わない。

以前は、回線に信号を送信する前に、アクティブな機器(何らかの4GFCリタイマー)が関与していました。理由はわかりません。問題のためにその機器は排除されたため、現在は次のもののみがあります。

  • スイッチ内の長距離レーザー、
  • (新規)マルチプレクサへの10m LC-SCモノモードケーブル(各ファブリック用)、
  • 専用線
  • 同じことですが、リンクの反対側で逆になります。


FCスイッチ

Brocadeからのポート構成を次に示しますportcfgshow(明らかに、両側に似ています)。

エリア番号:0
速度レベル:4G
フィルワード(アクティブ時)0(アイドル-アイドル)
塗りつぶしワード(現在)0(アイドル-アイドル)
AL_PAオフセット13:オフ
トランクポートがオン
長距離LS
VCリンク初期化オフ
望ましい距離32 Km
予約済みバッファ70
ロックされたL_Port OFF
ロックされたG_Port OFF
E_Portが無効になっています
ロックされたE_Port OFF
ISL R_RDYモードオフ
RSCN抑制オフ
永続的な無効化OFF
LOS TOV有効オフ
NPIV機能がオン
QOS E_Port OFF
ポートの自動無効化:オフ
レート制限オフ
EXポートがオフ
ミラーポートオフ
クレジット復旧オン
F_Portバッファーオフ
障害遅延:0(R_A_TOV)
NPIV PP制限:126
CSCTLモード:オフ

2GbFCへのリンクを強制してもエラーは発生しませんが、4GbFCを購入し、4GbFCが必要です。

エラーとトラフィックのグラフ

どこを見ればいいのかわかりません。次に何を試すべきか、またはどのように進めるかについてのアイデア

4GbFCを確実に動作させることができない場合、8または16で作業している人々は何をするのだろうか...「あちこちのいくつかのエラー」が許容できるとは思いません。

ああ、ところで私たちはすべてのメーカー(FCスイッチ、MUX、SFPなど)と連絡を取り合っています。SFPを変更する場合(以前は変更されている場合もあります)を除き、誰も手がかりがありません。Brocade SAN Healthによると、ファブリックは大丈夫です。MUX、まあ、それは受動的であり、それはプリズムであり、自然は最高です。

暗闇の中でショットはありますか?


付録:質問への回答

@ Chopper3:これは問題を示しているBrocadeの第2世代です。5000台になる前に、5100台になりました。アクティブなMUXがまだ残っていた当初、1日テストを行うために長距離レーザーを一度レンタルして直接スイッチに入れましたが、その日はもちろんきれいでした。しかし、私が言ったように、時々それはちょうどそのようにきれいです。そして時々そうではありません。代替スイッチは、テスト専用のスイッチでSAN全体を再構築することを意味します。代替SFPは、まさしくそのように入手するのが難しいです。

@longneck:ラインはレンタルされます。ダークファイバー(9umモノモード)なので、他に誰もいません。スプライスがあります。見に行くことはできませんが、正しく行われたことを信頼する必要があります。先ほど言ったように、ラインはチェックされ、再チェックされました(光学時間領域反射計を使用)。明らかに高価すぎるため、これらすべての機器を自分で用意しているわけではありません。

@mdpc:あなたによると、ケーブルの「間違った」タイプは何でしょうか?スイッチまでは、すべてモノモードです、はい。コネクタも正しいものです。ええ、特定の角度などで繊維が切断されている緑色のものがあることは知っています。しかし、私が知っているすべてのものに対して正しいものがあります。


進捗レポート#1

FabricOS 6.4.1を搭載したBrocade 5100で2つのファブリック(= 2x2スイッチ)があり、FabricOS 7.0.2で2つのファブリック(別の2x4スイッチ)があります。

長距離ISL(各ファブリックに1つ)では、FOS 6.4.1を長距離に設定すると、VC Init設定に関する警告が表示され、その結果、フィルワードが表示されることが判明しました。しかし、これらは単なる警告です。FOS 7.0.2 では、VCIおよび長距離リンクのフィルワードを変更する必要があります。

FOS 6.4.1をLS(長距離の静的距離)設定に間違ったVCIおよびフィルワード設定で設定すると、ファブリック全体が動作しなくなりました(SCNループでスタック、fabriclog -s表示に使用、他の場所に表示されない、ポートエラーなし)カウンターまたは何か増加)。

現在、私はIMHOの1つのファブリックに、より正確な設定を適用し、正常に動作しているように見えますが、トラフィックの少ないもう1つのファブリックにはまだエラーがあります。

進捗状況1

要するに:

  • MUXのアクティブな部分(FCリタイマー)を削除しました。
  • 長距離SFPを最終機器自体に配置しています。
  • 念のため、最終機器をMUXの残りのパッシブ部分に接続するための新しいモノモードケーブルを購入しました。
  • 現在、いくつかの長距離設定を試しています。

それはほとんど黒魔術です。起こるすべてはほとんど経験的であり、誰も何かをする正確な理由が何であるかについての手掛かりを持っているようには見えません。(「これを試してみましたが、うまくいきませんでしたが、それを試してみたのでうまくいきました。」しかし、実際に誰もその理由を知らないようです。)

最新情報をお届けします。


進捗レポート#2

保証対象のファブリックの1つに新しいレーザーを使用しました。4GbFCでも非常にきれいです。

それらはおよそ2mW(3dBm)で送信していますが、他は1.5mW(1.5dBm)でしかありませんが、それで十分です。

他のファブリック(レーザーは明らかに問題ない)は、1つまたは2つのCRCを頻繁に生成します。

sfpshow実際のRXエラーを生成するSFPを使用すると

ステータス/ Ctrl:0x82
アラームフラグ[0,1] = 0x5、0x40
警告フラグ[0,1] = 0x5、0x40

次に、その意味を理解する必要があります。以前にあったかどうかはわかりません。

まあ、私は最初の休暇で私の頭をクリアします。8-)


8
まず第一に、素晴らしい質問です。このサイトの目的は何ですか、よくできています。次に、代替スイッチ/ SFPにアクセスできますか?理想的には、テストのために交換できる別のメーカー/モデルですか?
チョッパー3

4
素晴らしい更新、良い仕事を続けてください、私はいくつかの提案やアドバイスがあればいいのですが、あなたは正しい軌道に乗っています、彼らのことを知っているSFの新しいユーザーを見つけるのは素晴らしいです:)
Chopper3

1
エラーの時間または期間に一貫性はありますか?それらは常にN時間に発生しますか?常にX分続きますか?それらを天気、近くのスポーツイベント、または他の現象と関連付けることができますか?断続的な問題は、つぶすのが最も難しいバグです。通常、ホワイトボードで発生する時間と期間をグラフ化することで、攻撃を開始します。うまくいけば、他の現象と相関するパターンが現れます。
-dotancohen

2
誰にでも見えるホワイトボードで追跡していますか?押しませんが、強くお勧めします。あなたが言ったように、あなたは新鮮な目を必要とし、あなたの組織の誰かは、おそらく症状からではなく、時間/期間からパターンが現れるのを見るでしょう。
-dotancohen

1
こんにちは、Marki。私はあなたが話していることに完全には精通していませんが、最後の更新では、問題は交換SFPによって修正されたかのように見えますか?もしそうなら、おそらくこれを回答として投稿し、さらに問題がある場合は新しい質問をすることをお勧めします。
マークヘンダーソン

回答:


4

わかりました、答えを投稿する必要があると思います。一言で言えば:主張します。

1つのファブリックにCRCエラーが散発的に1つ残っているため、この問題は私の好みでは100%解決されません。もう一つはきれいです。しかし、私はそれで生きることができます。

いずれにせよ、CWDMユニットを長期間使用し続けるのではなく、インフラストラクチャが大きく変わるため、来年はパッシブDWDMマルチプレクサに切り替えます。どうやらDWDMレーザーはCWDMレーザーよりも安価です。ああ、私たちは見て、多分私はあなたに尋ねる多くの問題があるでしょう:-)


Nopeを上記に更新し、CWDMを再度購入しましたが、本当に安価です。ただし、特定のアプリケーション向けのAFAICSでは、CWDMレーザーがないため、DWDMに移行する必要あります。最後に、できる限りメーカーに近づこうとしましたが、ディストリビューターやインテグレーターから購入する場合と比べて、価格は全体の約1/5になりました。


したがって、期待どおりに機能しないソリューションを購入した場合、私は結論付けることができます。技術面では、2つのことを行いました

  • MUXのアクティブな部分を削除します(後悔しているとは言えませんが、それが最終的に別のエラーの原因であるかどうかもわかりません)
  • SFPを徹底的にチェックする

(そしてもちろん、すべての標準的な診断、一度に1つの事柄を変更し、何が起こるかなどを確認しますが、それを伝える必要はありません。

この場合、主張するのに長い時間がかかりましたが、最終的に私たちはメーカー自身が数人といくつかの機器を助けてチェックを実行するレベルに達しました。そしてもちろん、私たちのハードウェアはメンテナンス中なので、インテグレーターにそれを支払わせました。したがって、これは技術的な課題と同じくらい商業的な課題でした。

PS。ああ、そして、前回のアップデートで言及したフラグは何も悪いことを示していませんでしたが、それらが正確に何を意味していたか覚えていません。ステートメントを見つけたら、完全を期すために答えを更新します。


結局、フラグは結局悪いものを意味しました。しかし、どうやらリンクのどちら側がエラーの原因であるかは不明です。そのため、そのペアも変更する必要があります。

ああ、BTW、8GbFC DWDMトランシーバーは8G CWDMと比較して安いだけです;-)一番安い方法はCWDMで4GbFCを使用し、ISLトランキングを使用することです(ライセンスがある場合)


残念ながら、私はそれが尋ねられたときにこれを見ませんでした。これが役立つかどうかはわかりませんが、アイドルアイドルフィルワードを使用している場合は、多くの光を送信しています。これは、未使用の各フレームが大量の電力を消費し、SFPで大量の熱を発生させていることを意味します。フィルワードを他のモードに変更すると(モード3を使用しますが、スイッチとSFPが異なります)、エラーを少なくしてスループットを向上させることができます。
バジル14

@Basil私は...正しいfillwordは8GFCでワード同期のための問題だったが、私はそれについてこのように思っている使用して知っていた
Marki

いつでもそれを使用することをお勧めします-私が知る限り、それはアイドルフレームがそのSFPを作成する原因となる干渉の量の問題です。
バジル14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.