何が原因ですか?pcieport 0000:00:03.0:PCIeバスエラー:AER / Bad TLP


20

以下のようなエラーメッセージが表示されます。

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

これらは(今のところ)修正されているにもかかわらず、パフォーマンスの低下を引き起こします。明らかに、この問題は解決する必要があります。しかし、私はインターネットでそれについて多くを見つけることができません。(たぶん間違った場所を探しています。)以下に投稿するリンクをいくつか見つけました。

誰もこれらのエラーについてもっと知っていますか?

それはマザーボード、Samsung 950 Pro、GPU(またはこれらの組み合わせ)ですか?

ハードウェアは、M2のAsus X99 Deluxe II Samsung 950 Pro NVMeです。mb上のスロット(PCIeポート3を共有)。PCIeポート3には何も接続されていません。PCIeスロット1 Core i7 6850K CPUのGeForce GTX 1070

私が見つけたいくつかのリンクは、同じハードウェア(X99 Deluxe II mbおよびSamsung950 Pro)について言及しています。Arch Linuxを実行しています。

journalctlまたはこれまで検索したと思われる場所に文字列 "8086:6f08"が見つかりません。

nvme ssd(Bad TLP)の奇妙なエラーメッセージ:linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe:TLPの再送信でカードが静かに苦労していますか?http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080が不正なTLP PCIeバスエラーをスローする-GeForceフォーラムhttps://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

ドライバー-dmesgログのPCIeエラー-Ubuntuに問い合わせ/ubuntu/643952/pcie-error-in-dmesg-log

780Ti X99ハードロック-PCIEエラー-NVIDIA開発者フォーラム https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/


gtx 710をpcie x16スロットからx1スロットに移動しました(prime b450-plus、ryzen 5 3600、samsung nvme 970を使用)
トランジェント

回答:


23

何が起こるかを完全に説明することはできませんが、少なくともいくつかの詳細を伝えることができます。

ここで例として説明したように、CPUはトランザクション層パケット(TLP)によってPCIeバスコントローラーと通信します。ハードウェアは障害のあるものを検出し、Linuxカーネルはそれをメッセージとして報告します。

カーネルオプションpci=nommconfは、カーネル2.6以降のLinuxで使用可能なメモリマップPCI構成スペースを無効にします。非常に大まかに、すべてのPCIデバイスには、このデバイスを説明する領域があります(これを参照lspci -vv)。この領域にアクセスする最初の方法は、I / Oポートを経由することです。

つまり、この特定のケースでは、PCIeコントローラーがこのメソッドを使用して特定のデバイスの構成スペースにアクセスすると、何か問題が発生します。デバイス、マザーボードのPCIeルートコントローラー、これら2つの特定の相互作用、またはその他のハードウェアのバグである可能性があります。

を使用するpci=nommconfと、すべてのデバイスの構成スペースが元の方法でアクセスされ、アクセス方法を変更するとこの問題を回避できます。必要に応じて、解決と抑制の両方を行います。


マザーボードの問題かどうかを知ることができますか?または私のCPUの問題。それらを変更する必要がありますか?
user10024395

@ user2675516:CPU関連ではありません。これは、PCIeルートコントローラー(多くの場合、サウスブリッジにあります)やデバイスのPCIeコントローラー、またはそれらの相互作用の問題です。はい、異なるハードウェアを搭載したマザーボードを変更すると、通常はそれがなくなります。
-Dirkt

asus e-wsからasus deluxeに変更しましたが、問題は解決しません。それがCPUだと思う理由です。それとも、両方がX99チップセットであるためですか?
user10024395

1
@ user2675516:チップセットが同じ場合、特に。PCIeコントローラーを使用する場合、もちろんマザーボードを変更しても効果はありません。それが、「異なるハードウェアを備えたマザーボード」と書いた理由です。
Dirkt

私のための一般的な要因は、X99チップセットを搭載したマザーボードのようです
モニカチェッリオためMountainX

3

カーネルコマンドラインオプションを追加するとpci=nommconf、問題が解決しました。したがって、問題はマザーボードに関連していると思われます。X99マザーボードを搭載したすべてのコンピューターで発生します。Z170システムまたは私が所有する他のハードウェアでは発生しません。


1
こんにちは、私もこの問題に直面しています。pci-nommconfの機能を知ることができますか?それは単に問題を抑制するか、問題を解決するだけですか?
user10024395

確認できない-アーチ4.13.12を実行しているz170iでエラーを取得
sitilge

@sitilge-コメントありがとうございます。どのブランド/モデルz170iですか?私のマザーボードはAsusです。1つはX99 Deluxe II
Monica

asus z170i proゲーミングです。
-sitilge

3

この手順を試してください:

  1. cp /etc/default/grub ~/Desktop
  2. GRUBを編集します。pci=noaerの最後に追加しGRUB_CMDLINE_LINUX_DEFAULTます。行は次のようになります。

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. 今すぐ再起動

私はあなたのソリューションを適用しましたが、代わりに@dirktpci=noaerpci=nommconf
user3405291で

おかげで、pci = noaerはhpラップトップにインストールされた私のslackware 14.2x64の問題を修正しました(デスクトップへのインストールではこの問題はまったく発生しませんでした)
John Forkosh

7
少し詳しく説明していただけますか?このオプションは何をし、どのように問題を解決すると期待しますか?
カリモ

sudoedit安全な編集に使用しないのはなぜですか?これらのコピーの-1は、あちこちの手順で完全にナンセンスです
LinuxSecurityFreak

4
pci=noaerAdvanced Error Reportingを無効にするだけです。それでもこれらのエラーを持っているので、あなただけ...それらを見ていない
dirkt

2

同じエラーが表示されます(デバイス8086:6f08に関連する悪いTLP)。X99 Deluxe II、Samsung 960 pro、Nvidia 1080 tiがあります。これらの問題は、Samsung ProなどのX99チップセットおよびM.2デバイスに関連しているようです。

X99 Deluxe IIマザーボードは、PCIE16_3スロットとM.2 / U.2の間で帯域幅を共有します。@Nicからのコメントに続いて、BIOSでOnboard Devices Configurationを変更しました| U.2_2自動からU.2_2への帯域幅。これで問題は解決しました。


それがまさにそのチップセットであるとどのように判断しましたか?他のすべてのチップセットを試しましたか?さまざまなハードウェアで発生します。
doug65536

2

x99-EのBIOSのPCIE16_3スロット構成を、M.2デバイスサポートのデフォルトであるautoではなくx8モードに静的に設定するように変更しました。PCIe 1x〜16x拡張ボードを介して接続された両方の1070GTXカードでTLPエラーなしで正常に動作するようになりました。

最初にポート16_3を使用せず、テストするためにそのスロットに移動しましたが、BIOSを変更する前にまだ問題がありました。また、マイナー構成ですべてのカードのbsleep設定を30に変更しました。

変更する前に、カーネルログにエラーでスパムを送信していました。また、変更の前後にシステムの電源を入れ直そうとしました。かなり永続的であるようです。


2

マザーボードのマニュアルで「AER」を検索してください。特定の非互換性を修正するか、AERを完全に無効にすることにより、問題の原因を取り除くことができます。これは、すべてのエラースパムが修正されたエラーに関するものである場合にのみ使用してください。そうでない場合、実際の問題を隠蔽することができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.