デュアルCPUサーバーで、一方のCPUが他方のCPUよりも高温になるのは正常ですか?


51

Linuxを実行し、複数のVMをホストするlibvirtを備えたデュアルOpteronサーバーがあります。VMは正常に動作し、サーバーは正常に処理されますが、1つのCPUが常に約69C(70Cでスロットル)を実行し、他のCPUが約15Cを実行していることに気付きます。

これは私には普通ではないようですか?彼らは両方の温度が少し近くにあるべきではありませんか?

私はこれ以上どのように診断するのか分かりません。CPUの1つに十分なサーマルペーストがない可能性がありますか?

編集:マザーボードはASUS KGPE-D16であり、デュアルNoctua NH-U9DOファンによって冷却されます。

温度は絶対値ではなく、周囲温度よりも低下する可能性があることに注意してください。サーバーがアイドル状態のとき、CPU温度は2Cと13Cに下がります。ここからlmsensors構成を使用しています


1
サーバーのメーカー/モデルは何ですか?
ewwhite 14年

2
CPU負荷の分散はどうですか?mpstat -P ALL 1Linuxでのサポート
クリストファーペリン14年

3
壊れた温度センサのような音
matcheek

14
15Cは....非常に可能性が壊れ検閲である
Reaces

センサーが壊れているか、キャリブレーションが正しくないようです。サーバーを再起動できる場合は、正しい値を表示するBIOSを確認してください。

回答:


106

この問題は、ヒートシンクの適合度が低くなりました。たぶん不十分な適合は正しい説明ではありません。結局のところ、ヒートシンクの上にあるプラスチック製のカバーではなく、ヒートシンクの上にサーマルペーストを置く必要があります。

ここに画像の説明を入力してください

プラスチックカバーを取り外した後、CPUは素晴らしく、涼しいです。


51
面白いからといって+1
HBruijn 14年

9
誰かがプラスチック製のカバーを所定の位置に置いたままにして、その上にペーストを置き、その上にヒートシンクを置くということですか?エピック。
トムトム14年

4
Baaaaaahaaahaaahahahaa !!
クレイグ14年

8
バックグラウンドで利用規約、限定保証、返品ポリシーを確認する方法が大好きです。:)
モニカとの軽さのレース14

6
愚かさを感じさせない場合(そうでない場合)、新しいオフィスのコーヒーメーカーで同様のことを行いました。コーヒーは冷たすぎて飲むことができなかったので、保護用段ボールのディスクが発熱体から落ちる前に、店に戻すために梱包していました。)
マーティンジェームズ14年

25

私の経験では、ケース内のペアのコンポーネントが異なる温度で動作するのは普通です。なぜなら、空気の流れはどこでも同じではないからです。これは、コロボックスからのHDD温度のグラフです。ドライブはミラーリングされているため、それらのワークロードはほぼ同じです。

過去1年間のHDD温度のmuninグラフ

ご覧のとおり、これらは互いに追跡していますが、同じではありません。また、平均して6Cしか離れていません。センサーが絶対温度を報告するか、過熱を報告するかに関係なく、負荷の下での55°Cの差は非常にひどく間違っているようです。データが正しいことを確信している場合、静止状態の差が10℃に下がることを考えると、これは気流による違いの1つであり、ヒートシンクの取り付け不良が疑われます。


1
mpstatを使用して(Christopher Perrinから、ありがとう!)負荷がかなり均等に分散されていることを確認しました。現在、物事は+ 3Cと+ 20Cでアイドリングしています。ヒートシンクをいじってみて、ヒートシンクがゆるんでいるかどうかを確認します。サーマルペーストの問題と思われますか?
サモス14年

それは非常に可能です(そして、ウィグリングを開始した後はもっと可能です)。
MadHatter 14年

8

そうではない。気流に重大な問題がない限り。または、クーラーの1つが不良です。温度は変化しますが、それほどではありません(70℃対15℃)。

15度がどれだけ低いかを考えると、(a)センサーがオフになっていると思います(実際にサーバーを涼しい部屋に保管していますか?)。

また、何らかの理由で、CPUの1つがまったく動作しないと仮定します。

小さな違いは正常です。少し大きいものもあります(気流が頭に浮かぶ)。ただし、ここでは1つがコールドであることについて説明します。


2

これは、冷却または不均等な負荷の可能性があります(状況がおそらく不均等な負荷であるという温度差がある場合)。prime95のようなものを使用して、すべてのコアを均等にロードし、温度がまだ変化するかどうかを確認する必要があります。そうでない場合は、VMのバランスを取る必要があります。アプリがマルチスレッドでビジーであることを確認してください。それを行う方法は、ソフトウェアと個々のワークロードに依存するため、実際には質問の範囲を超えています。単一のCPU /コアを追加するのに十分な負荷がない場合、これを行うことには実際の利点はないことに注意してください-cpuシステム。

冷却に絞り込んだ場合。10Cまでの小さな違いは、サーマルペーストが少なすぎる(または多すぎる)ことです。大きな違いは、CPUクーラー間の重大な問題または違いを示します。空気の流れを妨げている、ヒートシンクが緩んでいるなどの可能性があります。


0

私は、欠陥のある温度に同意しなければなりません。センサー、15Cは59Fのみです!!! コンピューターが非常に寒いデータセンターにない限り、周囲の気温は59Fを超えると思います!VMを低温コアに割り当て、変更があるかどうかを確認します。そうでない場合は、センサーが故障していると非常に疑います。

また、dmesg(ブートメッセージ)の出力を調べて、そこに異常なものがないかどうかを確認することもできます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.