Muninやその他のRRDToolフロントエンド(CactiやGangliaなど)は優れたツールですが、I / Oに関する既知の問題があり、ノードの数百を監視する場合のスケーリングは困難です。
ただし、このI / Oボトルネックに対処するためのいくつかの手法があります。これらの手法の1つは、書き込みを多数のディスクに分散して、各ディスクのI / Oを削減することです。一方、多くのシステム管理者はtmpfsファイルシステムを使用してこの問題に対処しています。RRDCachedもこれに対処するための最近の優れたオプションです。このスライドをご覧になることをお勧めします。
私はMuninにはそれほど詳しくありませんが、CactiにはBoostプラグインがあります。このプラグインは、データをメモリにキャッシュし、個々の書き込みではなく、ディスクに対して大量のオンデマンド更新を実行するため、I / Oが削減されます。ムニンもこのようなものを持っていると確信しています。
余裕があれば、SSDディスクも良い選択肢です。
最後に重要なことですが、Reconnoiterを確認することもできます。Recconoiterは、新しい障害検出およびグラフ化/傾向分析ツールです。ほとんどのトレンドツールとは異なり、ReconnoiterはRRDToolベースではなく、この特定の問題を解決しようとします。私は本番環境でReconnoiterを使用していませんが、いくつかのテストを行いましたが、まだ少し「グリーン」であるにもかかわらず、特にそのスケーラビリティに関して、非常に有望に見えます。
お役に立てれば!