CPUのキャッシュパフォーマンスのデータセット内のパターンを識別するために使用できる機械学習アルゴリズムはどれですか。


9

CPUのキャッシュパフォーマンスの詳細を含むデータセット(CSVファイルに保存されている)のパターンを識別するための機械学習アルゴリズムが必要です。具体的には、データセットのような列が含まれReadhitsReadmissまたはWritehits

アルゴリズムが識別するパターンは、次の点で役立ちます。

  1. 次回、ユーザーがワークロードのパフォーマンスを向上できるようにします。

  2. 機能に基づいて問題を特定するのに役立つ、または

  3. ユーザーがパターンに基づいて発生する可能性のある将来のデータ値または将来のイベントを予測するのに役立ちます。

どのMLアルゴリズムを使用できますか?

回答:


0

制限付きボルツマンマシン(RBM)は、ユーザーが条件を指定しなくても、CSVファイル内のパターンを識別できます。これらは、「実際の高次元データを構成する複雑な機能のセットは、機械学習タスクで高性能を達成するために不可欠です」の「分散および段階的表現」の生成に適しています。1

CSV形式は、行のインスタンスと列の静的な属性セットを表すように特別に設計されているため、トレーニングのセットアップは簡単です。目標が時間的パターンを識別することである場合、ウィンドウ戦略が必要になる場合があります。

K-RBMはk-meanアプローチとRBMの合併です。アプローチの選択は、どのような種類のパターンが求められているかに大きく関係しています。パターンという用語は、時間の経過に伴う単純な傾向、テキスト列に見られる一般的なパターン、または複数の列から推測される複雑なパターンに適用できます。

参考文献

[1] 制限付きボルツマンマシンにおける構成表現の出現、 J。Tubiana、R。Monasson、2017年)

[2] K-RBM、Siddhartha Chandra、Shailesh Kumar、CV Jawahar を使用した複数の非線形部分空間の学習



0

CSVファイルのパターンを特定するための機械学習アルゴリズムが必要です

教師なし学習をしたい。ウィキペディアの同じ定義は次のとおりです。

教師なし機械学習は、「ラベルなし」データから隠れた構造を記述する関数を推測する機械学習タスクです(分類または分類は観測に含まれていません)。

ここで教師なし学習アルゴリズムのリストを確認し、ニーズに合ったアルゴリズムを使用することをお勧めします。

あなたが始めているなら、私はK平均クラスタリングアルゴリズムを学ぶことから始めることをお勧めします


0

まず、CSVファイルの各チャンクを分類し、A)最適な状況B)クリティカルなどの現在の状況に基づいてラベルを付ける必要があります。

次に、SOMやk-meansなどの教師なし学習アルゴリズムを使用してデータをクラスター化し、取得するクラスを分類します。


0

基本的に探しているのは、教師なし学習(UL)です。多くのUL技術がありますが、ユーザー入力をまったく必要とせずに、まさに望みどおりのUL技術が見つかるかどうかはわかりません。それでも、これらのアプローチについて文献を読み飛ばすと、何か役に立つものを見つけることができるでしょう。

1つのオプションはDBSCANです。これは、ユーザーがクラスターの初期ターゲット数を入力する必要がない非常に一般的なクラスターアルゴリズム(ほとんどのクラスターアルゴリズムで必要なもの)です。ただし、それでもepsilonminPts(クラスターの計算に使用される距離)および(「密な」領域を構成するために必要な最小ポイント数)のアルゴリズム値を指定する必要があります。

ニューラルネットワークの教師なし学習へのアプローチである自己組織化マップもご覧ください。

有用な方向にあなたを導くかもしれない他のいくつかの検索用語は、「データマイニング」と「データベースの知識発見」(KDD)を含みます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.