可変数の特徴を持つデータセットを扱う

14

可変数の特徴を持つデータを分類するためのいくつかのアプローチは何ですか？

例として、各データポイントがxおよびyポイントのベクトルであり、各インスタンスに同じ数のポイントがないという問題を考えます。xおよびyポイントの各ペアを特徴として扱うことはできますか？または、各データポイントに固定数のフィーチャが含まれるように、ポイントを何らかの形で要約する必要がありますか？

machine-learning missing-data

— ジャーガソン
ソース

7

特定のポイントの有無は、データの分類に役立ちますか？

— jonsca

5

これらのポイントを欠落しているものとして扱うことができます--- ベクトルには最大20（x、y）のペアがあり、特定のポイントには5（x、y）のペアがあると仮定しましょう。この場合、残りのペアを欠損として扱い、欠損パラメーターに標準手続きを適用します。

これらの標準手順は次のとおりです。

しかし、@ jonscaポイントとして---特定のポイントの不在がデータの分類に役立つ場合、たとえば、いくつかのモデルを構築する必要があり、それぞれが特定のポイント数のインスタンスをモデル化します。

— jb。
ソース

10

あなたの質問をどのように理解するかから、データ内のポイントは交換可能であり、順序付けはありません。つまり、各例にポイントのセットがあります。この設定は、jbの「欠損値」設定とは異なります。説明した。

この問題でよく使用される2つの方法について知っています。これらは実際にあなたのアイデアに基づいています。良いベースラインは、おそらく1つの例内のすべてのポイントを平均することですが、通常はうまく機能しません。

複数のポイントを1つのフィーチャに集約するには、コンピュータービジョンなどで、単語の袋（またはバッグオブフィーチャー）表現が非常に一般的に使用されます。アイデアは、トレーニングセット内のすべてのポイントを（たとえばk-meansを使用して）クラスター化し、クラスターごとに各ポイントを記述することです。各例では、クラスターが発生する頻度のヒストグラムを取得します。
ポイントのすべてのペアを使用するには、セットカーネルを使用できます。これは、SVMを使用すると最適に機能する可能性がありますが、カーネル化できるか、入力間の互換性関数を利用できる学習アルゴリズムでもおそらく機能します。基本的に、セットカーネルは、設定のように、2つの機能セットの類似性を計算する方法です。

— アンドレアス・ミュラー
ソース