回答:
これらのポイントを欠落しているものとして扱うことができます--- ベクトルには最大20(x、y)のペアがあり、特定のポイントには5(x、y)のペアがあると仮定しましょう。この場合、残りのペアを欠損として扱い、欠損パラメーターに標準手続きを適用します。
これらの標準手順は次のとおりです。
しかし、@ jonscaポイントとして---特定のポイントの不在がデータの分類に役立つ場合、たとえば、いくつかのモデルを構築する必要があり、それぞれが特定のポイント数のインスタンスをモデル化します。
あなたの質問をどのように理解するかから、データ内のポイントは交換可能であり、順序付けはありません。つまり、各例にポイントのセットがあります。この設定は、jbの「欠損値」設定とは異なります。説明した。
この問題でよく使用される2つの方法について知っています。これらは実際にあなたのアイデアに基づいています。良いベースラインは、おそらく1つの例内のすべてのポイントを平均することですが、通常はうまく機能しません。
複数のポイントを1つのフィーチャに集約するには、コンピュータービジョンなどで、単語の袋(またはバッグオブフィーチャー)表現が非常に一般的に使用されます。アイデアは、トレーニングセット内のすべてのポイントを(たとえばk-meansを使用して)クラスター化し、クラスターごとに各ポイントを記述することです。各例では、クラスターが発生する頻度のヒストグラムを取得します。
ポイントのすべてのペアを使用するには、セットカーネルを使用できます。これは、SVMを使用すると最適に機能する可能性がありますが、カーネル化できるか、入力間の互換性関数を利用できる学習アルゴリズムでもおそらく機能します。基本的に、セットカーネルは、設定のように、2つの機能セットの類似性を計算する方法です。