私のデータセットはベクターシーケンスで構成されています。各ベクトルには50の実数値の次元があります。シーケンス内のベクトルの数は、3〜5〜10〜15の範囲です。つまり、シーケンスの長さは固定されていません。
かなりの数のシーケンス(ベクトルではありません!)には、クラスラベルが付けられています。私の仕事は、一連のベクトルが与えられたときに、シーケンス全体のクラスラベルが計算される分類子を学ぶことです。
データの正確な性質はわかりませんが、シーケンスの性質は一時的なものではありません。それでも、ラベル()を変更せずに、ベクトルをベクトルと交換することはできません。つまり、ベクトルの順序が重要です。ベクトル自体は比較可能です。たとえば、内積を計算し、この類似値を使用することは理にかなっています。
私の質問は、そのようなデータを分類するのに役立つツール/アルゴリズムは何ですか?
更新:データには、1つまたは非常に少数のベクトルがクラスラベルに強く影響するという特性があります。
考えられる解決策:いくつかの調査の後、Recurrent Neural Networks(RNN)はかなり自然に法案に適合しているように見えます。包括的な考え方は、コンテキストサイズを選択し、単語ベクトルを連結し、最大プーリングを実行し、それを古典的なNNを通じてフィードすることです。文内の可能なコンテキストウィンドウの位置ごとに、特徴ベクトルが作成されます。最終的な特徴ベクトルは、たとえば最大プーリングを使用して構築されます。逆伝播は、ネットワークのパラメータを調整するために行われます。私はすでにいくつかの肯定的な結果を得ました(GPUは必須です)。