入力シーケンスが与えられたら、このシーケンスに特定の望ましい特性があるかどうかを判断する必要があります。プロパティはtrueまたはfalseのみです。つまり、シーケンスが属することができるクラスは2つだけです。
シーケンスとプロパティの正確な関係は不明ですが、非常に一貫性があり、統計的な分類に役立つはずです。分類器をトレーニングするケースは多数ありますが、このトレーニングセットではシーケンスに間違ったクラスが割り当てられる可能性がわずかにあるという意味で、少しうるさいかもしれません。
トレーニングデータの例:
Sequence 1: (7 5 21 3 3) -> true
Sequence 2: (21 7 5 1) -> true
Sequence 3: (12 21 7 5 11 1) -> false
Sequence 4: (21 5 7 1) -> false
...
大まかに言うと、プロパティはシーケンス内の値のセット(たとえば、「11」の存在はプロパティがほぼ確実にfalseであることを意味します)、および値の順序(「21 7 5 「プロパティがtrueである可能性が大幅に増加します)。
トレーニング後、分類器にのように以前は見えなかったシーケンスを与えることができ(1 21 7 5 3)
、プロパティがtrueであるという確信を出力する必要があります。この種の入力/出力で分類器をトレーニングするための有名なアルゴリズムはありますか?
私は、単純なベイズ分類器(少なくとも入力が独立しているという仮定をひどく壊すことなく、順序が重要であるという事実に実際には適応できない)を検討しました。また、隠れマルコフモデルのアプローチについても調査しました。これは、入力ごとに1つの出力ではなく、1つの出力しか利用できないため、適用できないようです。私は何を取りこぼしたか?