入力として数値のベクトルを取り、出力としてクラスラベルを与える分類子を学びたいとしましょう。私のトレーニングデータは、多数の入出力ペアで構成されています。
ただし、新しいデータをテストする場合、このデータは通常、部分的にしか完成していません。たとえば、入力ベクトルの長さが100の場合、30個の要素にのみ値が与えられ、残りは「不明」です。
この例として、画像の一部が隠れていることがわかっている画像認識を考えてみます。または、データの一部が破損していることがわかっている一般的な意味で分類を検討してください。すべての場合において、データベクトルのどの要素が未知の部分であるかを正確に把握しています。
この種類のデータで機能する分類子をどのようにして学習できるのでしょうか。「未知の」要素を乱数に設定することもできますが、既知の要素よりも未知の要素の方が多いことが多いので、これは良い解決策のようには聞こえません。または、トレーニングデータの要素をランダムに「不明」に変更し、完全なデータではなくこれらでトレーニングすることもできますが、これには既知の要素と未知の要素のすべての組み合わせの徹底的なサンプリングが必要になる場合があります。
特に、ニューラルネットワークについて考えていますが、他の分類器を利用できます。
何か案は?ありがとう!