単語の袋のデータセットがあります。私はランダムにいくつかのポイントを選択し、それらをテストに使用し、他のポイントはトレーニングに使用します。
- ケース(1)テストセットから各データポイントを取得し、トレーニングセットからの最も近いポイントと同じクラスラベルを持つものとして分類します。
- ケース(2)既知の教師付き分類子を使用して分類を行います。
ケース(1)の方が常に認識率が高くなります。つまり、このデータセット(およびその他のデータセット)については、監視付き学習を使用するよりも、まったく学習を行わない方が優れています。それは頻繁な状況ですか?
頻繁かどうかはわかりませんが、偶然起こりました。分類子がうまく機能していません。特に、私はツリーモデルを頻繁に実行し、ルートノードが最良のツリーであることがわかりました(「最良」の定義によって異なります)。
—
Peter Flom
人々が学習アルゴリズムを実装するときに間違いを犯すことは非常に一般的です。勾配降下法を使用する場合、勾配の方向の小さなステップが実際に必要な量だけコスト関数を減少させることを確認してください。これは簡単なテストですが、多くの人はこれをスキップして、符号エラーまたは同様の問題でアルゴリズムを微調整する時間を無駄にします。
—
Douglas Zare、2012年
@DouglasZare Wekaからの多くの分類子と、自分で実装した他の分類子でテストしました。多くのデータセットでは、トレーニングステップ(つまり、case(2))で分類子を使用すると、case(1)よりも良い結果が得られますが、現在テストしているバッグオブワードの3つのデータセットでは、より良い結果が得られます(1)の場合。私は多くの分類器でテストしたので、学習/分類器がうまく機能していないと思います。
—
SHN