データセットで学習を行わない場合、分類エラーは低くなりますか?


8

単語の袋のデータセットがあります。私はランダムにいくつかのポイントを選択し、それらをテストに使用し、他のポイントはトレーニングに使用します。

  • ケース(1)テストセットから各データポイントを取得し、トレーニングセットからの最も近いポイントと同じクラスラベルを持つものとして分類します。
  • ケース(2)既知の教師付き分類子を使用して分類を行います。

ケース(1)の方が常に認識率が高くなります。つまり、このデータセット(およびその他のデータセット)については、監視付き学習を使用するよりも、まったく学習を行わない方が優れています。それは頻繁な状況ですか?


頻繁かどうかはわかりませんが、偶然起こりました。分類子がうまく機能していません。特に、私はツリーモデルを頻繁に実行し、ルートノードが最良のツリーであることがわかりました(「最良」の定義によって異なります)。
Peter Flom

1
人々が学習アルゴリズムを実装するときに間違いを犯すことは非常に一般的です。勾配降下法を使用する場合、勾配の方向の小さなステップが実際に必要な量だけコスト関数を減少させることを確認してください。これは簡単なテストですが、多くの人はこれをスキップして、符号エラーまたは同様の問題でアルゴリズムを微調整する時間を無駄にします。
Douglas Zare、2012年

@DouglasZare Wekaからの多くの分類子と、自分で実装した他の分類子でテストしました。多くのデータセットでは、トレーニングステップ(つまり、case(2))で分類子を使用すると、case(1)よりも良い結果が得られますが、現在テストしているバッグオブワードの3つのデータセットでは、より良い結果が得られます(1)の場合。私は多くの分類器でテストしたので、学習/分類器がうまく機能していないと思います。
SHN

回答:


11

何も学んでいないというのは本当ではありません。あなたがしていることは、Nearest Neighbor(NN)と呼ばれるよく知られた分類アルゴリズムを使用しています。トレーニングデータを使用している限り(明示的に一部のパラメーターを計算していなくても)学習していることを認識することが重要です。この場合は、確実に使用しています。

NNがうまくやっているのは問題ありません。ただし、データに問題があることを示す場合もあります。これは、データがIIDでない場合に発生する可能性があります。たとえば、場合によっては、データに完全な複製または近い複製が存在することがあります。このような場合、テストセット内の多くのインスタンスはトレインセット内で近接しているため、成功率は高くなりますが、実際にはオーバーフィットしています。重複することなく新しいポイントを取得すると、パフォーマンスが低下します。この場合にできることは、重複を事前に削除するか、重複(または密集したクラスター)が同じセットに含まれるようにトレイン/テストセットを構築することです。データを見て、何が起こっているのかを理解することは重要です。


テストセットポイントの分類には、トレーニングセットを直接使用しています。トレーニングセットで実行されたトレーニングフェーズはありません。私は何も学んでおらず、テストポイントを分類しました。電車が使われているからといって、なぜこれを「学習」と呼ぶのかわかりません。それにもかかわらず、私はデータセットをチェックしただけで、あなたは正しい、いくつかの重複したデータポイントがあります。同じデータポイントがトレーニングとテストセットにある場合があります。これはすべてのデータポイントに当てはまるわけではありませんが、修正して重複を削除し、問題が修正されたかどうかを確認します。
SHN

1
@shnは、あなたが学習しておらず、そのようなメソッドにパラメーターがないと考えるのはよくある間違いです。トレーニングデータを使用する限り、それは学習です。実際に行っていることは、トレーニングセット全体を「学習済みパラメーター」として使用しているため、後で使用するために保存すると、実際に「トレーニング」になります(これが、NNがしばしば過剰適合しがちな理由です)。 「パラメータ」の)。行う予測がトレーニングセットに依存している場合、それは学習です。トレーニングがない場合は、トレーニングセットをまったく使用せずに予測を行う場合です。
ビットワイズ

わかりました、問題は重複したポイントから来ました。それらを削除することにより、一部の分類子はNN戦略よりもわずかに優れた認識率を実現します。ただし、重複した点が多すぎることに気づかなかったため、それらを削除し、結果としてデータセットがはるかに小さくなりました。インスタンスの数は、オンライン学習を実行するには実際には十分ではありません。すぐに使用できるドキュメント分類に関する利用可能なラベル付きデータセットを知っていますか(つまり、前処理や多くのことをせずに使用できます...)?UCIリポジトリには、すばらしいBag-of-Wordsデータセットがありますが、ラベルは提供されていません。
2012年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.