多くの機能(1000を超える)を備えた最大150のサンプル(トレーニングとテストに分割)を含むデータセットを持っています。データに対して適切に機能する分類子と特徴選択方法を比較する必要があります。そのため、3つの分類方法(J48、NB、SVM)と2つの機能選択方法(CFS、WrapperSubset)を異なる検索方法(Greedy、BestFirst)で使用しています。
比較しながら、トレーニングの精度(5倍クロスフォールディング)とテストの精度を調べています。
J48およびCFS-BestFirstの結果の1つを次に示します。
{「accuracyTraining」:95.83、「accuracyTest」:98.21}
多くの結果はこのようなものであり、SVMにはテストの精度がトレーニングよりもはるかに高いことを示す多くの結果があります(トレーニング:60%、テスト:98%)
これらの結果をどのように有意義に解釈できますか?それが低ければ、私はそれが過剰適合であると言うでしょう。すべての結果を見ることで、この場合のバイアスと分散について何か言いたいことがありますか?この分類を意味のあるものにするために何ができますか?たとえば、トレーニングセットとテストセットを再選択するか、すべてのデータで相互検証を使用するだけですか?
73のトレーニングインスタンスと58のテストインスタンスがあります。一部の回答には、投稿時にこの情報がありませんでした。