何も分類できないデータセットを何度も分析しました。分類子を取得できるかどうかを確認するには、通常、次の手順を使用しました。
- 数値に対するラベルの箱ひげ図を生成します。
- 次元数を2または3に減らして、クラスが分離可能かどうかを確認します。LDAも試してみました。
- SVMとランダムフォレストを強制的に適合させ、機能の重要性を調べて、機能に意味があるかどうかを確認します。
- クラスの不均衡が問題であるかどうかを確認するために、アンダーサンプリングやオーバーサンプリングなどのクラスと手法のバランスを変更してみてください。
私が考えることができる他の多くのアプローチがありますが、試していません。これらの機能が良くなく、予測しようとしているラベルにまったく関連していないことを時々知っています。次に、その直感を使用して演習を終了し、より優れた機能またはまったく異なるラベルが必要であると結論付けます。
私の質問は、これらの機能では分類できないとデータサイエンティストがどのように報告するかです。これを報告したり、最初に異なるアルゴリズムでデータをフィッティングしたりするための統計的方法はありますか?