一般的な問題は、MLがデータの質が低いことです:特徴値のエラー、インスタンスの誤分類など。
この問題に対処する1つの方法は、データを手動で調べて確認することですが、他の手法はありますか?(確かにある!)
どれがより良いのか、そしてその理由は?
一般的な問題は、MLがデータの質が低いことです:特徴値のエラー、インスタンスの誤分類など。
この問題に対処する1つの方法は、データを手動で調べて確認することですが、他の手法はありますか?(確かにある!)
どれがより良いのか、そしてその理由は?
回答:
PCAのようなものによる次元削減は、データを表すために重要な次元の数を理解するのに役立ちます。
誤って分類されたインスタンスをチェックするために、データの基本的なk平均クラスタリングを実行して、生データが提案されたカテゴリにどの程度適合するかを把握できます。自動ではありませんが、視覚的な脳はそれ自体が強力な分類子であるため、この段階で視覚化すると役立ちます。
完全に欠落しているデータに関して、統計には、補完を含め、既存のセットまたは別のセットからデータを取得してギャップを埋めるなど、その状況に対処するための数多くの手法があります。
知識のある人をループから実際に削除して、妥当な結果を期待することはできません。これは、人がすべてのアイテムを個別に見る必要があるという意味ではありませんが、最終的には、データの要約/グラフが妥当かどうかを知るには、実際の知識が必要です。(例:変数Aを負にすることはできますか、変数Bを変数Aより大きくすることができますか、またはカテゴリ変数Cには4または5の選択肢がありますか?)
人間がデータに精通していると、データを自動的にテストするために使用できる一連のルールを作成できるでしょう。問題は、考えていない他のエラーが発生する可能性があることです。(たとえば、変数Aを変数Cに複製するデータ収集プロセスのプログラミングエラー。)