自動データクレンジング


10

一般的な問題は、MLがデータの質が低いことです:特徴値のエラー、インスタンスの誤分類など。

この問題に対処する1つの方法は、データを手動で調べて確認することですが、他の手法はありますか?(確かにある!)

どれがより良いのか、そしてその理由は?


Google Refineは一見の価値があります。
Dimitriy V.Masterov

回答:


6

PCAのようなものによる次元削減は、データを表すために重要な次元の数を理解するのに役立ちます。

誤って分類されたインスタンスをチェックするために、データの基本的なk平均クラスタリングを実行して、生データが提案されたカテゴリにどの程度適合するかを把握できます。自動ではありませんが、視覚的な脳はそれ自体が強力な分類子であるため、この段階で視覚化すると役立ちます。

完全に欠落しているデータに関して、統計には、補完を含め、既存のセットまたは別のセットからデータを取得してギャップを埋めるなど、その状況に対処するための数多くの手法があります。


3
データのプロット手動チェックです。
andreister

@andreisterスプレッドシートで1つずつチェックすることを手動チェックと見なしますが、わかりました。
jonsca

5

知識のある人をループから実際に削除して、妥当な結果を期待することはできません。これは、人がすべてのアイテムを個別に見る必要があるという意味ではありませんが、最終的には、データの要約/グラフが妥当かどうかを知るには、実際の知識が必要です。(例:変数Aを負にすることはできますか、変数Bを変数Aより大きくすることができますか、またはカテゴリ変数Cには4または5の選択肢がありますか?)

人間がデータに精通していると、データを自動的にテストするために使用できる一連のルールを作成できるでしょう。問題は、考えていない他のエラーが発生する可能性があることです。(たとえば、変数Aを変数Cに複製するデータ収集プロセスのプログラミングエラー。)


すばらしい答えです。変数をクリーンアップするために使用される構文がドキュメントに保持されていることを確認するためにのみ追加します。変更された理由についての説明文ではない場合はコメントを付けます。:)
ミシェル

1

データがあまり良くないことがわかっている場合は、外れ値もチェックすることをお勧めします。ほとんどの場合、異常があります。

多くの機能がある場合は、次元削減が必須です。PCAはそのために非常に効率的です。

データが欠落している場合は、補完または補間を使用できますが、必要に応じて、協調フィルタリングを使用するのが最適です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.