機械学習のバイアスデータ


18

私は、既にデータ選択によって(かなり)偏っているデータを使用した機械学習プロジェクトに取り組んでいます。

ハードコーディングされたルールのセットがあると仮定しましょう。使用できるすべてのデータがこれらのルールによって既にフィルター処理されたデータである場合、それを置き換える機械学習モデルをどのように構築しますか?

物事を明確にするために、最良の例は信用リスク評価でしょう。タスクは、支払いに失敗する可能性のあるすべてのクライアントをフィルタリングすることです。

  • 今、あなたが持っている唯一の(ラベル付けされた)データは、ルールのセットによって受け入れられたクライアントからのものです。受け入れた後にのみ、誰かが支払うかどうか(明らかに)を見るからです。ルールのセットがどれだけ優れているか、そしてそれらがどれだけ有料から非有料の分布に影響するかはわかりません。また、一連のルールにより、拒否されたクライアントからのラベルのないデータがあります。したがって、それらのクライアントが受け入れられた場合、それらのクライアントで何が起こるかはわかりません。

たとえば、ルールの1つは次のようになります。「クライアントの年齢が18歳未満の場合、受け入れない」

分類子には、これらのルールによってフィルタリングされたクライアントを処理する方法を学習する方法がありません。ここで分類器はどのようにパターンを学習することになっていますか?

この問題を無視すると、これまでに遭遇したことのないデータにモデルがさらされることになります。基本的に、ここでxが[a、b]の外側にあるときのf(x)の値を推定したいと思います。


8
これが一般に信用リスク評価で処理される方法は、ルールによって特定の割合の応募者をフィルタリングしないことです。少数の応募者がランダムに認められ、そのようにフラグが付けられます。
マシュードゥルーリー

これは知っておくと良いことです。たぶん、同じことをするように設定することさえできます。
ラクサンネイサン

1
この問題を非専門家に説明するとき、私は雲(現実)と、雲に近いポリゴン(モデル)を描きます。偽陽性エラーと偽陰性エラーを示します。モデルを改善するために両方のエラーが必要であり、クラウドをより適切に近似するために視覚的に明らかです。
MSalters

今すぐプレゼンテーションを準備しています。この類推は本当に役に立ちます、ありがとう!
ラクサンネイサン

これは、探査と搾取のジレンマと呼ばれます。
seanv507

回答:


12

心配する必要があります-最適なモデルであっても、サンプル外のデータの分布がモデルがトレーニング/テストされたデータの分布と大きく異なる場合、劇的に失敗する可能性があります。

あなたができる最善のことは、あなたが持っているラベル付きデータでモデルを訓練することだと思いますが、モデルを解釈できるようにしてください。それはおそらく、単純なモデルに限定されることを意味します。次に、モデルによって学習されたルールが以前のルールとどのように相互作用するかを推論し、モデルがフィルター処理されていない母集団に対してどの程度うまく機能するかを推定します。

たとえば、ラベル付けされたデータセットで、クライアントが若いほどデフォルトになる可能性が高いとモデルが検出したとします。次に、「クライアントの年齢が18歳未満の場合、受け入れない」という以前のフィルターを削除した場合、モデルが適切に機能すると想定するのが妥当かもしれません。


4

私はその質問を完全に理解しているとは思いませんが、私が理解している限り、既に見たサンプルの領域外にあるサンプルを予測するために分類器を訓練する方法を尋ねています。これは、一般的に言えば、私の知る限りでは不可能です。機械学習の理論は、「経験的リスク最小化」の考え方に基づいています。これは、トレーニングセットがサンプルとラベルの真の分布の適切な近似であると仮定することになります。その仮定に違反した場合、実際には何の保証もありません。

ラベルなしのデータについて言及します-これで問題が解決するかどうかはわかりませんが、半教師あり学習には、ラベル付きデータとラベルなしデータの両方が与えられた分類器を学習しようとする多くの方法があり、それらを調べることを検討する必要があります(たとえば、 、トランスダクティブSVM)。


私は同意します、私の問題に対する「解決策」はありません。しかし、これらの種類の問題に対処する方法に関する実用的なアドバイスがあるかもしれません。
ラクサンネイサン

2

ルールにより、データの増強を実行する方法が提供される場合があります。陽性サンプルをコピーし、年齢を17に変更してから、陰性サンプルとしてマークします。

この手順は、すべてのデータセットに必ずしも簡単であるとは限りません。私はNLPデータを扱っていますが、そのドメインでうまくやるのは難しいです。たとえば、年齢と相関する他の特徴がある場合、非現実的なサンプルになる可能性があります。ただし、システムをデータセットに入れなかったサンプルのようなものにさらす手段を提供します。


データにノイズを追加することは、この問題を処理する方法です。ただし、クライアントデータを簡単に分類できる場合はほとんどありません。私は、それが再びドメイン知識「バイアスされた」出力、つまり、疑わしい知識のレトロスペクティブな衝突につながる集合的/主観的知覚をもたらす程度にはそれをしません。
ラクサンネイサン

2

同様の状況で私たちのために働いてきたことの1つは、強化学習(探索と悪用)を少し行うことです。ルールベースのモデルに加えて、モデルの応答を少しの確率で変更するエクスプローラーを実行しました。そのため、モデルが17歳のカードを推奨しない場合があり、エクスプローラーはモデルの決定し、カードを発行します。これらの時折のケースから、将来の学習モデルの学習データを生成します。このデータを使用して、エクスプローラーによって17歳に発行されたカードがデフォルトでなかった場合に基づいて、17歳のカードを推奨することを決定できます。既存のモデルのバイアスを超えて機能するシステムを構築します。


これらの偶発的なケースは特定の財務リスクに関連しているため、長期的には新しいパターンを明らかにする可能性がある段階的なアプローチになります。基本的には、あなたが言及しているように、エクスプロイトとエクスプロイトのトレードオフです。これは間違いなくプロジェクトで考慮されます。
ラクサンネイサン

2

実用的な観点から、現在のシステムでは不可能なケース(無料の昼食なし)で何かを予測するようにモデルに依頼することは困難/不合理です。

この問題を回避する1つの方法は、現在の(展開された)システムにランダム化を追加することです。たとえば、小さな制御された確率(したがって予測可能なコスト)でルール(の一部)をバイパスする可能性を追加します。

システムの責任者にそうするよう説得できたら、重要度サンプリングなどのポリシー外の評価方法を使用して、「what-if」質問をすることができます。例えば、現在規則によって落とされている人々が信用を得るのを許すならば、予想される信用リスクはどうなるでしょう。その母集団に対する(偏った)予測モデルの効果をシミュレートすることもできます。この種の方法の良いリファレンスは、反事実の学習と推論に関するぼとうの論文です。


素敵なリファレンス、ありがとう。私はそれを通過するのに時間がかかります。
ラクサンネイサン

1

古典的な統計的答えは、選択プロセスがデータ内にあり、モデルによって記述されるか、選択がランダムである場合、パラメトリックモデルはそれを正しく想定しているということです。ドナルドルービンの論文の推論と欠落データ(1976)を参照してください。モデルにデータ選択のメカニズムを含める必要があります。これは、純粋な機械学習よりもパラメトリック推論のほうが優れている分野です。


1

これは、死後のジレンマに似ています:善行と悪行(データ)の比率は、死んだ後(フィルター)、地獄(クラス)ではなく天国に到達するのに十分です。ここで、死はフィルターとして機能し、教師あり学習スキームへの欠損値につながります。

欠損値の問題と「偏ったデータ」の問題を明確にしたい。バイアスされたデータなどはありません。そのデータを説明する「バイアスモデル」などがありますが、データ自体はバイアスされておらず、単に欠落しています。欠落データが観測可能なデータと有意な相関関係にある場合、偏りのないモデルをトレーニングし、良好な予測結果を達成することは完全に可能です。

欠落データが観測可能なデータと完全に相関していない場合、「あなたは知らないことを知らない」というケースになります。教師あり学習方法も教師なし学習方法も使用できません。問題は、データサイエンスの領域外です。

したがって、意味のあるソリューションのために、欠落データが観測可能なデータと相関していると仮定しましょう。この相関関係を利用します。

このような問題を解決しようとするデータマイニングアルゴリズムがいくつかあります。Bagging-n-Boostingなどの「アンサンブルメソッド」や、AprioriやFP-growthなどの「頻繁なパターンマイニング」アルゴリズムを試すことができます。また、ロバスト統計でメソッドを調べることもできます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.