私は、既にデータ選択によって(かなり)偏っているデータを使用した機械学習プロジェクトに取り組んでいます。
ハードコーディングされたルールのセットがあると仮定しましょう。使用できるすべてのデータがこれらのルールによって既にフィルター処理されたデータである場合、それを置き換える機械学習モデルをどのように構築しますか?
物事を明確にするために、最良の例は信用リスク評価でしょう。タスクは、支払いに失敗する可能性のあるすべてのクライアントをフィルタリングすることです。
- 今、あなたが持っている唯一の(ラベル付けされた)データは、ルールのセットによって受け入れられたクライアントからのものです。受け入れた後にのみ、誰かが支払うかどうか(明らかに)を見るからです。ルールのセットがどれだけ優れているか、そしてそれらがどれだけ有料から非有料の分布に影響するかはわかりません。また、一連のルールにより、拒否されたクライアントからのラベルのないデータがあります。したがって、それらのクライアントが受け入れられた場合、それらのクライアントで何が起こるかはわかりません。
たとえば、ルールの1つは次のようになります。「クライアントの年齢が18歳未満の場合、受け入れない」
分類子には、これらのルールによってフィルタリングされたクライアントを処理する方法を学習する方法がありません。ここで分類器はどのようにパターンを学習することになっていますか?
この問題を無視すると、これまでに遭遇したことのないデータにモデルがさらされることになります。基本的に、ここでxが[a、b]の外側にあるときのf(x)の値を推定したいと思います。