ランダムフォレストは予測バイアスを示しますか?


12

これは簡単な質問だと思いますが、なぜか、なぜそうでないかの背後にある推論はそうではないかもしれません。私が尋ねる理由は、最近RFの独自の実装を記述したためです。RFのパフォーマンスは良好ですが、期待したパフォーマンスを発揮していません(Kaggle Photo Quality Prediction競争データセット、勝利スコア、および使用された手法について入手可能になった後続の情報)。

このような状況で最初に行うことは、モデルの予測誤差をプロットすることです。そのため、与えられた予測値ごとに、正しいターゲット値からの平均バイアス(または偏差)を決定します。私のRFについて、私はこのプロットを得ました:

予測値と正しいターゲット値からのバイアス

これがRFで一般的に観察されるバイアスパターンであるかどうか疑問に思っています(そうでない場合は、データセットや私の実装に固有のものである可能性があります)。もちろん、このプロットを使用してバイアスを補正することで予測を改善できますが、RFモデル自体に対処する必要があるより根本的なエラーや欠点があるのではないかと思っています。ありがとうございました。

==補遺==

私の最初の調査は、このブログエントリ「ランダムフォレストバイアス-更新」です。


2
それはあなたのデータの特徴かもしれません。同じデータセットで他のRF実装を実行して、この効果が再現されるかどうかを確認しましたか?

回答:


4

(私は専門家とはほど遠いです。これらは、異なるが、大まかに類似した問題を扱ってきたジュニア統計学者からのほのめかしです。私の答えは文脈外かもしれません。)

予測される新しいサンプルと、はるかに大きなトレーニングセットにアクセスできるオラクルを考えると、おそらく「最良の」最も正直な予測は、「これがRedクラスではなく60%の確率で予測されるということです」ブルークラス」。

より具体的な例を挙げましょう。非常に大規模なトレーニングセットに、新しいサンプルと非常によく似たサンプルの大規模なセットがあると想像してください。これらのうち、60%は青、40%は赤です。そして、ブルースとレッドを区別するものは何もないようです。そのような場合、60%/ 40%が正気な人ができる唯一の予測であることは明らかです。

もちろん、そのような神託はありませんが、代わりにたくさんの木があります。単純な意思決定ツリーでは、これらの60%/ 40%の予測を行うことができないため、各ツリーは個別の予測(赤または青、間に何もない)を行います。この新しいサンプルは決定面の赤側にあるため、ほとんどすべての木が青ではなく赤を予測していることがわかります。各ツリーは、実際よりも確実であるように見せかけ、偏った予測に向けてスタンピードを開始します。

問題は、単一のツリーからの決定を誤って解釈する傾向があることです。単一のツリーがノードをRedクラスに配置する場合、それをツリーからの100%/ 0%予測として解釈してはなりません。(私はそれがおそらく悪い予測であることを私たちが「知っている」と言っているだけではありません。私はもっと強いことを言っています。つまり、ツリーの予測であると解釈するように注意する必要があります)。これを修正する方法を簡潔に展開することはできません。しかし、単一のツリーがその不確実性についてより正直になるように奨励するために、ツリー内でより「ファジー」な分割を構築する方法についての統計の領域からアイデアを借りることは可能です。次に、木の森からの予測を有意義に平均化できるはずです。

これが少しお役に立てば幸いです。そうでない場合、私は任意の応答から学びたいと思います。


ファジィスプリットは、極端なRF(ただし、それほど極端ではない可能性があります)の精神で実現しました。あなたの説明が私にとって理にかなっているので、これを試してみます。ありがとう。
redcalx

[ランダムフォレスト-バイアス問題についての考え](the-locster.livejournal.com/134241.html)「そのときの鍵は、(分割しきい値の)不均一なランダム化を使用して、分割されたポイントを組み合わせると、y = f(x)が再現され、RFのDTの数が無限に近づくにつれて、y = f(x)の完全な表現に近づきます。
redcalx

60/40%の予測は回帰ツリーで処理されませんか?信頼度は、葉のパーティション内のクラス比になります(トレーニングセットの場合)。おそらくこれは、統計的検出力にも対応できるように拡張できます/変更されています
Alter

3

はい。ほとんどの木は尾に偏りがあります。見る:

連続変数を予測する場合、決定木分割はどのように実装する必要がありますか?

「ツリーの潜在的な問題の1つは、尾にうまく収まらない傾向があることです。トレーニングセットの低い範囲をキャプチャするターミナルノードを考えてください。これは、これらのトレーニングセットポイントの平均を使用して予測します。結果(それは平均値なので)。」


私はそのコメントがランダムなフォレストに適用されるとは思わない
ザック

応答変数が連続的である場合、ランダムフォレストの参照実装はノードでの観測値が5で停止すると思います。それでも、分割変数が連続的である場合は、多少のバイアスが発生します。LOESSがサポートの端にある中心移動平均よりもよく見える理由と同様...
Shea Parkes
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.