ランダムフォレストの部分依存プロットのy軸の意味


11

私はRandomForestRパッケージを使用していますが、部分依存プロットのY軸の値を解釈する方法に混乱しています。ヘルプドキュメントは、プロットが「クラス確率に対する変数の限界効果のグラフィカルな描写」であると述べています。しかし、y軸が正確に何を表すかについては、まだ混乱しています。

  • 特に、負の値はどういう意味ですか?
  • クラスの正確な予測に悪影響を与えるとはどういう意味ですか?
  • そして、これらの数値から最も重要な特徴は何ですか、それは最大値、トレンドの形などですか?
  • 部分プロットを他の変数の部分プロットと比較できますか?
  • これらのプロットは、Maxent(分布モデリングソフトウェア)で作成された応答曲線とどのように比較できますか?

一部の部分依存プロットの例

回答:


7

最初にこれらの2つに答えます。

特に、負の値はどういう意味ですか?クラスの正確な予測に悪影響を与えるとはどういう意味ですか?

ランダムフォレストパッケージのドキュメントで部分プロットの計算方法の定義を見ると、は、プロットがモデルの観点からのクラス確率に対する変数の相対的ロジット寄与を示していることを示しています。言い換えれば、(y軸の)負の値は、モデルに従って、正のクラスが独立変数(x軸)の値に対してその可能性が低いことを意味します。同様に、正の値は、モデルに従って、正のクラスが独立変数のその値に対してより可能性が高いことを意味します。明らかに、ゼロはモデルに従ってクラス確率に平均的な影響がないことを意味します。

そして、これらの数値から最も重要な特徴は何ですか、それは最大値、トレンドの形などですか?

機能の重要度を決定するためのさまざまなアプローチがあり、最大絶対値は1つの単純な指標にすぎません。通常、人々は部分プロットの形状を見て、変数からクラスラベルへの関係についてモデルが示唆していることについて理解を集めます。

部分プロットを他の変数の部分プロットと比較できますか?

これに対する答えは白黒ではありません。各プロットのy軸の範囲を確認できます。変数の範囲全体で1つの変数への部分的な依存がゼロに近い場合、それはモデルが変数からクラスラベルへの関係を持たないことを示しています。質問に戻りますが、範囲が大きいほど影響力が全体的に強いため、この意味でそれらを比較できます。

マクセントの経験はありません。


モデルが2クラス分類用であるとしたら、どのクラスがポジティブクラスで、どのクラスがネガティブであるかをどのように決定しますか?
Kumar Vaibhav 2017

これは良い質問です。実験してみる必要があります。ドキュメンテーションは、ここ17ページで、もしyそれが要因あるなら、それは分類問題であると想定していると言っています。ただし、ポジティブクラスまたはネガティブクラスにどの因子をマッピングするかは記載されていません。私は-1、1または真のポジティブ・クラスと0にマッピングされていることを望んでいるだろう、または虚偽のは、負のクラスにマッピングされているが、私は取らないだろうとRに付与されたために
クリスA.

which.class引数がpartialPlotあり、デフォルトでfactorの最初のレベルになりyます。したがって、の最初のレベルがyネガティブケースである場合は、ネガティブケースをpartialPlot予測することになりますが、これは予想とは異なる場合があります。
qoheleth 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.