いくつかのタイプのモデルがほとんど同じ結果をもたらすのはなぜですか?


10

約40万件のレコードと9つの変数のデータセットを分析しています。従属変数はバイナリです。私はロジスティック回帰、回帰木、ランダムフォレスト、および勾配ブースト木を取り付けました。別のデータセットで検証すると、それらすべてがほぼ同じ適合度の数値を与えます。

これはなぜですか?変数比に対する私の観察が非常に高いためだと思います。これが正しい場合、どのモデルの変数比に対して、異なるモデルが異なる結果を出し始めますか?

回答:


7

この結果は、どの方法を使用しても、最適な決定ルール(ベイズルール)にかなり近づくことができることを意味します。根本的な理由は、ハスティー、ティブシラニ、フリードマンの「統計学習の要素」で説明されています。彼らは、イチジクを比較することによって、異なる方法がどのように機能するかを示しました。2.1、2.2、2.3、5.11(私の初版-多次元スプラインのセクション)、12.2、12.3(サポートベクターマシン)、そしておそらく他のいくつか。その本を読んでいない場合は、今すぐすべてを落として、それを読む必要があります。(つまり、仕事を失う価値はありませんが、学生の場合は宿題を欠席する価値があります。)

変動比率に対する観察結果が説明であるとは思わない。上記で提供された私の理論的根拠に照らして、多次元空間でクラスを分離する境界の比較的単純な形式は、試したすべてのメソッドが識別できたものです。


上司に会社にお金を払ってもらえるか聞いてみます。
JenSCDC 2014

1
ESLはホームページからPDFとして「無料」です。ダウンロードする価値があるのはISL(同じ作者の多くによる)-より実用的なwww-bcf.usc.edu/~gareth/ISL
seanv507

4

トレーニングエラーも確認する価値があります。

基本的に私はあなたの分析に同意しません。ロジスティック回帰などがすべて同じ結果を与える場合、「最良のモデル」は非常に単純なモデルであることを示唆します(すべてのモデルが等しく適合できる-たとえば基本的に線形)。

それで、問題はなぜ最良のモデルが単純なモデルなのかということかもしれません:それはあなたの変数があまり予測できないことを示唆しているかもしれません。もちろん、データを知らずに分析することは困難です。


1

@ seanv507が示唆したように、同様のパフォーマンスは、データが線形モデルによって最も適切に分離されているためである可能性があります。しかし、一般的に、「変動比率に対する観測値が非常に高い」ためであるという記述は正しくありません。変数の数に対するサンプルサイズの比率が無限大になる場合でも、すべてのモデルが同じ予測バイアスを提供しない限り、異なるモデルがほぼ同じように機能することを期待すべきではありません。


質問を編集して、従属変数がバイナリであることを追加しました。したがって、線形モデルは適切ではありません。
JenSCDC 2014

「すべてが同じ予測バイアスを提供しない限り、異なるモデルがほぼ同じように動作することを期待すべきではありません。」私はMAEと予測結果に対する実際の結果の比率を検証手段として使用し、比率は非常に近かった。
JenSCDC 2014

1
アンディ、私は「線形」モデルとしてロジスティック回帰(および線形SVM)を含めます。それらはすべて、入力の加重和によってデータを分離しているだけです。
seanv507 14

1
@ seanv507正確-決定境界は依然として線形です。バイナリ分類が実行されているという事実はそれを変更しません。
bogatron 2014

木はどうですか?彼らは本当に私には線形ではないようです。
JenSCDC 2014

0

変数比に対する私の観察が非常に高いためだと思います。

この説明は完全に理にかなっていると思います。

これが正しい場合、どのモデルの変数比に対して、異なるモデルが異なる結果を出し始めますか?

これはおそらく、特定のデータ(たとえば、9つの変数が連続、因子、通常、バイナリのいずれであっても)、およびモデルの近似中に行った調整の決定に大きく依存します。

ただし、変数の数を増やすのではなく、観測の数を減らすことによって、観測と変数の比率を試すことができます。ランダムに100個の観測を描画し、モデルを適合させて、異なるモデルが異なる結果をもたらすかどうかを確認します。(私はそうするだろうと思います。)観察の総数から得られた異なるサンプルでこれを複数回実行します。次に、1,000個の観測値のサブサンプル... 10,000個の観測値などを確認します。


1
なんで?観測数が増えると、決定境界がより複雑になる可能性が高くなります-つまり、線形ではありません。そして、これらのモデルは複雑なケースでは異なることを行い、単純なケースでも同じことをする傾向があります。
Sean Owen、

@SeanOwen:私はあなたのコメントを理解していないと思います。私の回答のどの部分が「それはなぜですか」とはどういう意味ですか?OPは線形決定境界の使用については何も述べていません-結局のところ、彼は何らかの方法で予測子を変換することによってかもしれません。
ステファンコラサ2014

なぜより多くの観測が異なる分類器に同様の決定を与えるのでしょうか?私の直感は反対です。はい、私は単なる決定の境界を考えているのではありません。最適な境界が複雑になるほど、すべてがその境界に似たものに適合する可能性が低くなります。そして、境界はより多くの観測でより複雑になる傾向があります。
Sean Owen、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.