切片がゼロの線形回帰モデルの予測が切片があるモデルよりも優れているのはなぜですか?


8

多くの教科書や論文は、傍受を抑制すべきではないと述べています。最近、トレーニングデータセットを使用して、切片がある場合とない場合の線形回帰モデルを作成しました。切片がないモデルは、独立した検証データセットのrmseの点で切片があるモデルよりも予測が優れていることを発見して驚いた。予測精度は、ゼロ切片モデルを使用する必要がある理由の1つですか?


トレーニングと検証のサンプルサイズはどのくらいでしたか?たぶん、切片なしのモデルの方が偶然の方が良かったのかもしれません。
mark999 2012年

トレーニングサンプルサイズは289でした​​が、検証サンプルサイズは406でした。ところで、最適なトレーニングおよび検証サンプルサイズを決定するにはどうすればよいですか。
KuJ 2012年

回答:


3

切片なしのモデルと切片なしのモデルを比較するときは、rmseまたはその他の統計がどのように計算されるかを注意深く調べてください。2つのモデル間で仮定と計算が異なる場合があり、1つはうまく適合しない場合がありますが、はるかに大きいもので除算されるため、見栄えがよくなります。

再現可能な例がなければ、何が貢献しているのかを判断することは困難です。


RMSEは、で与えられる(「標準」として受け入れられているどちらも変化することができる二つの間の違いを比較するために使用される)の式に従って計算した:en.wikipedia.org/wiki/Root-mean-square_deviation仮定SOおよび計算は、2つのモデルから導出された推定量の間で同じです。
KuJ 2012年

1
トレーニングセットと検証セットはどの程度似ていますか?10分割の相互検証を検討することもできます。データを10個の等しい(または可能な限り同じ)ピースにランダムに分割し、そのうち9個をモデルのトレーニングに使用し、10番目を検証ピースとして使用して、それぞれを繰り返します。他の9個は検証セットです。次に、そのプロセス全体(新しいランダム分割から開始)を10回ほど繰り返します。
グレッグスノー

Y変数とX変数は、トレーニングセットと検証セットの間で異なっていました(P = 0.01)。ただし、RパッケージMatchItを使用してトレーニングセットと検証セットを一致させた場合、インターセプトのないモデルではrmseは依然として低くなりました。対照的に、DAAGパッケージ(cv.lm)を使用して、結合されたデータセットを10分割交差検証すると、rmseは同様になりました。これは、10倍の相互検証が単純なトレーニングセットや検証セットよりも優れていることを意味しますか?
KuJ 2012年

2
はい、交差検証の方が良い傾向があります。モデルが過剰に指定されている他の方法があるかどうかを確認します。非切片モデルがよりよく適合することは非常にまれです。
グレッグスノー

1
「説明するか予測するか?」projecteuclid.org/…Galit Shmueli教授は、真実性の低いモデルの方が、真実性の高いモデルよりも優れた予測ができる場合があると述べました。これがこの事件の理由の一つかもしれないと思います。
KuJ

9

特定のサンプルでより効果的に機能するという理由だけでモデルを選択するべきではないと思いますが、トレーニングと検証のサンプルを使用したのは良いことです。

むしろ、モデルがあなたの状況について何を言っているかを見てください。場合によっては、ゼロ切片モデルが理にかなっています。すべてのIVが0のときにDVを0にする必要がある場合は、ゼロ切片モデルを使用します。そうでなければ、しないでください。

実質的な知識は統計を導くべきであり、その逆ではない


2
2番目の段落で示した理由は、直感的ではありますが、多くの場合、このような状況でインターセプトを抑制するほど強力ではありません。この点については、このサイトの他のいくつかの質問で詳しく説明しています。
枢機卿

4
メソッド(または機器)の比較研究(酸素濃度計Aと酸素濃度計Bの比較など)では、すべてのIV(酸素レベル)が0のときにDV(酸素レベル)が0になるはずです。ただし、以下の場合は切片を無視しないでください。酸素濃度計Aを酸素濃度計Bと校正(または交換)したい
KuJ 2012年

5

2つの条件が満たされている場合、インターセプトなしのモデルは意味があります。最初に、切片がゼロになるための合理的な主題知識の期待があるはずです。第2に、ゼロに近づくにつれて回帰直線が直線のままであることが合理的な主題知識の期待値になるはずです。両方の条件が満たされている場合でも、切片項を使用して解析を実行し、切片がゼロと大幅に異なることを確認することをお勧めします。

(私はあなたが連続Yと連続Xについて話していると仮定しています。)


4

これは、取得した切片が単なるノイズであり、sigではない場合に理解できます。ゼロとは異なります。(標準化された回帰係数が両方のモデルでほぼ同じだったと思いますか?)そうであれば、この例から一般化する必要はないと思います。インターセプトがsigの場合。実質的で、予測精度に意味のあるものを追加します。


1.標準化された回帰係数は、切片があるモデルとないモデルで同じではありませんでした(0.91と1.02)。2.切片は9.5でした(se 1.7、p <0.001)。3.私の知る限り、切片がゼロから有意でなかったとしても、多くの論文は切片を抑制しないことを推奨しています。
KuJ 2012年

回帰にダミー変数がある場合、その観測に対してすべてのダミーが0コード化されていると、切片は値を表しませんか?これがここに当てはまるかどうかはわかりません。
ミシェル

いいえ、ダミー変数はありませんでした。
KuJ 2012年

2

線形回帰では、次のようにフィッティングしています。

y=fβバツ=β0+β1バツ1+β2バツ2+

あなたは合う β 与えられた訓練データ バツY あなたが β0 モデルをフィットすると、フィットのエラーになります:

Σyfβバツ2

含めた場合よりも大きくなりますか?すべての(非縮退)ケースでは、次の項目を含めると、エラーが(トレーニングデータで)同じかそれ以下になることを証明できます。β0モデルがこのパラメーターを自由に使用して、エラーが存在していてそれが役立つ場合はそれを減らし、役に立たない場合はゼロに設定するからです。さらに、yに大きな定数を追加したとします(出力を+10000 元のトレーニングデータよりも)、モデルを再フィットし、 β0 明らかに非常に重要になります。

おそらく「抑制された」と言うとき、あなたは正則化されたモデルを参照しているでしょう。L1とL2が正規化され、これらの方法は係数をゼロに近づけることを好みます(そして、平均と分散はすでに平均化されているはずです。バツこのステップを賢明なものにするために、事前に。正則化では、切片項を含めるかどうかを選択できます(小さい値も含めることをお勧めします)β0?)。繰り返しますが、ほとんどの場合(すべての場合?)、正則化しない方が良いでしょう。β0、それは過剰適合を削減する可能性が低く、表現可能な関数のスペースを縮小するため(高い関数を除外することによって) β0)エラーが高くなります。

補足:scikitのロジスティック回帰は、デフォルトで切片を正則化します。誰もが理由を知っています:http : //scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.htmlいい考えはない。


切片を正則化するsklearnを再実行してください。これはliblinearソルバーを使用していて、それが悪いことを明示的に示している場合にのみ当てはまります(scikit-learn.org/stable/modules/…)。これを軽減するために、intercept_scalingパラメータがLogisticRegressionに含まれていると思います。
erobertc

パラメータをオッズ比として解釈することを計画している場合、スケーリングは役に立ちません。
user48956

彼らがドキュメントを更新してよかったです。ここで多くの時間が失われました。
user48956
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.