多くの教科書や論文は、傍受を抑制すべきではないと述べています。最近、トレーニングデータセットを使用して、切片がある場合とない場合の線形回帰モデルを作成しました。切片がないモデルは、独立した検証データセットのrmseの点で切片があるモデルよりも予測が優れていることを発見して驚いた。予測精度は、ゼロ切片モデルを使用する必要がある理由の1つですか?
多くの教科書や論文は、傍受を抑制すべきではないと述べています。最近、トレーニングデータセットを使用して、切片がある場合とない場合の線形回帰モデルを作成しました。切片がないモデルは、独立した検証データセットのrmseの点で切片があるモデルよりも予測が優れていることを発見して驚いた。予測精度は、ゼロ切片モデルを使用する必要がある理由の1つですか?
回答:
切片なしのモデルと切片なしのモデルを比較するときは、rmseまたはその他の統計がどのように計算されるかを注意深く調べてください。2つのモデル間で仮定と計算が異なる場合があり、1つはうまく適合しない場合がありますが、はるかに大きいもので除算されるため、見栄えがよくなります。
再現可能な例がなければ、何が貢献しているのかを判断することは困難です。
特定のサンプルでより効果的に機能するという理由だけでモデルを選択するべきではないと思いますが、トレーニングと検証のサンプルを使用したのは良いことです。
むしろ、モデルがあなたの状況について何を言っているかを見てください。場合によっては、ゼロ切片モデルが理にかなっています。すべてのIVが0のときにDVを0にする必要がある場合は、ゼロ切片モデルを使用します。そうでなければ、しないでください。
実質的な知識は統計を導くべきであり、その逆ではない
これは、取得した切片が単なるノイズであり、sigではない場合に理解できます。ゼロとは異なります。(標準化された回帰係数が両方のモデルでほぼ同じだったと思いますか?)そうであれば、この例から一般化する必要はないと思います。インターセプトがsigの場合。実質的で、予測精度に意味のあるものを追加します。
線形回帰では、次のようにフィッティングしています。
あなたは合う 与えられた訓練データ あなたが モデルをフィットすると、フィットのエラーになります:
含めた場合よりも大きくなりますか?すべての(非縮退)ケースでは、次の項目を含めると、エラーが(トレーニングデータで)同じかそれ以下になることを証明できます。モデルがこのパラメーターを自由に使用して、エラーが存在していてそれが役立つ場合はそれを減らし、役に立たない場合はゼロに設定するからです。さらに、yに大きな定数を追加したとします(出力を 元のトレーニングデータよりも)、モデルを再フィットし、 明らかに非常に重要になります。
おそらく「抑制された」と言うとき、あなたは正則化されたモデルを参照しているでしょう。L1とL2が正規化され、これらの方法は係数をゼロに近づけることを好みます(そして、平均と分散はすでに平均化されているはずです。このステップを賢明なものにするために、事前に。正則化では、切片項を含めるかどうかを選択できます(小さい値も含めることをお勧めします)?)。繰り返しますが、ほとんどの場合(すべての場合?)、正則化しない方が良いでしょう。、それは過剰適合を削減する可能性が低く、表現可能な関数のスペースを縮小するため(高い関数を除外することによって) )エラーが高くなります。
補足:scikitのロジスティック回帰は、デフォルトで切片を正則化します。誰もが理由を知っています:http : //scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html?いい考えはない。