回帰結果には予期しない上限があります

バランススコアを予測し、いくつかの異なる回帰方法を試しました。気づいたことの1つは、予測値に何らかの上限があるように見えることです。つまり、実際のバランスはですが、私の予測は約達しています。次のプロットは、実際のバランスと予測されたバランス（線形回帰で予測）を示しています。 $[0.0, 1.0)$ $0.8$

実際と予測

そして、同じデータの2つの分布プロットを次に示します。

初期分布

私の予測変数は非常に歪んでいるため（べき法則分布のユーザーデータ）、結果を次のように変更するBox-Cox変換を適用しました。

Box-Cox変換後の実際と予測

Box-Cox変換後の分布

これは予測の分布を変更しますが、その上限はまだあります。だから私の質問は：

予測結果のそのような上限の考えられる理由は何ですか？
実際の値の分布に対応するように予測を修正するにはどうすればよいですか？

おまけ： Box-Cox変換後の分布は、変換された予測子の分布に従うように見えるので、これが直接リンクされている可能性はありますか？その場合、分布を実際の値に合わせるために適用できる変換はありますか？

編集： 5つの予測子を持つ単純な線形回帰を使用しました。

— メニー
ソース

これがどこに行くのか本当に興味があります。これは単なる線形回帰モデルですか？予測子はいくつありますか？

— シャドウトーカー2015年

余談ですが、結果変数は0と1によって制限されているため、単純な線形回帰モデルは、これらの範囲外の値を予測する可能性が高く、もちろん無効です。この場合に考慮すべき他のオプションがあります。

— COOLSerdash 2015年

有界入力は、線形モデルの有界出力を意味します。（変換された）予測子の境界は何ですか？モデルフィットの要約表を見せていただけますか？

— 枢機卿

Mennny：（最初に）本当に必要なのは、係数値と予測子の境界です。符号を1つずつ照合することにより、最小予測と最大予測をすばやく決定できます（予測子は常に暗黙的または明示的に境界を満たしていると想定しています）。

— 枢機卿

@cardinal：予測変数の境界を確認したところ、想定を確認できました。与えられた（変換されていない）予測子では、最大予測は〜0.79です。コメントを回答として「コピー/貼り付け」して、受け入れてもらえますか？どうすれば続行できますか？これは私の予測因子と結果の間に線形関係がないことを示していると思いますか？

— Mennny 2015年

回答:

dep varは0と1の間に制限されているため、OLSは完全に適切ではありません。たとえば、ベータ回帰をお勧めします。他の方法があるかもしれません。しかし、第2に、ボックスコックス変換後、予測は有界であると言いますが、グラフにはそれが表示されません。

— レオナルド・オースレンダー
ソース

0/1の範囲に従う回帰の使用に多くの焦点が当てられていますが、これは合理的（そして重要です！）ですが、LPMが0.8を超える結果を予測しない理由に関する特定の質問は、少し異なる質問のように思います。

どちらの場合も、残差に注目すべきパターンがあります。つまり、線形モデルは分布の上裾にうまく適合しません。これは、正しいモデルについて非線形の何かがあることを意味します。

データの0/1境界も考慮するソリューション：プロビット、ロジット、ベータ回帰。この範囲は重要であり、比較的1に近いディストリビューション、つまりそのトピックに関する多数の回答を考慮すると、作業を厳密にするために対処する必要があります。

ただし、通常、問題はLPMが0/1の範囲を超えることです。これはここでは当てはまりません！0/1の境界に関心がなく、（x'x）^-1（x'y）で近似できる解を積極的に必要とする場合は、モデルが厳密に線形ではないと考えてください。x ^ 2、独立変数のクロス積、または独立変数の対数の関数としてモデルを近似すると、近似が向上し、モデルの説明力が向上し、0.8より大きい値が推定されます。

— RegressForward
ソース