重回帰の問題があり、単純な重回帰を使用して解決しようとしました:
model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)
これは、85%の分散(R-squaredによる)を説明しているようで、かなり良いようです。
しかし、私が心配しているのは、奇妙に見える残差対適合プロットです。以下を参照してください:
このような平行線がある理由は、Y値にはX値の約160に対応する10個の一意の値しかないためだと思います。
この場合、おそらく別のタイプの回帰を使用する必要がありますか?
編集:次の論文で同様の動作を確認しました。1ページのみの用紙なので、プレビューするとすべて読むことができます。この動作を観察する理由はかなりよく説明されていると思いますが、他の回帰がここでうまく機能するかどうかはまだわかりませんか?
Edit2:私が考えることができる私たちのケースに最も近い例は、金利の変化です。FEDは新しい金利を数か月ごとに発表します(いつ、どのくらいの頻度かわかりません)。それまでの間、日次で独立変数(日次インフレ率、株式市場データなど)を収集します。その結果、1つの金利に対して多くの測定値を持つことができる状況になります。
実際、Yは予測しようとする価格であり、数か月ごとに変化します。数か月ごとに変化する対応する価格(Y)の週ごとのレコーダー変数(X)があります。この場合、将来の価格がわからないときにロジスティック回帰は機能しますか?
—
Datageek 2012
あなたは説明について正しいです。あなたの参照はそれを釘付けにしました。しかし、状況は異常に見えます。独立した応答は10個程度しかなく(離散的な尺度ではなく、連続的な尺度であるようです)、時間とともに変化する複数の説明変数を使用しています。これは、ほとんどの回帰手法で想定される状況ではありません。これらの変数の意味とそれらの測定方法に関する詳細情報は、優れた分析アプローチの特定に役立つ可能性があります。
—
whuber
R
パッケージはですがordinal
、他にもあります