この残差プロットをどのように解釈すればよいですか?


8

このグラフを解釈できません。私の従属変数は、ショーで販売される映画チケットの総数です。独立変数は、ショーの前に残った日数、季節性ダミー変数(曜日、年、月、休日)、価格、日付までに販売されたチケット、映画の評価、映画の種類(スリラー、コメディなど)です。 )。また、映画館の定員は固定ですのでご了承ください。つまり、最大xの人数のみをホストできます。線形回帰ソリューションを作成していますが、テストデータに適合していません。だから私は回帰診断から始めることを考えました。データは、需要を予測したい単一の映画館からのものです。

は多変量データセットです。日付ごとに、ショーの前日を表す90の重複行があります。したがって、2016年1月1日のレコードは90です。ショーの何日前かを示す 'lead_time'変数があります。つまり、2016年1月1日の場合、lead_timeの値が5であれば、ショーの日付の5日前までチケットが販売されます。従属変数、販売されたチケットの合計では、同じ値が90回得られます。

また、余談として、残差プロットを解釈して後でモデルを改善する方法を説明した本はありますか?

ここに画像の説明を入力してください


5
あなたの状況、データ、モデルについて何か言えますか?そうでなければ、グラフをどのように解釈できますか?
gung-モニカの回復

1
X軸を展開(または「ズームイン」)します。残差に「ストライピング」が見られると思います。
blackeneth 2016

stats.stackexchange.com/questions/25068のバージョンのように見えます。役立つ回答を提供するために、詳細が必要です。
whuber

販売できるチケットの総数は決まっていますか?
ガン-モニカの復活

@gung、映画ホールの定員、つまり座席数が決まっているので、はい。それは質問をよりよく説明するかもしれないので、私はそれを質問に追加しています。ありがとう!
熱狂的ファン

回答:


4

プロットは非常に密集しているため、すべての傾向を把握することは容易ではありません。異分散性と自己相関の代替テストを実行して、追加の診断を取得できます。

目に見えるのは、最初の100個以上の値を超えると、残差の分散が増加し、これが単分散性を示唆する可能性があることです。その後、分散は再び減少するようです。この分散のやや非線形の振る舞いは、差分関数形(したがって、線形ではなく多項式)の必要性を示す場合もあります。これのもう1つの指標は、近似値の上限で観察される残差の傾向です(正の残差はなくなりました)。


多項式機能は合理的な考えであり、そのために与えられた理論的根拠は理にかなっています。ありがとう!
愛好家

そして、はい、私が今修正しようとしているデータには自動共線性とヘテロスケダトシティがあります。
愛好家

@エンスージアストハッピーこれは助けた。この問題の解決につながった最終的な解決策は何だったのでしょうか(完了したら)
tomka

ここで提案されているモデル診断アプローチを実際に使用しています。stats.stackexchange.com/a/189116/68444
熱狂者

そしてここに私の問題の次の段階であるstats.stackexchange.com/questions/235562/...
熱狂的ファン

12

残差プロットには明確なパターンがあり、フィッティングされた値が増加するにつれて、いくつかのラインが下降傾向にあります。このパターンは、モデルの固定効果またはランダム効果を考慮できず、固定効果が説明変数と相関している場合に発生する可能性があります。次の例について考えてみます。

set.seed(999)

N = 1000
num.groups = 10

alpha = runif(num.groups, -10, 10) #Fixed effects
beta = 10 #Slope parameter
group = sample(num.groups, N, replace = TRUE)

X = rnorm(N, mean = alpha[group], sd = 5) #Mean of X correlated with fixed effect
e = rnorm(N, sd = 1)
y = alpha[group] + X * beta + e

df = data.frame(group = as.factor(group), X, y)

m.no.fe = lm(y ~ X, data = df) #Not including group fixed effects
plot(m.no.fe, which = 1)

これにより、次の残差/適合プロットが得られます。 res_fitted_nofe

たとえば、いくつかの高校の入学金のSATスコアを後退させたが、高校の固定効果を含めることができなかった場合も、同様の結果になることがあります。各学校は異なるベースライン収益(つまり、固定効果)と平均SATスコアを持ち、これらは相関している可能性があります。

グループ固定効果を含めて、

m.fe = lm(y ~ group + X, data = df) #Now including fixed effects
plot(m.fe, which = 1)

これにより、はるかに優れた残差/適合プロットが得られます。

res_fitted_fe


4
これは正しいかもしれませんが、私には完全に直線のように見えます。私の推測では、Yはカウント、または固定数の試行のうちの「成功」のカウントです(つまり、モデルが正しくありません)。OPがデータとモデルについて詳しく説明するまではわかりません。
ガン-モニカの回復

@tkmckenzieつまり、モデルにさらに変数を作成する必要があるということですか?
愛好家

6

残差プロットは、標準のOLS(線形)回帰の観点からは異常に見えます。たとえば、不等分散性の兆候があります。具体的には、残差の広がりが両端より中央で大きくなっています。しかし、これは本当の問題ではありません。

ここでの実際の問題は、間違ったモデルに適合していることです。OLS回帰は、応答が正規分布であるという仮定に基づいています(回帰子の条件付き、つまり変数)。あなたの反応は正常ではなく、異常です。あなたの返答は、劇場の総座席数のうち、売り切れた座席数です。あなたの応答は二項です。OLSでは二項式を正しくモデル化できません。ロジスティック回帰モデルをあてはめる必要があります。 X

対処する必要があるいくつかの追加の問題があります。説明から明らかなカップルは、同じ番組(つまり、90日間)に複数の観測があるという意味で、観測がクラスター化されていることです。おそらくGLMMをフィッティングすることにより、この非独立性に対処する必要があります。 別の問題は、同じショー内の連続する日の間で依存関係が存在することです。結局のところ、日目にチケットを販売した場合、日には少なくともその数のチケットを販売したことになります。これに対処する1つの方法は、89日間のデータのみを適合させ、前日の数を共変量として含めることです。 d d + 1yddd+1 (申し訳ありませんが、質問を再読すると、日付までに販売されたチケット変数がすでに含まれているようです。)

データのモデル化で対処する必要のある問題がさらにある可能性があります。これらはかなり高度なトピックです。それらに慣れていない場合は、統計コンサルタントと協力する必要があります。


私のデータは、fitdistrplus()およびqqplot()の結果から表示されるガンマ分布を持っています。stats.stackexchange.com/questions/234866/...
熱狂的ファン

@熱狂者、私はw /に精通していfitdistrplusます。応答データが、可能な総シート数のうち販売されたシート数である場合、それらは二項式です。これですべてです。ガンマ分布はでサポートされています。あなたのデータは、可能性が持っている、販売座席をすることはできません持っている販売座席を、&することができない劇場に存在するよりも、より多くの販売議席を持っています。データはおそらくガンマではありません。0 3.5(0,)03.5
ガン-モニカの復活
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.