歪んだデータによる回帰


11

ユーザー属性とサービスから訪問数を計算しようとしています。データは非常に歪んでいます。

ヒストグラム:

ヒストグラム

qqプロット(左は対数):

qqプロット-右は対数

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityservice因子変数です。

すべての変数で低いp値***が得られますが、rの2乗が.05と低くなっています。私は何をすべきか?指数関数などの別のモデルが機能しますか?


もともとゼロの頻度は2の頻度が高いと思っていたので、データ生成プロセスについてもう少し詳しく教えてください。人々はどのようなサービスを求めていましたか、そして分析の「最終的な目標」は何ですか?一連の特性(つまり、サービス品質の尺度)を考慮して、訪問数(数)を予測しようとしていますか?研究の質問に答える目的で、結果をカウントとして維持する必要は絶対にありますか、または結果の変数をより少ない、しかしより大きなカテゴリーに折りたたむことができますか?
カラバス侯爵

2
カウントデータがあります。このサイトでポアソン回帰を検索してください。
kjetil b halvorsen 16

回答:


10

次の場合、線形回帰は結果にとって正しい選択ではありません。

  1. 結果変数は正規分布ではありません
  2. 結果変数は、それがとることができる値に制限されています(カウントデータは、予測値が負になることはないことを意味します)
  3. 訪問数が0のケースの頻度が高いと思われるもの

カウントデータの限定従属変数モデル

選択できる推定戦略は、結果変数の「構造」によって決まります。つまり、結果変数の値が制限されている場合(つまり、従属変数制限されている場合)、予測値が結果の可能な範囲内に収まるモデルを選択する必要があります。線形回帰は、限られた従属変数(たとえば、バイナリロジット/プロビットの場合)の良い近似である場合がありますが、そうでない場合もあります。一般化線形モデルを入力します。あなたの場合、結果変数はカウントデータであるため、いくつかの選択肢があります。

  1. ポアソンモデル
  2. 負の二項モデル
  3. ゼロ膨張ポアソン(ZIP)モデル
  4. ゼロ膨張負二項(ZINB)モデル

選択は通常、経験的に決定されます。以下で、これらのオプションの選択について簡単に説明します。


ポアソン対負の二項

θH0:θ=0H1:θ0θ

ZIP対ZINB

潜在的な複雑化の1つはゼロインフレであり、これはここで問題になる可能性があります。ここで、ゼロインフレートモデルのZIPおよびZINBが登場します。これらのモデルを使用して、ゼロ値を生成するプロセスが、他のゼロ以外の値を生成するプロセスとは異なると想定します。以前と同様に、ZINBは結果に過剰なゼロがあり、分散が過剰な場合に適切ですが、ZIPは結果に過剰なゼロがあるが条件付き平均=条件付き分散である場合に適切です。ゼロインフレモデルの場合、上記のモデル共変量に加えて、結果で見られた過剰なゼロを生成した可能性のある変数について考える必要があります。繰り返しますが、これらのモデルの出力に付属する統計テストがあります(コマンドを実行するときに、これらを指定する必要がある場合があります)。θ

θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process


θθ

最後に、私はRを使用していませんが、UCLAのデータ分析の例のページにあるIDREは、これらのモデルをフィッティングするのに役立ちます。

[コメントする十分な評判のない別のユーザーによる編集:このペーパーでは、Vuongテストを使用してゼロインフレモデルを比較するべきではない理由を説明し、代替案を提供します。

P.ウィルソン、「ゼロインフレをテストするためのネストされていないモデルのVuongテストの誤用」経済学の手紙、2015、vol。127、発行C、51-53 ]


過半数は2〜訪問です。すべてのレコードは1回以上の訪問です
pxxd

ポアソンのglmとガンマの両方で同様のqqプロットを取得していますが、問題ありませんか?
pxxd

3
1.結果変数が正規分布されていないこと自体は、線形回帰に対して有効な引数ではありません。推定器の優れた特性(整合性や漸近正規性など)を保証する一連の回帰仮定には、結果変数の正規性(およびエラーの正規性すら含まれていません)は含まれていません。
Richard Hardy

2

ガンマ分布のある一般化線形モデルを試してください。従属変数は正であり、x = 0でゼロに等しいため、近似変数である可能性があります。私はRとGLMを使用していますが、同様のケースである程度成功しています。


Visits d

1
いいえ、ログリンクではなくIDリンクを使用する必要があると思います。ただし、最初にガンマ関数が分布にどの程度適合するかを確認してください。
ディエゴ

0

すべての統計的仮定は、モデルのエラーに関するものです。曜日を反映する6つのインジケーターシリーズを使用して単純なモデルを構築すると、エラーの分布がより見やすくなります。月次効果と休日効果(BEFORE、ON AND AFTER)を組み込むことを続行すると、エラーの分布がさらに良くなります。日、週、ロングウィークエンドインジケーターなどを追加するとさらに便利になります。

現在および過去のデータhttps://stats.stackexchange.com/search?q=user%3A3382+daily+data指定して、ゲストの人数を予測する簡単な方法と、さらに楽しい読書を ご覧ください


1
この回答は、実際に尋ねられた質問には関係していないようです。接続を明示的にできますか?
whuber

私は彼のDVISITSを使って毎日のデータを提案しました...そうでない場合は、私の答えを取り消します。それが本当に横断的なものであるなら、多分彼は主要な分類によってデータを層別化することを考慮すべきです。
IrishStat
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.