変換しても正常ではない非正常データで回帰を実行するにはどうすればよいですか?


15

21個のアンケート項目に対するリッカート尺度の回答から得られたデータ(158件)があります。アンケートのどの項目が全体的な項目(満足度)に対する応答を予測するかを確認するために、回帰分析を実行したい/本当に必要です。応答は(KSテストによると)通常は分散されておらず、考えられるあらゆる方法(逆、ログ、log10、sqrt、2乗)に変換しました。残差プロットはあちこちに見えるので、線形回帰を行い、正常に動作するふりをすることは本当に合法ではないと思います(ポアソン分布ではありません)。これは、回答が非常に密集しているためだと思います(平均は3.91、95%CI 3.88〜3.95)。

そのため、データを変換する新しい方法が必要か、何らかのノンパラメトリック回帰が必要かと考えていますが、SPSSでできることはわかりません。


1
Box-Cox変換(en.wikipedia.org/wiki/…)を検討してください。質問に残差プロットを追加すると役立つ場合があります。
M.バーク

3
はい、残差プロットを教えてください。多分qqプロットも。
デビッドマルクス

5
値が離散的である場合、特に値が片側に押しつぶされている場合は、結果がほぼ正常になるような変換がない場合があります。しかし、正規性の正式な仮説検定は正しい質問に答えず、正規性を拒否するかどうかを条件に行われる他の手順が名目上の特性を持たなくなるようにします。
Glen_b-モニカを復活させる

1
比例オッズのロジスティック回帰は、おそらくこの質問に対する賢明なアプローチでしょうが、SPSSで利用可能かどうかはわかりません。
ベンボルカー

3
私は、回帰が正しいアプローチであると確信しているわけではなく、正常性の懸念のためではありません。アンケートの回答は基本的ではないかもしれません。たとえば、ある人に「あなたは幸せですか?」と尋ねて、回答3を受け取った場合、先月は4だったが、これは彼の幸せが25%少ないことを意味しますか?おそらくそうではありません。 。あなたが調査のように考えて扱うの特別な方法がありますが、あなたもちょうど序を基数に対処していないかどうかを把握する必要があり、そして回帰は、デフォルトの選択ではありませんあなたはそれが適切な最初のショーがあります。。
Aksakal

回答:


32

回帰を行うために正規分布を仮定する必要はありません。最小二乗回帰は、分布に関係なく、BLUE推定量(Best Linear、Unbiased Estimator)です。ガウスマルコフの定理(ウィキペディアなど)を参照してください。正規分布は、推定量が最尤推定量でもあることを示すためにのみ使用されます。OLSが正規分布データを何らかの形で想定しているのはよくある誤解です。ありません。より一般的です。


2
信用できる。多くの人にとって、この事実をしばしば無視します。
レプマット

@Repmatに同意します。正常性テストに合格したかどうかはわかりませんが、モデルは機能します。
HEITZ

5

残差の正規性のテストに頼るのではなく、合理的な判断で正規性を評価してみてください。正常性テストでは、データが正常であることは通知されず、正常でないことのみが通知されます。しかし、データがサンプルであるとすれば、テストなしでは実際に正常ではないことを確信できます。要件はほぼ正常です。テストではそれがわかりません。テストはまた、大きなNで非常に敏感になり、より深刻になり、感度はNによって異なります。Nは、感度が高くなり始める範囲内にあります。Rで次のシミュレーションを何度も実行してプロットを見ると、正規性テストでは、かなりの数の正規分布に対して「not normal」と表示されていることがわかります。

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

うまくいけば、シミュレーションを行った後、正規性テストでかなり正常に見えるデータを簡単に拒否でき、正規分布からのデータは正規からかなり遠く見えることがわかります。あなたがその試みの極端な価値を見たいならn <- 1000。分布はすべて正常に見えますが、低いN値とほぼ同じ割合でテストに失敗します。そして逆に、テストに合格したNが低い分布では、正規分布から非常に遠く見える可能性があります。

SPSSの標準残差プロットは、正規性の評価にはあまり役立ちません。外れ値、範囲、適合度、さらにはレバレッジを確認できます。しかし、正常性をそこから導き出すことは困難です。ヒストグラム、分位点-分位正規プロット、および残差プロットを比較する次のシミュレーションを試してください。

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

最後のプロットから正常性、またはその他の多くのことを伝えることは非常に難しいため、正常性をひどく診断することはできません。

要約すると、通常、正規性テストではなく、残差の診断プロットに依存することをお勧めします。これらのプロットや質問の実際の値がなければ、分析や変換の観点からデータに必要なものについて誰もが確実なアドバイスを提供することは非常に困難です。最善のヘルプを得るには、生データを提供してください。


こんにちは。提案に感謝します。最終的に提案されたように残差を見て、変数で上記の構文を使用しました。私のデータは思ったほど異常なほど非正常ではなかったので、より信頼性が高く、明確な良心を持ってパラメトリック線形回帰を使用しました!再度、感謝します。
レイチェルS

4

まず、OLS回帰では、データに関する仮定は行われず、残差によって推定されるエラーに関する仮定が行われます。

第二に、モデルに適合するようにデータを変換することは、私の意見では間違ったアプローチです。モデルを問題に適合させたいのではなく、逆にしたいのです。昔、OLS回帰はコンピューターの速度が遅いため「町で唯一のゲーム」でしたが、それはもはや事実ではありません。

第三に、私はSPSSを使用していないのでそこでは助けられませんが、何らかの形の非線形回帰を提供していなかったら驚くでしょう。可能性としては、分位点回帰、回帰木、ロバスト回帰があります。

第四に、私はあなたの声明について少し心配しています。

アンケートのどの項目が全体的な項目への応答を予測するかを確認するために、回帰分析を実行したい/必要です(満足)

項目を合計するか、何らかの方法で組み合わせて全体のスケールを作成する場合、回帰はまったく適切なアプローチではありません。おそらく因子分析が必要です。


あなたは彼が因子分析を望むかもしれないと提案しましたが、データが正規分布していない場合、因子分析も影響を受けませんか?
合理化

連続的でさえないデータに対して因子分析を行うことができます。しかし、それは別の議論です-そして、それはここで議論されました。
ピーターフロム-モニカの復職

1
こんにちはピーター、私はあなたの専門知識に感謝し、私はあなたの助言を大いに評価します。答えてくれてありがとう。明確にするために、私、非正規分布アイテム(および残差の正規性に関する議論)でFAを実行できることを知っています。OPが同じジレンマに陥らないかどうかを(あなたの専門知識を持つ人から)知りたいと思いました。しかし、私はあなたがすでに答えていると仮定します:)
合理化

1

大まかに言って、問題に対する2つの可能なアプローチがあります。1つは理論的観点からは正当化されていますが、実際には実装できない可能性があり、もう1つはヒューリスティックです。

理論的に最適なアプローチ(残念ながら実際には使用できない可能性があります)は、いわゆる最尤法の直接適用に戻して回帰を計算することです。最尤推定(実際は前件でより基本的な数学的概念)と通常の最小二乗(OLS)回帰(通常のアプローチ、観測変数がすべて独立してランダムで正規分布している特定の非常に一般的なケースに有効) )統計に関する多くの教科書で説明されています。私が特に気に入っている議論の1つは、グレンコーワンによる「統計データ分析」のセクション7.1です。観測変数が正規分布していない場合、

この場合、観測変数を支配する基礎となる分布を実際には知らないように見えるため(つまり、確かに知られているのは、ガウス分布ではなく、実際にはそうではないことだけです)、上記のアプローチはあなたのために働く。通常、OLSが失敗するか、おかしな結果を返すのは、異常値が多すぎるためです。OLSのポイントは回帰曲線からの偏差の2乗で重み付けされているため、外れ値は、正規分布の観測変数の仮定を実際に破るものであり、適合にあまりにも大きな重みを与えます。は大きい。この場合の通常のヒューリスティックアプローチは、OLSに何らかの調整または変更を加えることで、ベースラインOLSメソッドと比較して、外れ値ポイントからの寄与が非強調または非加重になります。総称して、これらは通常として知られていますロバスト回帰ここで、試してみたい特定の堅牢な推定手法の例を含むリストを見つけることができます

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.