大規模なサンプルで無関係なリグレッサが統計的に有意になるのはなぜですか?


8

統計的有意性、効果の大きさなどをよりよく理解しようとしています。

大規模なサンプルでは、​​無関係なリグレッサでさえ統計的に有意になることがよくあるという認識があります(おそらく間違っています)。無関係な私回帰は、従属変数に関連しなければならない理由は何の主題の説明がないことを意味します。したがって、この投稿の無関係性は純粋な主題概念であり、統計的概念ではありません。

ここで説明するように)母集団の影響が正確にゼロでない限り、十分に大きなサンプルが与えられれば、リグレッサは統計的に有意であることを知っています。したがって、大きなサンプルで統計的に有意であると思われる無関係なリグレッサは、母集団でゼロ以外の効果サイズを持っています。

質問:

  1. 無関係なリグレッサが統計的に有意であることが判明するのはなぜですか?
  2. 主題の説明を探す必要がありますか(つまり、関連性を否定しようとします)これは統計的な現象ですか?

これは、私がこの効果をどのように治すかを明確にしようとしていた投稿の続きです。一方、ここで、なぜそもそもそれが起こるのを尋ねいます。


これは、以前に回答された以前の投稿と重複しているように見えます。その投稿複製に対する1つの答えは、「p値は任意です。十分なデータを収集することで、p値を必要なだけ小さくすることができます。」#1と#2の両方に対応していませんか?
whuber

1
@whuberに感謝します。この投稿が新しい別の質問を扱っていることを明確にしようとしていました。人口に本当に影響がある場合に何が起こるか私はすでに理解しています(他の投稿のトピックとそれが複製する古い投稿)。ここでの私の質問は、次のとおりです。(i)無関係であると思われるリグレッサが頻繁に統計的に有意である理由は常に同じ、つまり、実際に人口の影響があるということです。(ii)そうでない場合、代替の理由は何ですか。(iii)「はい」の場合、最も頻繁には、主題または偶然による人口への影響です。これがより明確になることを願っています。
Richard Hardy

回答:


9

質問:

無関係なリグレッサが統計的に有意であることが判明するのはなぜですか?

サンプルサイズが母集団自体に近づいたときに何が起こるかについて考えることは役立つと思います。有意性検定は、母集団に影響が存在するかどうかを示すためのものです。これが、国勢調査データ(人口を調査するデータ)を操作する場合、有意性検定が無意味である理由です(なぜなら、何に一般化しようとしているのですか?)。

それを念頭に置いて、「人口への影響」とはどういう意味ですか?それは、たとえその関係が宇宙の偶然性とランダム性によるものであったとしても、それがどれだけ小さくても(1ポイントまたは1人の違いであっても)母集団内の変数間の関係を単に意味します

あなたのサンプルが母集団の大きさに近づくにつれのでこのように、有意性検定は少なく有意義になる任意の差は「統計学的に有意」となります。そのとき、あなたがもっと興味を持つのは、効果の大きさです。これは、「実質的に重要」に類似しています。

主題の説明(つまり、無関係を否定しようとする)を探すべきですか、それとも統計的な現象ですか?

それは現象です-エフェクトサイズを見てください。


私が直感的に探していたものの、うまく定式化できなかったとおっしゃっています。ポピュレーションの影響は、たとえその関係が宇宙の偶然性とランダム性によるものであったとしても、どれだけ小さいかに関係なく、ポピュレーション内の変数間の任意の関係である可能性があります(1ポイントまたは1人の違い)。これらの影響が偶然によるものである場合、私は主題の説明を探す必要はありません。ありがとう!
Richard Hardy

ところで、あなたの議論は、例えば平均値の平等や治療効果が正確にゼロであるかどうかなどをテストしている場合、直感的に理解できます。しかし、重回帰におけるリグレッサの重要性はどうでしょうか?私がより容易に追跡できるように、回帰の文脈であなたのポイントを述べてもらえますか?
Richard Hardy

1
うーん、私はこの類推は直接関連があると思います。たとえば、運動量などの制御変数を調整した後、チョコレートの消費が平均余命に影響を及ぼさないと想像しても、60億人の人口のうち1人が外れ値である場合、人口が存在します "チョコレートの消費が平均余命に及ぼす影響」を参照してください。ただし、その影響の大きさはごくわずかです。うまくいけば、その例は役に立ちましたが、回帰係数が他のどのパラメーターとどのように異なるのかを考えるのに苦労しました。
QxV、2015年

3
「母集団」全体をサンプリングする場合、有意検定がなぜ無意味であるのか(母集団によって実際の母集団を意味する場合)について、少し混乱しています。人について何かをテストしたい場合で、サンプルがすべて70億人である場合でも、確かに有意差検定を実行でき、帰無仮説を拒否するか、または失敗する可能性があります。なぜそれが概念的に無意味であるべきなのか、私にはわかりません。あなたが言及した「一般化」は、例えば将来の世代か何かを指すことができます。(CC @リチャード)
amoeba 2015年

1
@amoeba:統計的有意性検定は、母集団ではなくサンプルに対してのみ意味があると思います。母集団全体を観察すると、私たちの知識はすべて完璧です。パラメータ推定の不確実性などはありません。どんな関係でも正確に測定できます。(これは、すべての関係について完全な主題説明があることを意味するわけではありませんが、それはポイントのほかにもあります。)一方、将来の世代に一般化すると、暗黙的に現在の人口は{current + future}からのサンプルにすぎません。人口。その後、統計的有意性検定がゲームに戻ります。
Richard Hardy

2

サンプルサイズが母集団に近づいていない場合でも、大きなサンプルでは小さな影響が大きくなります。これは、統計的有意性の意味の結果です。

このサンプルが採取された母集団において、帰無仮説が真であった場合、私たちが持っているサイズのサンプルで少なくともこれほど大きな検定統計量が得られる可能性は(XX%)ですか?

あなたの質問が地球上のすべての人々について何かである場合、1,000,000のサンプルを取得すると(7,000,000,000に近くない)、非常に小さな影響でも重要になります。これは、nullがtrueの場合、大きなサンプルでそのようなテスト統計を見つけることはほとんどないためです。 。

多くの場所で議論されている有意性検定には多くの問題があります。これはその1つです。「治療法」は、効果のサイズと信頼区間を調べることです。


1
ありがとう!十分な量のサンプルが与えられた場合、これらの小さな効果が統計的に有意な効果に変化するメカニズムを理解していると思います。中心的な問題は、なぜこれらの小さな影響が人口に存在するのかということです。それらは主に「宇宙のランダムさ」が原因で発生しますか?それとも、主題の観点から考えると無視する傾向がある、実際の主題と関係(偶然ではない)を表しているのでしょうか。
Richard Hardy、

4
後者だと思います。
Ben Bolker、2015年

@BenBolker理由を教えてください。それはとても役に立ちます。
Richard Hardy、

3
私はベンに同意します。ほとんどすべての2つの変数はある程度関連しています。モデルに固執するものは、関連している可能性がはるかに高くなります。ジャンクをモデルに投げるだけではありません(すべきではありません)。
ピーターフロム

2

母集団の知識がそのような影響を示唆していない場合でも、母集団の影響の存在の説明を提供するために、@ QxVからいくつかの洞察を借りました。

特徴およびを持つ母集団を生成する母集団生成プロセス(PGP)があるとします。PGPの式は、とがランダムな誤差項まで独立している式です。このランダムなエラー項が原因で、有限の化およびは、正確な無相関性の確率がゼロになります。つまり、です。もしそうなら、確率1で人口効果があります。それが人口にどのように影響を与えるかです。、X 、Y 、X 、Y 、R 、E 、A 、L 、I 、Z 、E 、D、X 、R 、E 、A 、L 、I Z のE D P Y R E A L I Z E DX R E A L I Z のE D= 0yxyxyrealizedxrealizedP(yrealizedxrealized)=0

母集団効果が存在する場合、サンプルでそれを検出するとき、および統計的に有意になるときは、サンプルサイズの問題です。


2

すでに投稿された優れた回答に加えて、別の視点から試みます。すべてのモデルは、ある意味で近似です...いくつかの回帰モデルを見てください。いくつかの無関係な変数が重要です。それを説明できるものは何ですか?

  1. 多分それは無関係ではないかもしれません、その問題に関する今日の科学的コンセンサスはちょうど間違っています。それとは別に:

  2. これは、関連があり、関連のない変数と相関しているいくつかの省略された変数の代理またはプロキシである可能性があります。

  3. モデルに線形に含まれている一部の関連する変数は、非線形に動作する可能性があり、関連しない変数は、関連する変数のその部分の代わりになる可能性があります。

  4. 2つの関連する変数間の相互作用は重要ですが、モデルには含まれていません。あなたの無関係な変数は、その省略された相互作用の代わりになるかもしれません。

  5. 無関係な変数は、いくつかの重要な変数と非常に高度に相関し、負の相関係数につながる可能性があります。これは、この変数に測定エラーがある場合は特に重要です。

  6. 非常に高いレバレッジを持ついくつかの観測があり、奇妙な見積もりにつながる可能性があります。

確かにその他...重要な点は、線形回帰モデルは小さなサンプルでは非常に良い近似であり、大きな効果のみが重要になるということです。ただし、サンプルが大きくなると分散が低くなりますが、近似によるバイアスを減らすことはできません。したがって、サンプルが大きくなると、モデルの不備が明らかになり、最終的に分散よりも優位になります。


-1

いいえ。サンプルサイズが増加しても、無関係なリグレッサは統計的に有意になりません。Rで次のコードを試してください。

y <-rnorm(10000000)

x <-rnorm(10000000)

要約(lm(y〜x))


1
そのコードを、たとえば1000回(またはそれ以上)繰り返して、何が起こるか確認しましたか?
kjetil b halvorsen

予想どおり、5%の誤検知率になります。ただし、サンプルサイズに関係なく同じ結果が得られます
David

別の見方については私の回答をご覧ください
kjetil b halvorsen

私はあなたの投稿を理解し、「線形のような」関係の場合は真実です(「実際に線形」の関係の場合と同様)。ただし、私のコードで10000000を10に変更しても、取得する可能性は低くなりません。 Fテストの誤
David

回答ありがとうございます!それ自体は正しいですが、質問の要点を逃していると思います。この問題は、主題の説明がない統計的に有意な関係がよく見られるという観察に動機付けられています。
Richard Hardy
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.