全人口に対する回帰


9

母集団全体が含まれる場合、回帰における係数の標準誤差の意味は何ですか?

私はこの質問にとても戸惑いました。私には思えるので、母集団全体が含まれている場合、標準誤差は意味がありません。母集団全体がすでにあるため、統計的推論は必要ありません。

しかし、トップジャーナルに掲載された多くの記事でさえ広く使用されています。たとえば、国のGDP成長率とその人口密度の関係を調べている場合、次の回帰を実行します。

GDPi=α+βPopi+γXi+ϵi

地球上の195か国すべてで。この場合、すべての国(人口)が含まれます。しかし、すべての文献は依然として係数の統計的有意性について述べています。

人口全体に回帰するとき、それは統計的推論の誤用であると誰かが説明できますか?


この質問は統計ネットワークで回答されています。こちらをご覧ください。基本的に、統計には関連性がありません。「回帰」は純粋に数学的デバイスです。
luchonacho 2017

@luchonacho私の意見では、この質問はここでは自然にstats.SEと重複しているコンテンツに関してトピックに関するものだということです。ただし、基本的には重複していることに同意します。:私はここで、クロスサイト重複をどうするかの議論見つけmeta.stackexchange.com/questions/172307/...
jmbejara

@jmbejara参照ありがとうございます。知ってよかった。
luchonacho 2017

これは別の適切な参照のようです。Athey Imbens(2017)で説明されている、ランダム化推論と呼ばれる関連手法について説明します。jasonkerwin.com/nonparibus/2017/09/25/...
jmbejara

回答:


3

私は当初、この質問にフラグを立てて、モデレーターが統計SEサイトの相互検証に移行する方がよいかどうかを調査するようにしていました。しかし、OPは非常に具体的な計量経済学の例を導入したので、「人口/サンプル」の(非常に深い)概念は、この例の目的のために有効に議論できると思います。

最初の問題は、@ AdamBaileyの回答で説明されている問題です。特定の年について「世界のすべての国」を考慮し、データに「人口」というラベルを付けた場合、次の年は別の母集団に属するはずです。それが別の母集団に属している場合、ある母集団の結果を使用して別の母集団を推論するにはどうすればよいでしょうか。実際、ここでの「人口」は国期間の2次元です。つまり、その意味では、期間が制限されず、サンプルしか手に入れられません。

2番目の問題(一部は@luchonachoの回答に含まれています)は次のとおりです。私たちの母集団は、実際に観測されたランダム変数の実現ではありません"。これはデータです。私たちの母集団はランダムなコレクションです変数自体は値ではなく関数です。GDPi,i=1,..n

したがって、私たちのデータは、これらの確率変数の可能な組み合わせ実現の1つにすぎません。これらの実現は、決定論的/工学的関係/因果関係(係数に反映されます)の結果としてだけでなく、本質的にランダムな要因の影響下でも発生しました。その意味で、データは「人口」の「純粋な/典型的な」画像ではなく、ノイズ、非構造的障害、一時的な衝撃などが含まれています。

次に、これらの係数は、ランダム要素が従属変数の最終値に影響を与える前の因果関係または共同移動を表すと想定しているため、この不確実性は、推定しようとしている係数の推定に引き継がれます。

上記の両方の側面があるため、「推定の標準誤差」について話すことはこの場合も完全に有効であり、その後、通常どおり統計検定を適用します。


5

推論が引き出されている母集団が正確に何であるかを検討することが重要です。このコンテキストで時間の側面を見落としがちです。

たとえば、世界各国の今後2年間のGDPを予測することを目的としているとします。次に、対象となる人口は、「国、年」という形式のペアのセットです。それは単に「すべての国」ではなく、予測モデルが各国の現在および過去の年のデータの回帰によって推定されたとしても、関心のある母集団全体が含まれていることを意味しません。

関心のある母集団全体の完全なデータセットから実際に開始する場合は、要約統計量を計算するだけです。これには標準偏差が含まれる可能性がありますが、この用語は標本分布に関連するため、この場合の唯一の「標本」は母集団全体であるため、これらの標準誤差を呼び出すことは不適切です。


どうもありがとうございました。より明確にするために、私は質問を更新しました、この場合の「すべての国」は全人口と見なされますか?存在しない場合は、「超人口」の「サンプル」であることを意味します。「パラレルユニバース」には数百万の国があり、地球上の195か国が独立して同一に分布しているとします。ランダムにサンプリングされます。それはあまりにも多くのことを前提としているのではないでしょうか?
大沢明2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.