回答:
これについてはさまざまな意見があるかもしれませんが、母集団データをサンプルとして扱い、母集団を仮定して、通常の方法で推論を行います。これについて考える1つの方法は、収集されたデータ、「人口」分布を担当する基礎となるデータ生成プロセスがあるということです。
あなたの特定のケースでは、将来的にコホートがあるので、これはさらに理にかなっているかもしれません。そうすれば、あなたの母集団は、将来もテストを受けるコホートです。この方法では、1年以上のデータがある場合は時間ベースの変動を考慮するか、エラーモデルを介して潜在的な要因を考慮することができます。要するに、より優れた説明力を備えたよりリッチなモデルを開発できます。
実際、もしあなたが本当に全人口を持っているなら、統計に行く必要さえありません。そうすれば、違いがどれだけ大きいかを正確に知ることができ、それをテストする理由はまったくありません。古典的な間違いは、統計的有意性を「関連する」有意性として使用していることです。母集団をサンプリングした場合、違いはそれです。
一方、仮説を再定式化すると、候補は可能な候補のサンプルとみなされ、統計的検定が可能になります。この場合、手元のテストで男性と女性が異なるかどうかを一般的にテストします。
アルスが言ったように、複数年のテストを使用して、ランダムな要因として時間を追加できます。ただし、この特定のテストでこれらの候補の違いに本当に関心がある場合、一般化を使用することはできず、テストは無意味です。
従来、統計的推論は、確率サンプルとサンプリングエラーの性質に基づいて行われます。このモデルは、有意性のテストの基礎です。しかし、偶然からの体系的な逸脱をモデル化する他の方法があり、私たちのパラメトリック(サンプリングベース)テストは、これらの選択肢の適切な近似である傾向があることがわかります。
仮説のパラメトリック検定は、サンプリング理論に基づいて、可能性のあるエラーの推定値を生成します。特定のサイズのサンプルが母集団から取得される場合、サンプリングの体系的な性質に関する知識により、テストと信頼区間が意味のあるものになります。母集団では、サンプリング理論は単に関連性がなく、テストは従来の意味では意味がありません。推論は役に立たず、推論するものは何もありません。ただ、パラメータだけがあります。
現在の人口調査が表す超人口に訴えることでこれを回避する人もいます。これらのアピールは説得力がないと思います-パラメトリックテストは確率サンプリングとその特性を前提としています。特定の時間の母集団は、時間と場所を超えたより大きな母集団のサンプルである場合があります。ただし、これがランダム(またはより一般的には任意の形式の確率)のサンプルであると正当に主張できる方法はありません。確率サンプルがなければ、サンプリング理論とテストの従来のロジックは適用されません。便利なサンプルに基づいてテストすることもできます。
明らかに、母集団を使用するときにテストを受け入れるには、サンプリング手順でそれらのテストの基礎を省く必要があります。これを行う1つの方法は、サンプル理論テスト(t、Z、Fなど)とランダム化手順の間の密接な関係を認識することです。ランダム化テストは、手元のサンプルに基づいています。男性と女性の収入に関するデータを収集する場合、確率モデルと誤差の推定の基礎は、実際のデータ値のランダムな割り当ての繰り返しです。グループ間で観測された違いを、このランダム化に基づいた分布と比較できました。(ちなみに、これは実験で常に行われますが、集団モデルからのランダムサンプリングはほとんど適切ではありません)。
現在、サンプル理論テストは、多くの場合、ランダム化テストの適切な近似であることが判明しています。したがって、最終的には、母集団からのテストは、このフレームワーク内で有用かつ有意義であり、サンプルベースのテストと同様に、系統的な変動と偶然の変動を区別するのに役立つと思います。そこに到達するために使用されるロジックは少し異なりますが、テストの実際の意味と使用に大きな影響はありません。もちろん、最新のコンピューティング能力をすべて備えているので、ランダム化と置換のテストを直接使用する方が良いかもしれません。
結果は、候補が性別に沿って異なることを示していると仮定します。たとえば、テストを完了した人の割合は次のとおりです。40%が女性、60%が男性です。明らかなことを示唆するために、40%は60%と異なります。ここで重要なのは、以下を決定することです。1)関心のある人口。2)観察が関心のある集団にどのように関係しているか。これらの2つの問題に関する詳細を次に示します。
関心のある母集団があなたが観察した候補者だけである場合(たとえば、2016年に大学に応募した100人の候補者)、統計的有意性検定を報告する必要はありません。これは、関心のある母集団が完全にサンプリングされたためです...あなたが気にするのは、完全なデータを持っている100人の候補者だけです。つまり、60%は完全停止で、40%とは異なります。これが答える質問の種類は、プログラムに適用された100人の人口に性差があったかどうかです。これは説明的な質問であり、答えはイエスです。
ただし、多くの重要な質問は、異なる設定で何が起こるかについてです。つまり、多くの研究者は、将来を予測する(そして計画する)のに役立つ過去の傾向を考え出したいと考えています。これに関する質問の例は、性別の線に沿って候補者の将来のテストがどの程度異なる可能性が高いかということです。対象の人口は、上記のシナリオ#1よりも広くなります。この時点で、重要な質問は次のとおりです。観測されたデータは将来の傾向を表している可能性が高いですか これは推測的な質問であり、元のポスターから提供された情報に基づくと、答えは「わからない」です。
要するに、報告する統計は、答えたい質問の種類によって異なります。
基本的な研究デザインについて考えることが最も役立つ場合があります(http://www.socialresearchmethods.net/kb/design.phpを試してください)。より高度な情報が必要な場合は、スーパーポピュレーションについて考えるのが役立つ場合があります(http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1に役立つ記事があります)。
あなたがランダムなプロセスであると測定していることを考えるなら、はい統計的テストは関連しています。たとえば、コインを10回ひっくり返して、公正かどうかを確認します。あなたは6頭と4尾を取得します-あなたは何を結論づけますか?