2x2分割表のテスト:男性/女性、雇用/非雇用


8

私は科学を専攻していて、私の統計学の知識は表面的なものです。

問題

データセットを見つけ、統計コースの課題として自分の能力を最大限に活用して分析する必要がありました。これはもはや課題ではありません。分析がうまくいかなかった理由と代わりに何をすべきかを解釈するのに助けが必要です。

私はニュージーランドの雇用率のカテゴリーデータセットを使用して、2x2分割表に配置し、ピアソンのカイ2乗検定とフィッシャーの正確確率検定を使用して、性別が雇用と相関しているかどうかを検定しました。

答えたいこと

  1. この問題に対してカイ2乗検定とフィッシャーの正確確率検定を使用できない理由を理解し、代わりに何を使用すべきかを理解してください。「時間の関数としてのオッズ比」と思いますか?Rで完全にそれを行う方法に関する有用なリンクはありますか?
  2. 割り当ての最初の部分に関する「順次相関」コメントと、正確に何をすべきかを理解してください。

私を助ける方法#1(短い)

データは次のとおりです(国勢調査に基づく)。

                 Male     Female
Employed      1201600    1060200
Unemployed      73300      75000

Rでカイ2乗検定とフィッシャーの正確確率検定を行いました。得られたp値から、nullがtrue(男性と女性)である場合に、このような仕事の分布(または1つ以上の極値)の確率がわかると想定しています。就職のチャンスは同じです)。私は非常に小さいp値を取得しました。フィッシャーのテストでは、オッズ比1.16が得られました。これは、相関関係があり、特に男性がニュージーランドで就職する可能性が16%高いことを意味します。

しかし、私の講師によると、私はこれらのテストを不適切に使用しました。理由はよくわかりませんでしたが、これらのテストは独立性を前提としていると彼は言っていたと思います。NZには一定量の求人があるため、サンプルは独立していないので...下に引用されている彼のフィードバックを見ることができます)。

私を助ける方法#2(長い)

時間に余裕があれば、課題全体をご覧いただければ幸いです。講師からのフィードバックも添えてお伝えしますので、よろしくお願いします!割り当ては数学者/統計学者にとって非常に簡単であり、そこには2つの質問しかありません。私がやっていることを知っていることを実証しようとしたところ、パディングでいっぱいになりました。ほとんどはスキップできます。

これが、私が成功しなかった割り当てを含むPDFファイルへのリンクです。statisticsassignment.pdf

講師のフィードバック

図1は逐次相関を示しています。これが線形回帰が機能しない本当の理由です。フィッシャーのテストもカイ二乗も、2x2テーブルには適していません。これは、均一性をテストしたいが、独立性がないためnullを拒否しているためです(これは興味深いことではありません)。この2つの違いはここでは関係ありません(どちらの場合も漸近的に同一です)。時間の関数としてオッズ比をプロットすることもできます。


自習タグを追加できます
tomka '11

3
@tomka この場合の自習タグに同意できないので削除しました。この質問は実際のデータを扱い、単なる日常的な教科書の状況ではなく、真の問題に関係しています。自習タグの基準は、質問が教室での作業に由来するかどうかではなく、質問自体の性質に関係しています。詳細またはこれについては、メタスレッドmeta.stats.stackexchange.com/questions/1904およびmeta.stats.stackexchange.com/questions/1172にアクセスしてください。
whuber

1
これらの雇用数は国勢調査または加重調査ファイル(つまり、サンプル)に基づいていますか?
確率論的

@tomkaとwhuber、私は実際には気にしませんが、それがあなたの意味するところであれば、これは典型的な宿題ではありません。データを収集して分析することだけが指示だったという意味で、学位論文になる可能性もあります。
Th334、2014年

@probabilityislogic、良い点、それは国勢調査(小さな国)です。データへのアプローチ方法に影響しますか?
Th334 2014年

回答:


2

いくつかの即時応答:

1)講師は、データが自己相関を示すことを意味します。これにより、単純な線形回帰では、回帰係数の推定が非効率になります。コースでカバーされたかどうかによって、それは間違いです。

2)多分私は問題を完全に理解していませんが、独立性のカイ2乗検定IMAOは、他の2つの問題を除いて、ここで正しく使用されています。

3)標本サイズのため、カイ2乗検定は非常に強力です。影響が非常に小さくても、それほど重要ではありません。さらに、人口調査が行われているようです。この状況では、すべての母集団を監視するため、統計的推論は不要です。しかし、それは講師が言うことではありません。

4)複数の時点にわたってデータを集計しているようです。実際には時間ポイントごとに1回テストする必要があります。それ以外の場合は、時間の経過に伴う影響を集計するためです(ユニットを複数回カウントします)。しかし、それは講師が言うことでもありません。

講師は実際に、均質性のヌルをテストしたいと言っています。ここで、独立性のヌルをテストします。それで彼は同質性によって何を意味しますか?

私は彼がペアのテストデータの限界均一性のテストに言及していると思います。このテストは、時間の経過とともに変化が​​あったかどうかを評価するために使用されます(反復測定)。ただし、これは最初に評価したいものではありません。私の推測では、彼はあなたが時点xでの性別と雇用が関連しているかどうかをテストしたいのか理解していなかったのでしょう。おそらく彼はまた、テストする必要があるのは時間の経過に伴う変化(または変化なし)であることを提案しようとしました。


1)自己相関とは何か、そしてそれがどのようにバイアスにつながるかについての簡単な説明(またはリンク)を入手できますか?3)国勢調査のため、ここで統計的検定は不適切ですか?では、どうすれば私の質問に答えることができますか?4)何のテストについて話していますか:回帰またはカイ二乗?後者では、最後のデータポイントのみ、つまり最新の国勢調査に焦点を当てました。
Th334、2014年

@ヘルマン1)私は間違いを犯しました:回帰パラメーターは非効率的です。つまり、OLS推定量はもはや最良の推定量ではありません。つまり、その分散は非常に大きく、誤った重要でないテストにつながる可能性があります。多分これはいくつかの詳細の開始です:stats.stackexchange.com/questions/19321/…3)はい、すべての母集団単位を観察する場合、サンプリングエラーなしで観察する母集団パラメーターについて推論する必要はありません4)Chi-二乗。その場合、コメント4は適用されません。
tomka 2014年

1

それは非常に不透明なフィードバックです-「今回はうまくいかなかった-次回はもっと頑張ってください」と言っているように聞こえます。それを理解する唯一の方法は、勇気を出し、講師に会議について尋ねて、さらに議論することです。

あなたの講師はあなたの研究質問の選択に失望しているように思われますか?「自動・逐次・相関」「時系列」「季節効果・調整」「景気循環」「トレンド」といった「流行語」を探していたのではないでしょうか。割り当てを行うときにあなたが何を知っていると期待されていたかはわかりません。

とにかく、これが私の考えです。

割り当ては統計的検定を実行する優れた能力を示していますが、データ分析の観点からは、奇妙な例の選択を示しています。分析はストーリーを伝えることに関するものでなければなりません。個人的には、男性と女性のどちらを採用するかというテーマが好きでした。ただし、「今度は性別の違いはあるのか」という簡単な質問なので、「2番目の例」を最初に置いたでしょう。「」のように明確に違いがあることを示した後、「時間の経過とともに一貫した性差があったか?」というより複雑な質問に進むことができたでしょう。もちろん、この質問の範囲を超えている可能性があります正式な方法で回答するための「統計ツールボックス」。これを線形回帰で行う方法の1つは、男性と女性の雇用と非雇用のオッズ(またはこれがより適切であれば対数オッズ)をモデル化することです。次に、の単純なolsモデルを持っている

yi=β0+β1xi+ei

ここで、は「雇用」/「非雇用」の比率であり、は比率が男性の場合は1、それ以外の場合はゼロに等しいダミー変数であり、は残差です。次に、かどうかをテストし。さらにモデルを使用して、時間共変量と時間と性別の相互作用を含めることができます。これはすべて、分析作業をストーリーとして構築することの一部です(いわば「プロットは厚くなる」)。もちろん、これは重回帰について知っているかどうかに依存します(これはコースの内容の外にある場合があります)。X 、I E I β 1 = 0yixieiβ1=0

私はその最初の例をまったく使用しなかったでしょう、もちろん線形回帰は不適切でした。講師は(おそらく)線形回帰の適切な使用例を見たいと考えています。もちろん、上記で挙げたolsの例も適切でない場合があります。これはモデルの評価に依存します。


@probabilityslogic、私が知っていたはずのことをお伝えします。私の2つの異なる統計コースを組み合わせて、次のようなさまざまな詳細度でカバーしました:二項(多)正規分布、正規分布、t.test、anova、カイ2乗/フィッシャーの正確、線形/ロジスティック回帰、幾何幾何分布、ベイズの定理、ベータ分布。それでおしまい。選択した質問を処理するために使用したよりも優れたツールがありましたか?
Th334、2014年

@probabilityslogic、私は「男性と女性の雇用と非雇用のオッズをモデル化する線形回帰」を行う方法をよく理解していません。私のデータからの数字を使用してそれを説明するか、Rイディオムを表示するか、可能であれば読むべきものにリンクするか、または新しい質問をすることを提案してください。理論的な方程式がすべてである限り、私はあなたの例でベータ0が切片、ベータ1が勾配、xがデータ、そしてeがエラーであることを理解しています...これは何も理解していないと言うのと同じです。なんて大げさな、ごめんなさい。
Th334、2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.