統計とビッグデータ simpsons-paradox

5

シンプソンのパラドックスは、世界中の導入統計コースで議論されている古典的なパズルです。しかし、私のコースは、問題が存在し、解決策を提供しなかったことに単に注目することに満足しました。パラドックスを解決する方法を知りたいです。つまり、シンプソンのパラドックスに直面したとき、データの分割方法に応じて2つの異なる選択肢が最良の選択肢になるために競合するように見える場合、どちらを選択する必要がありますか？問題を具体的にするために、関連するウィキペディアの記事に記載されている最初の例を考えてみましょう。これは、腎臓結石の治療に関する実際の研究に基づいています。私が医者であり、検査で患者に腎臓結石があることが明らかになったとします。表に記載されている情報のみを使用して、処理Aと処理Bのどちらを採用すべきかを判断したいと思います。石のサイズがわかっている場合は、処理Aを優先する必要があります。治療Bを好むべきです。しかし、答えに到達する別のもっともらしい方法を考えてください。石が大きい場合はAを選択し、小さい場合は再度Aを選択する必要があります。そのため、石のサイズがわからない場合でも、ケースの方法により、Aを優先する必要があることがわかります。これは、以前の推論と矛盾しています。だから：患者が私のオフィスに入ってきます。テストでは、腎臓結石があることがわかりますが、サイズについての情報は提供されません。どの治療をお勧めしますか？この問題の受け入れられた解決策はありますか？ウィキペディアは、「因果ベイジアンネットワーク」と「バックドア」テストを使用した解決策を示唆していますが、これらが何であるかはわかりません。

35 simpsons-paradox

3

どの病院を選択すべきですか？1つは成功率が高いが、もう1つは全体的な成功率が高い

統計の先生が次の問題について言ったことについて質問があります。私の質問は、この状況でのシンプソンのパラドックスの発生についてでさえありません。私の質問は、A）とF）ではなくA）とD）が正しい答えであるという私の教授の主張についてです。彼は言った：「タイプE手術の成功率は非常に低いため、それらは困難であり、珍しいことではないと結論付けることができます。したがって、MercyはHopeと比較してより良い機器/医師を持っていると思われます。」私は、マーシーが「より困難な手術」を行っていることを彼がどのように統計的に推測できるのか理解していない。マーシーは、タイプEの手術で明らかに成功率が高いのですが、なぜこれが「より困難な手術」を意味するのでしょうか。私はこの問題の言葉遣いにうんざりしていると思いますが、教授は困惑していません。なぜ私が間違っているのか、どのようにこれを教授に説明できるのかを誰かが説明できますか？町にはMercyとHopeという2つの病院があります。操作を行うには、これらのいずれかを選択する必要があります。手術チームの成功に基づいて決定を下すことにします。幸いなことに、新しい医療計画の下で、病院は手術の成功に関するデータを提供し、5つの広範な手術カテゴリーに分類されています。2つの病院について次のデータを取得するとします。 Mercy Hospital Type A B C D E All Operations 359 1836 299 2086 149 4729 Successful 292 1449 179 434 13 2366 Hope Hospital Type A B C D E All Operations 88 514 222 86 45 955 Successful 70 391 113 12 2 588 …

27 self-study confounding simpsons-paradox

3

シンプソンのパラドックスを理解する：性別と身長で収入が減少するアンドリュー・ゲルマンの例

Andrew Gelmanは最近のブログ投稿の1つで次のように述べています。私はシンプソンのパラドックスに反事実または潜在的な結果が必要だとは思わない。シンプソンのパラドックスを、操作できない変数で設定したり、操作に直接興味がない変数で設定したりできるためです。シンプソンのパラドックスは、より多くの予測変数を追加すると回帰係数が変化するというより一般的な問題の一部であり、符号の反転は実際には必要ありません。以下は、両方のポイントを説明する私の指導で使用する例です。性別と身長から収入を予測する回帰を実行できます。性別の係数は10,000 ドル（つまり、同じ高さの男性と女性を比較すると、平均して男性は10,000 ドル多くなります）、高さの係数は500 ドル（つまり、2人の男性または2人の女性を比較）身長が異なる場合、平均して背の高い人は身長1インチあたり500 ドル多くなります）。これらのcoefをどのように解釈できますか？私は確かにそれは高さに退行に何らかの形で「間違っている」と思われる、（それは高さの異なる同性の2人を比較すると想像するのは簡単です）高のCOEFが解釈しやすいと感じずに生の限り、セックスのための制御します背の低い人と背の高い人の違いは、男性と女性の違いであることによって「説明」できます。しかし、上記のモデルの性別を解釈するのは非常に難しいようです。たとえば、両方の身長が66インチの男性と女性を比較するのはなぜでしょうか。これは、背の低い男性と背の高い女性の比較になります。この推論はすべて漠然と因果関係にあるように見えますが、潜在的な結果を使用してそれを考えることは理にかなっていないと思います。私はそれについて熟考し（そして投稿にコメントしさえしました）、ここでより明確に理解されるように懇願する何かがあると思います。性別の解釈に関する部分までは大丈夫です。しかし、私は背の低い男性と背の高い女性を比較することの背後にある問題が何であるかわかりません。私のポイントは次のとおりです。実際、それはさらに意味があります（男性は平均して背が高いと仮定すると）。収入の違いは高さの違いによって何らかの部分で説明されるというまったく同じ理由で、「背の低い男性」と「背の低い女性」を比較することはできません。同じことは背の高い男性と背の高い女性にも当てはまり、さらに背の低い女性と背の高い男性にも言えます（いわば、それはさらに問題外です）。したがって、基本的に身長の影響は、背の低い男性と背の高い女性を比較する場合にのみ排除されます（これは、性別の係数の解釈に役立ちます）。人気のマッチングモデルの背後にある同様の基礎概念に鐘を鳴らしていませんか？シンプソンのパラドックスの背後にある考え方は、人口効果がサブグループごとの効果とは異なる可能性があるということです。これはある意味で彼のポイント2と、高さを単独で制御すべきではないことを認めているという事実に関連しています（変数バイアスの省略）。しかし、私はこれを性別の係数に関する論争と関連付けることはできませんでした。それをもっとはっきりと表現できるかもしれませんか？または私の理解についてコメントしますか？

22 regression interaction simpsons-paradox

2

シンプソンのパラドックスについて、分割表ではなく方程式で説明してください。

私はおそらくシンプソンのパラドックスを明確に理解していないでしょう。非公式には、因子Aのすべてのレベルでグループ化された応答Y1の平均は、Aの各レベル（各グループ）のY1の平均が次の場合でも、Aのすべてのレベルでの応答Y2の平均よりも高くなることがありますY2の対応する平均より常に小さい。私は例を読んでいますが、それを見るたびに驚きます。特定の例でよく学んでいないからかもしれません。それらを一般化するのに苦労しています。私は最もよく学び、数式の説明を見たいと思います。テーブルをカウントするのではなく、方程式に依存するパラドックスを説明していただけますか？また、私が驚いた理由は、パラドックスに関係する平均について無意識に仮定を立てることができたからだと思います。各グループのサンプル数で重み付けするのを忘れるかもしれませんか？しかし、その後、私は各グループの平均を各グループのサンプル数で重み付けすると、（これが真実であれば）明らかではないため、合計平均の推定値がより正確であることを示す式を見たいと思います一般的に私に。単純に、重みに関係なく、サンプルが多いほどの推定値のE [ Y1]E[Y1]\mathbf{E}[Y_1]標準誤差は低くなると思います。

14 mathematical-statistics simpsons-paradox

2

シンプソンのパラドックスは、隠し変数からの反転のすべてのインスタンスをカバーしていますか？

以下は、シンプソンのパラドックスの存在の「証明」として提供されている多くの視覚化についての質問であり、用語についての質問かもしれません。シンプソンのパラドックスは説明すると、（理由の数値例を与えるためにかなり単純な現象であり、なぜこの現象が発生することができますが深いと面白いですが）。パラドックスは、2x2x2の分割表（Agresti、Categorical Data Analysis）が存在し、マージナルアソシエーションが各条件付きアソシエーションとは異なる方向にあることです。つまり、2つの部分母集団の比率の比較はどちらも一方向に進むことができますが、組み合わせた母集団の比較は他の方向に進みます。シンボル：存在、B 、C 、D 、E 、F 、Gは、Hよう +のBa 、b 、c 、d、e 、f、g、ha,b,c,d,e,f,g,ha,b,c,d,e,f,g,ha + bc + d> e + fg+ ha+bc+d>e+fg+h \frac{a+b}{c+d} > \frac{e+f}{g+h} しかしとac< egac<eg \frac{a}{c} < \frac{e}{g} bd< fhbd<fh \frac{b}{d} < \frac{f}{h} これは、次の視覚化で正確に表現されています（Wikipediaから）：分数は単に対応するベクトルの勾配であり、短いBベクトルは対応するLベクトルよりも大きい勾配を持っていますが、結合されたBベクトルは結合されたLベクトルよりも小さい勾配を持っていることが例でわかります。多くの形式で非常に一般的な視覚化があり、特にSimpson'sに関するWikipediaのリファレンスの前に1つあります。これは交絡の良い例であり、（2つのサブ母集団を分離する）非表示変数が異なるパターンを示す方法です。ただし、数学的には、そのような画像は、シンプソンのパラドックスとして知られている現象の基礎となっている分割表の表示にまったく対応していません。まず、回帰直線は実数値のポイントセットデータ上にあり、分割表のカウントデータではありません。また、回帰直線で勾配の任意の関係を持つデータセットを作成することもできますが、分割表では、勾配の違いに制限があります。つまり、母集団の回帰直線は、指定された部分母集団のすべての回帰に直交する可能性があります。しかし、シンプソンズのパラドックスでは、サブグループの比率は、回帰勾配ではありませんが、逆の方向にあったとしても、融合した母集団から遠く離れることはできません（ここでも、ウィキペディアの比率比較画像を参照してください）。私にとっては、シンプソンのパラドックスの視覚化として後者の画像を見るたびに驚かされるのに十分です。しかし、私はどこでも（私が間違っていると思う）例を目にしているので、知りたいと思っています。オリジナルのシンプソン/ユールの分割表の例から、回帰直線の視覚化を正当化する実際の値への微妙な変換が欠けていますか？確かにシンプソンズは交絡エラーの特定のインスタンスです。「シンプソンのパラドックス」という用語は交絡エラーと同等になりました。そのため、どのような計算でも、隠し変数を介した方向の変化はシンプソンのパラドックスと呼ばれますか？補遺：これは、2xmxn（または連続で2 x m）テーブルへの一般化の例です。 …

10 mathematical-statistics data-visualization causality contingency-tables simpsons-paradox

2

余分な変数を調整すると、OLSの推定にバイアスがかかりますか？

OLSの余分な変数を調整するための通常の教科書の扱いでは、推定量はまだ偏っていませんが、分散が大きい可能性があります（たとえば、Greene、Econometric Analysis、第7版、58ページを参照）。先日、Judea Pearlによるシンプソンのパラドックスの扱いと、「制御変数を回帰モデルに段階的に含めることで、すべてのステップで推定因果関係の兆候が切り替わる」ことをシミュレートする素晴らしいWebページを偶然見つけました。私にとって、これは上記のステートメントとはどういうわけか矛盾しています。これは非常に微妙な（非常に重要ですが）問題になる可能性があるので、他の文献へのポインタがあれば非常に役立ちます。特に私を驚かせるものは、グリーンが彼の評価の証拠を持っていると主張していることです。

8 least-squares bias causality simpsons-paradox

タグ付けされた質問 「simpsons-paradox」

タグ付けされた質問「simpsons-paradox」