回答:
それ自体はパラドックスではありませんが、少なくとも最初は不可解なコメントです。
第二次世界大戦中、アブラハムウォルドは米国政府の統計学者でした。彼は任務から戻った爆撃機を見て、飛行機の弾丸の「傷」のパターンを分析しました。彼は、海軍が飛行機に損傷がなかったエリアを強化することを勧めました。
どうして?職場では選択効果があります。このサンプルは、観察された領域に与えられた損傷に耐えることができることを示唆しています。どちらの飛行機も手つかずの領域で命中することはなく、ありそうもない命題であったか、それらの部分への攻撃は致命的でした。戻ってきた飛行機だけでなく、下がった飛行機も気にかけます。倒れた人々は、生き残った人々に触れられていない場所で攻撃を受けた可能性が高い。
彼のオリジナルのメモのコピーについては、こちらを参照してください。最新のアプリケーションについては、このScientific Americanのブログ投稿を参照してください。
このブログ記事によると、第一次世界大戦中にテーマを拡張して、ブリキのヘルメットの導入により、標準的な布製の帽子よりも多くの頭の傷ができました。新しいヘルメットは兵士にとってより悪いものでしたか?番号; 負傷者は多かったが、死亡者は少なかった。
もう1つの例は、生態学的な誤acyです。
例では
、我々は(千)状態の平均的な収入に当時のオバマ上院議員のための投票のシェアを回帰することにより、議決権と所得の関係を探しているとします。切片は約20、勾配係数は0.61になります。
多くの人は、この結果を、所得の高い人ほど民主党に投票する可能性が高いと言っていると解釈します。確かに、人気のある新聞はこの議論をしました。
しかし、ちょっと待ってください。金持ちは共和党員である可能性が高いと思いましたか?彼らです。
このリグレッションが私たちに本当に伝えていることは、豊かな州が民主党に投票する可能性が高く、貧しい州が共和党に投票する可能性が高いということです。特定の州内では、金持ちは共和党に投票する可能性が高く、貧しい人は民主党に投票する可能性が高くなります。Andrew Gelmanと彼の共著者の作品をご覧ください。
さらに仮定がなければ、グループレベル(集計)データを使用して、個人レベルの動作に関する推論を行うことはできません。これは生態学的な誤acyです。グループレベルのデータは、グループレベルの動作についてのみ伝えることができます。
個人レベルの推論に飛躍するには、恒常性の仮定が必要です。ここで、個人の投票の選択は、州の収入の中央値によって体系的に変化することはほとんどありません。裕福な州で$ X を稼ぐ人は、貧しい州で$ X を稼ぐ人と同じくらい民主党員に投票する可能性があります。しかし、コネチカット州の人々は、すべての収入レベルで、ミシシッピ州の同じ収入レベルの人々よりも民主党に投票する可能性が高いです。したがって、一貫性の仮定に違反し、間違った結論に導かれます(集約バイアスにだまされます)。
この話題は故デビッドフリードマンの頻繁な趣味でした; たとえば、このペーパーを参照してください。その論文では、Freedmanはグループデータを使用して個人レベルの確率を制限する手段を提供します。
シンプソンのパラドックスとの比較
このCWの他の箇所では、@ Michelleはシンプソンのパラドックスを実際の良い例として提案しています。シンプソンのパラドックスと生態学的誤fallは密接に関連していますが、はっきりしています。2つの例は、与えられたデータと使用された分析の性質が異なります。
シンプソンのパラドックスの標準定式化は、双方向表です。ここの例では、個人データがあり、各個人を高所得または低所得に分類するとします。合計の投票ごとの2x2分割表を取得します。低所得者の割合と比較して、高所得者の割合が民主党に投票した方が高いことがわかります。各状態の分割表を作成する場合、逆のパターンが表示されます。
生態学的な誤acyでは、収入を二分(または多分)変数に崩壊させません。州レベルを取得するには、州の平均収入(または中央値)と州の投票シェアを取得し、回帰を実行して、所得の高い州が民主党に投票する可能性が高いことを確認します。個人レベルのデータを保持し、状態ごとに個別に回帰を実行すると、逆の効果が得られます。
要約すると、違いは次のとおりです。
一般的な観察
@NeilGは、これは単に、回帰における観測不可能な変数または省略された変数バイアスの問題を選択できないと言っているように見えるとコメントしています。そのとおり!少なくとも回帰の文脈では、ほぼすべての「パラドックス」は、省略された変数バイアスの特殊なケースにすぎないと思います。
選択バイアス(このCWに関する他の応答を参照)は、選択を駆動する変数を含めることで制御できます。もちろん、これらの変数は通常観察されず、問題/パラドックスを引き起こします。スプリアス回帰(他の応答)は、時間傾向を追加することで克服できます。これらのケースは、本質的に、十分なデータはあるが、より多くの予測子が必要であると言います。
生態学的な誤acyの場合、それは本当です、より多くの予測子が必要です(ここでは、状態固有の勾配と切片)。ただし、これらの関係を推定するには、グループレベルではなく個別レベルの観測値も必要です。
(ちなみに、私が提供する第二次世界大戦の例のように、選択変数が治療と制御を完全に分割する極端な選択がある場合、回帰を推定するためにより多くのデータが必要になる場合があります。
私の貢献はシンプソンのパラドックスです:
調査結果が人々を平易な英語で横たわらせる方法である理由を説明するのは本当に難しい場合があります。
tl; drバージョンのパラドックス:結果の統計的有意性は、データの分割方法によって異なるように見えます。原因はしばしば交絡変数によるものと思われます。
パラドックスの別の良い概要はこちらです。
統計にはパラドックスはなく、解決されるのを待っているパズルだけです。
それにもかかわらず、私のお気に入りは2つの封筒「パラドックス」です。私はあなたの前に2つの封筒を置き、1つが他のものの2倍のお金を含んでいると言ったと仮定します(しかしどちらはどちらではありません)。次のように推論します。左エンベロープが含まれているとし、次いで、50%の確率で正しいエンベロープに含まれる、50%の確率でそれが含むの期待値は、。しかし、もちろん、エンベロープを単純に反転して、代わりに左エンベロープに右エンベロープの値の倍の値をことができます。どうした?2 x 0.5 x 1.25 x 1.25
これは最近の発明です。過去10年間で、哲学ジャーナルの小さなセット内で頻繁に議論されました。2つの非常に異なる答え(「Halfers」と「Thirders」)に対する堅実な支持者がいます。それは信念、確率、および条件付けの性質についての質問を提起し、人々を量子力学的な「多くの世界」解釈(他の奇妙なことの中でも)を引き起こさせました。
ウィキペディアの声明は次のとおりです。
眠れる森の美女ボランティアは、次の実験を経験し、次のすべての詳細を伝えられます。日曜日に彼女は眠りにつく。次に、公正なコインを投げて、どの実験手順を実施するかを決定します。コインが頭に浮かんだら、月曜日にビューティーが目覚め、インタビューを受け、実験が終了します。コインが尾を引くと、彼女は月曜日と火曜日に目覚め、インタビューを受けます。しかし、彼女が月曜日に再び眠りにつくとき、彼女は彼女の以前の目覚めを思い出すことができないことを保証する記憶喪失誘発薬の投与量を与えられます。この場合、火曜日にインタビューを受けた後、実験は終了します。
眠れる森の美女が目覚め、インタビューを受けたときはいつでも、彼女は尋ねられます、「コインが上陸したという命題に対するあなたの信用は今何ですか?」
サードポジションは、SBが「1/3」(これは単純なベイズの定理計算です)に応答することであり、ハーフマーポジションは「1/2」と言う必要があることです(明らかに、公正なコインの正しい確率だからです! )。私見、全体の議論は確率の限られた理解にかかっていますが、それは明らかなパラドックスを探求する全体のポイントではありませんか?
(Project Gutenbergのイラスト。)
これはパラドックスを解決しようとする場所ではありませんが、それらを述べることだけを目的としていますが、私は人々をぶら下げたままにしたくないし、このページのほとんどの読者は哲学的説明を歩き回ることを望まないでしょう ET Jaynesからヒントを得ることができます。ETJaynesは、「人間の常識の数学モデルを構築するにはどうすればよいか」という質問に取って代わることができます。理想的な常識を表現する明確に定義された原則に従って、どれが有用なもっともらしい推論を実行しますか?」クローンできます実験の火曜日の部分にこのロボット(架空の記憶処理薬を投与する代わりに)を使用して、明確に分析できるSBセットアップの明確なモデルを作成します。統計的決定理論を使用してこれを標準的な方法でモデル化すると、ここで2つの質問が実際にあることがわかります(公正なコインが頭に着く可能性はどれくらいですか?また、コインが頭に着く可能性は何ですか?誰が目覚めたクローン?)。答えは、1/2(最初の場合)または1/3(2番目の場合、ベイズの定理を使用)です。このソリューションには量子力学的原理は含まれていませんでした:-)。
Arntzenius、フランク(2002)。 眠れる森の美女への反省。分析62.1 pp 53-62。エルガ、アダム(2000)。自己発見の信念と眠れる森の美女の問題。分析60 pp 143-7。
フランチェスキ、ポール(2005)。 眠れる森の美女と世界縮小の問題。プレプリント。
グロイスマン、ベリー(2007)。 眠れる森の美女の悪夢の終わり。
ルイス、D(2001)。 眠れる森の美女:Elgaへの返信。分析61.3 pp 171-6。
パピノー、デビッド、ビクターデュラビラ(2008)。 サードとエベレッティアン:ルイスの「クォンタムスリーピングビューティー」への返信。
Pust、Joel(2008)。 眠れる森の美女のホーガン。合成160 pp 97-101。
Vineberg、スーザン(未定、おそらく2003)。 美の注意書き。
すべてはWeb上で見つけることができます(少なくとも数年前に見つかりました)。
サンクトペテルブルグのパラドックスあなたがの概念と意味で異なると思わせる、期待値。直感(主に統計のバックグラウンドを持つ人々向け)と計算によって異なる結果が得られます。
ジェフリーズ・リンドレーのパラドックスいくつかの状況下では仮説検証のfrequentistとベイズ法をデフォルトことを示し、完全に矛盾した答えを与えることができます。ユーザーは、これらの形式のテストが何を意味するのかを正確に考え、それが本当に必要なものかどうかを検討する必要があります。最近の例については、この説明を参照してください。
有名な二人の女の子の誤fallがあります:
子供が2人いる家族で、子供の1人が女の子の場合、両方の子供が女の子である可能性はどのくらいですか?
ほとんどの人は直感的に言っています1/2
が、答えはそう1/3
です。問題は、基本的に、「1人の兄弟姉妹を持つすべての女の子から」1人の女の子をランダムに選択することは、「2人の子供と少なくとも1人の女の子を持つすべての家族から1人の家族」を均一に選択することと同じではないことです。
これは、理解すれば直観に合致するほど簡単ですが、理解するのがより難しい複雑なバージョンがあります。
子供が2人いる家族で、子供の1人が火曜日に生まれた男の子である場合、両方の子供が男の子である可能性は何ですか? (回答:13/27)
子供が2人いる家族で、子供の1人がフロリダという名前の女の子である場合、両方の子供が女の子である可能性はどのくらいですか?(回答:「フロリダ」が非常にまれな名前であると仮定して、1/2に非常に近い)
これらのパズルのすべてに関する詳細は、この回答に記載されています。
(また、火曜日に生まれた男の子に関する詳細情報、フロリダという名前の女の子に関する詳細情報)
1/3
ませ2/3
んか?そのうち1つのみGB, BG, GG
申し訳ありませんが、私は自分自身を助けることができません(私も統計的なパラドックスが大好きです!)
繰り返しますが、逆説自体ではなく、省略された変数バイアスの別の例です。
偽の因果関係/回帰
時間傾向のある変数は、時間傾向のある別の変数と相関します。たとえば、出生から27歳までの私の体重は、出生から27歳までのあなたの体重と高い相関があります。明らかに、私の体重はあなたの体重が原因ではありません。もしそうなら、もっと頻繁にジムに行くようお願いします。
省略された変数の説明は次のとおりです。私の体重を、あなたの体重をとします。ここで、
次に、回帰 は、含まれている変数と相関する変数が省略されています。したがって、係数はバイアスされます(この場合、時間の経過とともに重みが大きくなるため、正になります)。X T γ 1
時系列分析を実行する場合、変数が定常的であることを確認する必要があります。そうでない場合、これらの偽の因果結果が得られます。
私のお気に入りの1つは、モンティホールの問題です。 二人とも信じられなかったので、私は乱数をシミュレートし、問題を試しました。驚いたことに、それは真実でした。
基本的に問題は、ゲームショーに3つのドアがあり、その1つが賞品で、残りの2つが何もない場合、ドアを選択し、残りの2つのドアのうちの1つが賞品ドアではなかった場合選択した場合は、現在のドアを残りのドアに切り替える必要があります。
Rシミュレーションへのリンクもここにあります:LINK
パロンドのパラドックス:
ウィキデディアから:「ゲーム理論のパラドックスであるパロンドのパラドックスは、次のように説明されています。負けた戦略の組み合わせが勝ち戦略になります。 :
ゲームのペアが存在し、それぞれが勝つよりも負けの確率が高く、ゲームを交互にプレイすることで勝ち戦略を構築することが可能です。
パロンドは、物理学者のリチャード・ファインマンが普及させたランダムな熱運動からエネルギーを引き出すことができる機械についての思考実験であるブラウンラチェットの分析に関連して、パラドックスを考案しました。しかし、厳密に分析するとパラドックスは消えます。」
パラドックスが経済的な群衆に聞こえるかもしれませんが、魅力的なのは、金融の時系列では容易に利用できない要件があります。いくつかのコンポーネント戦略が失われる可能性がありますが、相殺戦略は、ラチェット効果が発動するために、50%をはるかに上回るまたは下回る不平等で安定した確率を必要とします。およびその他、、長期間にわたって。
「アリソン混合」と呼ばれる最近の関連するパラドックスもあります。これは、2つのIIDおよび非相関シリーズを取得し、ランダムにスクランブルして、特定の混合が非ゼロの自己相関を持つ結果シリーズを作成できることを示しています。
ツーチャイルド問題とモンティホール問題が、パラドックスの文脈で頻繁に一緒に言及されるのは興味深いことです。どちらも、1889年に最初に示されたBertrandのBox Paradoxと呼ばれる見かけのパラドックスを示しています。同じ非常に教育された、非常に知的な人々がこのパラドックスに関して反対の方法でそれらの2つの問題に答えるので、私はそれを最も興味深い「パラドックス」と見つけます。また、ブリッジのようなカードゲームで使用されている制限付き選択の原則として知られる原則と比較され、その解決策はタイムテストされています。
ランダムに選択したアイテムがあり、これを「ボックス」と呼びます。可能なすべてのボックスには、2つの対称プロパティのうち少なくとも1つがありますが、一部には両方があります。プロパティを「ゴールド」と「シルバー」と呼びます。箱が金だけである確率はPです。また、プロパティは対称であるため、Pは箱が単なる銀である確率でもあります。これにより、ボックスに1つのプロパティ2Pのみが含まれる確率と、1〜2Pの両方に含まれる確率が決まります。
箱が金であると言われても、それが銀であるかどうかではない場合、金だけである可能性はP /(P +(1-2P))= P /(1-P)であると言いたくなるかもしれません。しかし、それはあなたがそれが銀だと言われたなら、あなたは1色の箱のために同じ確率を述べなければならないでしょう。そして、この確率が1色だけと言われたときにP /(1-P)である場合、色を言わなくてもP /(1-P)でなければなりません。それでも、最後の段落からは2Pであることがわかります。
この見かけ上のパラドックスは、ボックスの色が1つだけの場合、どの色が表示されるかについてあいまいさがないことに注意して解決します。ただし、2つある場合は、暗黙の選択肢があります。質問に答えるためには、その選択がどのように行われたかを知る必要があり、それが見かけのパラドックスの根本です。指示がない場合は、色がランダムに選択されたと仮定して、答えをP /(P +(1-2P)/ 2)= 2Pにすることができます。P /(1-P)が答えであると主張する場合、それが唯一の色でない限り、他の色が言及される可能性はないということを暗黙のうちに仮定しています。
モンティホール問題では、色の類推はあまり直感的ではありませんが、P = 1/3です。もともとにも同様にそうされている2つの未開封のドアに基づいて回答してい賞は、彼が選択した場合でも、モンティ・ホールは、彼がした扉を開くために必要とされたと仮定しています。その答えはP /(1-P)= 1/2です。彼がランダムに選択できるようにする答えは、スイッチングが勝つ確率のために2P = 2/3です。
Two Child Problemでは、私の例えの色は性別と非常によく似ています。4つの場合、P = 1/4。質問に答えるには、家族の中に女の子がいたとどのように判断されたかを知る必要があります。その方法で家族の男の子について学ぶことができた場合、答えはP /(1-P)= 1/3ではなく2P = 1/2です。フロリダという名前、または「火曜日に生まれた」という名前を考えると、もう少し複雑ですが、結果は同じです。選択肢があった場合の答えは正確に1/2であり、問題のほとんどの記述はそのような選択肢を意味します。そして、1/3から13/27に、または1/3から「ほぼ1/2」に「変わる」理由は、逆説的で直感的ではないように思われます。
制限付き選択の原則では、同じスーツのジャック、クイーン、キングなど、同等のカードのセットが不足していると言います。特定のカードが特定の対戦相手に属している場合でも、チャンスが始まります。しかし、対戦相手が1つをプレイした後、他のプレイヤーがいれば、そのカードをプレイできた可能性があるため、他のプレイヤーがいる可能性は減少します。
私は次が好きです:ホストは、未知の分布を使用して、2つの数値個別に選択しています。分布についてプレイヤーに知られている唯一のものは、です。次に、プレーヤーには数字表示され、またはかどうかを推測するように求められます。明らかに、プレイヤーが常に推測する場合、プレイヤーは確率で正しいでしょう。しかし、少なくとも驚くべきことに、逆説的でないとしても、プレイヤーはその戦略を改善することができます。私は問題へのリンクを持っていないのではないかと心配しています(何年も前にワークショップで聞いたことがあります)。X 、Yの∈ [ 0 、1 ] P (X = Y )= 0 のX 、Y > X 、Y < X 、Y > X 0.5
生態学的な誤simplified(ここでは豊かな州/貧しい州の投票パラドックス)の簡略化されたグラフィカルな図解が、州の人口を集計するときに投票パターンの逆転を見る理由を直感的なレベルで理解するのに役立ちます:
ある王国の王室の出生に関するデータを取得したとします。家系図では、それぞれの誕生が記録されました。この家族に特有なのは、最初の男の子が生まれてからもう子どもがいなくなって初めて両親が赤ちゃんを産もうとしているということです。
したがって、データは次のようになる可能性があります。
G G B
B
G G B
G B
G G G G G G G G G B
etc.
このサンプルの男の子と女の子の割合は、男の子を産む一般的な確率を反映していますか(0.5など)。答えと説明はこのスレッドにあります。
これは再びシンプソンのパラドックスですが、「後方」と「前方」は、Judea Pearlの新しい本「Causal Inference in Statistics:A primer [^ 1]」から来ています。
古典的なSimponのParadoxは次のように機能します。2人の医師から選択することを検討してください。最良の結果が得られるものを自動的に選択します。しかし、最良の結果をもたらすものが最も簡単なケースを選択すると仮定します。相手の貧弱な記録は、トリッキーな仕事の結果です。
今、あなたは誰を選びますか?難易度によって層別化された結果を見てから決定する方が良い。
コインにはもう1つの側面があり(別のパラドックス)、層別化された結果は間違った選択につながる可能性があると述べています。
今回は、薬物を使用するかどうかを選択することを検討してください。この薬には毒性の副作用がありますが、治療作用のメカニズムは血圧を下げることです。全体として、この薬は人口の結果を改善しますが、治療後の血圧を層別化すると、低血圧グループと高血圧グループの両方で結果が悪化します。どうしてこれが本当ですか?なぜなら、我々は結果について意図せずに層別化しており、各結果の中で観察すべき残っているのは毒性副作用のみだからです。
明確にするために、薬が傷ついた心を固定するように設計されていると想像してください。血圧を下げることでこれを行い、血圧を階層化する代わりに、固定された心臓を階層化します。薬が効くと、心臓は固定されます(そして血圧は低くなります)が、一部の患者は毒性の副作用もあります。薬が効くため、「固定心臓」グループには、「壊れた」心臓グループに薬を服用している患者よりも、薬を服用した患者が多くなります。薬を服用している患者が増えると、副作用を起こす患者が増え、薬を服用しなかった患者の結果が明らかに(しかし誤って)改善されます。
薬を服用せずに良くなる患者は幸運です。薬を服用して改善した患者は、薬を改善するのに必要な人と、とにかく幸運だった人の混合です。「心が固定された」患者のみを検査するということは、薬物を服用していた場合に固定されていた患者を除外することを意味します。このような患者を除外するから害を除く意味取っていない順番に、我々は唯一の害を参照してください意味の薬剤服用薬を。
シンプソンのパラドックスは、主治医がトリッキーなケースのみを行うなど、治療以外の結果の原因がある場合に発生します。一般的な原因(トリッキーなケースと簡単なケース)を制御することで、真の効果を確認できます。後者の例では、原因ではなく結果を意図せずに階層化しているため、真の答えは階層化されたデータではなく集計にあります。
[^ 1]:Pearl J.統計における因果推論。ジョン・ワイリー&サンズ; 2016年
私の「お気に入り」の1つ、つまり多くの研究の解釈(そしてメディアだけでなく著者自身による解釈)に夢中になるのは、サバイバーシップバイアスです。
それを想像する一つの方法は、被験者に非常に有害な何らかの影響があり、そのため、被験者を殺す可能性が非常に高いと仮定することです。被験者が研究の前にこの効果にさらされた場合、研究が始まるまでに、まだ生きている暴露された被験者は異常に回復力がある可能性が非常に高くなります。職場での文字通り自然な選択。これが発生すると、研究では、(すべての不健康なものはすでに死亡したり影響にさらされて停止することを確認しましたので)暴露被験者が異常に健康であることを確認します.Thisは、多くの場合、露出が実際にあることを意味していると誤解されて良いの被験者について。これは、切り捨てを無視した結果です (すなわち、死亡して研究に参加しなかった被験者を無視する)。
同様に、研究中に影響にさらされるのをやめる被験者は、信じられないほど不健康なことがよくあります。これは、継続的な暴露がおそらく彼らを殺すことに気付いたからです。しかし、この研究では、やめた人は非常に不健康であることがわかりました。
第二次世界大戦の爆撃機に関する@Charlieの答えは、この例と考えることができますが、現代の例もたくさんあります。最近の例は、1日 8杯以上のコーヒーを飲むことを報告している研究です(!!)は、55歳以上の被験者の心臓の健康状態がはるかに高いことと関連しています。博士号を持つ多くの人々は、これを「コーヒーを飲むことはあなたの心に良い!」と解釈しました、研究の著者を含みます。私はこれを読みました、あなたが55歳の後にまだ1日8杯のコーヒーを飲んでいて、心臓発作を起こさないためにあなたが信じられないほど健康な心臓を持たなければならないので。たとえそれがあなたを殺さないとしても、あなたの健康について何かが心配に見える瞬間、あなたを愛している誰もが(そしてあなたの医者も)すぐにあなたがコーヒーを飲むのをやめることを勧めます。さらなる研究により、若いグループではあまりコーヒーを飲むと有益な効果は得られないことがわかりました。それでも、多くの博士号が走り回っていて、「
NewcombeのParadoxについてはまだ誰も言及していないことに驚いていますが、意思決定理論でより詳しく議論されています。それは間違いなく私のお気に入りの一つです。