統計とビッグデータ statistics-in-media

5

この質問の動機付けになった記事は次のとおりです。私はこの記事が好きで、問題の2つの変数間の真の関係を最もよく分離するために、「他の変数の制御」（IQ、キャリア、収入、年齢など）の概念をうまく示しています。典型的なデータセットの変数を実際にどのように制御するか説明していただけますか？たとえば、同じ焦りとBMIを持ち、収入が異なる2人の場合、これらのデータをどのように扱いますか？それらを、同様の収入、忍耐、BMIを持つ異なるサブグループに分類しますか？しかし、最終的に制御する変数（IQ、キャリア、収入、年齢など）は数十個あります。これらの（潜在的に）100のサブグループをどのように集約しますか？実際、私はこのアプローチが間違ったツリーをbarえていると感じています。ここ数年、私が最後までやりたいと思っていたことに光を当ててくれてありがとう...！

141 regression causality confounding controlling-for-a-variable statistics-in-media

3

Apple株価の場合、なぜ多数の法則が適用されないのですか？

こちらはニューヨーク時代の「Appleは多数の法則に立ち向かう」という記事です。多数の法則を使用してAppleの株価の上昇を説明しようとします。この記事ではどのような統計（または数学）エラーが発生しますか？

39 probability central-limit-theorem law-of-large-numbers statistics-in-media

3

ニュースの方程式：マルチレベルモデルを一般ユーザーに翻訳する

New York Timesは、ニューヨーク市の教育者にフィードバックを提供するために使用されている「付加価値」教師評価システムについて長いコメントを持っています。ledeは、スコアの計算に使用される方程式です-コンテキストなしで表示されます。修辞的な戦略は、数学による脅迫のようです。記事の全文は、http：//www.nytimes.com/2011/03/07/education/07winerip.htmlで入手できます。著者のMichael Wineripは、方程式の意味は、マット・デイモン以外の誰もが理解できる能力を超えていると主張している。「Ms. Isaacsonの3.69予測スコアの計算はさらに困難です。32の変数に基づいています。これは、学生が「プレテスト年前に成績を保持した」か、学生が「プレテストまたはポストテスト年。" これらの32個の変数は、「グッドウィルハンティング」ではマットデイモンだけが解くことができる方程式の1つに見える統計モデルにプラグインされます。このプロセスは透明に見えますが、教師、校長、ジャーナリストなどの賢い人々にとっても泥だらけです。アイザックソン氏は2つのアイビーリーグの学位を持っているかもしれませんが、彼女は失われています。「これを理解するのは不可能だと思う」と彼女は言った。平易な英語で、Ms。Isaacsonは、学科が彼女に何を伝えようとしているのかを最もよく推測しています。66人の学生のうち65人が州のテストで得点しましたが、彼女の3人は4人でした。しかし、それは推測に過ぎません。」素人にモデルをどのように説明しますか？参考までに、完全な技術レポートは次の場所にあります。 http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf 更新：Andrew Gelmanはここで彼の考えを提供しています：http : //www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

24 regression multilevel-analysis statistics-in-media

1

NYTimesでの統計的手法の誤用に関する記事

この記事を参照しています：http : //www.nytimes.com/2011/01/11/science/11esp.html 次の実験を検討してください。コインが頭に向かってわずかに重くなっていると信じる理由があると仮定します。テストでは、コインは1,000回のうち527回出てきます。これは、コインが重み付けされているという重要な証拠ですか？古典的な分析はイエスと言います。公正なコインでは、1,000回のフリップで527以上のヘッドを獲得する可能性は、従来のカットオフの20分の1、つまり5パーセント未満です。別の言い方をすれば、この実験では、「95％の信頼度で」重み付きコインの証拠を見つけます。しかし、多くの統計学者はそれを購入しません。20分の1は、1,000スローで526を超える任意の数のヘッドを獲得する確率です。つまり、フリップする確率527、フリップする確率528、529などの合計です。しかし、実験ではその範囲内のすべての数値が見つかりませんでした。このように、これらの専門家によると、コインに重みが付けられている場合、その数字を取得する確率を計算し、コインが同じ場合に同じ数字を取得する確率と比較する方が正確です。公正。統計学者は、心理学者のジェフ・ルーダーとともに例を提供した統計学者のポール・スペックマンによると、この比率は約4対1より高くできないことを示すことができます。最初の質問：これは私にとって新しいことです。誰かが正確な計算を見つけることができるリファレンスを持っていますか、および/またはあなた自身に正確な計算を与えることで私を助けることができますか、および/または同様の例を見つけることができるいくつかの資料を教えてくれますか？ベイズは、新しい証拠が登場すると、仮説の確率を更新する方法を考案しました。そのため、特定の発見の強度を評価する際に、ベイジアン（BAYZ-ee-unと発音）分析では、既知の確率が組み込まれています（利用可能な場合）。「うん、正しい」効果と呼ばれることもあります。キンカンが心臓病のリスクを90％低減すること、治療により1週間でアルコール中毒が治まること、敏感な親が男の子よりも女の子を産む可能性が2倍高いことが研究でわかった場合、ベイジアンの反応はネイティブの懐疑論者：ええ、そうです。この調査結果は、世界で観察可能なものと比較検討されます。医学の少なくとも1つの分野-診断スクリーニングテスト-では、研究者は既知の確率を使用して新しい発見を評価しています。たとえば、新しい嘘発見テストの精度は90％で、10のうそつきのうち9のうそつきに正しくフラグを立てることができます。しかし、10人の嘘つきを含むことが既に知られている100人の人口に与えられた場合、テストはそれほど印象的ではありません。 10のうそつきのうち9を正しく識別し、1つを見逃します。しかし、他の90個のうち9個が嘘であると誤って識別されます。いわゆる真陽性（9）をテストでフラグが立てられた人の総数（18）で割ると、50％の正解率が得られます。「偽陽性」と「偽陰性」は、人口の既知の割合に依存します。 2番目の質問：新しい発見がこの方法で「本当」であるかどうかをどのように正確に判断しますか？そして：これは、事前に設定された事前確率を使用しているため、5％バリアのようにIs意的ではありませんか？

20 hypothesis-testing bayesian statistics-in-media

2

シンプソンズ（TVシリーズ）が、どうして未来を「予測」することに成功しているのでしょうか。[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 The Simpsons（TVシリーズ）が繰り返し未来を予測しているのは、黄色ではなく黄色のマスコミで広くコメントされています。それに関する包括的なオンライン記事はこちらとこちらです。「シンプソンズが未来を予測する」をグーグルで検索すると、何百万ものヒットとビデオが得られます。おそらく最も顕著な「予測」（少なくとも私にとって）は、米国大統領としてのトランプ（2000年に作られた！）です。最新はカナダの大麻の合法化のようです。問題は、なぜこの明らかな成功なのか、ということです。私の推測では、（i）シンプソンズは多くの「予測」を行います（むしろ、シナリオ作成）。（ii）統計的に言えば、ヒットの割合は実際には非常に低いです（計算しているわけではありません）。見かけ上の「成功」は単なる認知バイアスです。

14 statistics-in-media

3

このNYTの記事は、独立した増分を誤って想定していますか？

この記事は、特定のタイプの避妊方法を使用する100人の女性ごとに、計画外の妊娠の数を時系列でプロットしています。 https://www.nytimes.com/interactive/2014/09/14/sunday-review/unplanned-pregnancies.html?_r=0 特に記事の終わりに彼らは言う：数値は次のように計算されます。 P（N年後に妊娠していない）= P（1年後に妊娠していない）NP（N年後に妊娠していない）=P（1年目以降妊娠していない）N \mathbb P(\text{Not pregnant after year N}) = \mathbb P(\text{Not pregnant after year 1})^N 実際、避妊の成功率は1年目に妊娠していない確率です。例：https : //www.cdc.gov/reproductivehealth/contraception/unintendedpregnancy/pdf/contraceptive_methods_508.pdf これは、1年間に妊娠する確率が前年とは無関係である場合に当てはまりますが、そうである可能性は非常に低いようです。避妊を間違った方法で使用すると、おそらく最初の1年でうまくいかず、そうでなければ、おそらく1年後にはうまくいかないでしょう。

8 regression independence statistics-in-media

4

このBBCチャート（教育と結果の間のブレグジットの相関関係）はどのように描画する必要がありますか？

BBCはより多くのBrexit国民投票データを分析しました。彼らの記事の最初のチャートが私の目を引いた： x軸を50％に分割するのは奇妙に思えました。確かに、これはデータの中央値で分割されるべきでしたか？（または、データが正常に分布していた場合の平均ですが、目を細めると、ここではそうではありません。）（彼らはデータを公表していませんが、簡単なグーグルは卒業生が成人人口の約-25％であることを示唆しており、それはチャートの目を見張るようなものと一致するので、私はそれに進みます。）しかし、それによって私はこのチャートをできるだけ客観的に描く方法を考えました。X軸を直線に保ち、右側の2つのボックスの幅を3倍にするほうがよいでしょうか。または、ボックスをすべて同じサイズに保ち、x軸を押しつぶして伸ばし、すべてのNピクセルスパンが同じ数のデータポイントをカバーするようにしますか？または、他の何か？

8 data-visualization statistics-in-media

タグ付けされた質問 「statistics-in-media」

タグ付けされた質問「statistics-in-media」