タグ付けされた質問 「hypothesis-testing」

仮説検定では、データがランダムな変動の影響ではなく、特定の仮説と矛盾しているかどうかを評価します。

1
40,000の神経科学論文は間違っているかもしれません
エコノミストでこの記事を見て、一見壊滅的な [1]「40,000件の公開された[fMRI]研究のようなもの」に疑問を投げかけました。彼らによると、エラーは「誤った統計的仮定」によるものです。私はこの論文を読んで、部分的に多重比較修正の問題があることを確認しましたが、私はfMRIの専門家ではなく、従うのが難しいと感じています。 著者が話している誤った仮定は何ですか?なぜこれらの仮定がなされているのですか?これらの仮定を立てる方法は何ですか? 封筒の計算の裏には、40,000 fMRIの論文が10億ドル以上の資金(学生の卒業生の給与、運営費など)があると書かれています。 [1] Eklund et al。、Cluster failure:fMRIによる空間範囲の推論が偽陽性率を増大させた理由、PNAS 2016

3
これはp値問題の解決策ですか?
2016年2月、米国統計協会は、統計的有意性とp値に関する公式声明を発表しました。それに関する私たちのスレッドは、これらの問題について広範囲に議論しています。しかし、今まで、広く認められた効果的な代替手段を提供する権限はありません。アメリカ統計学会(ASS)は、その応答、p値を発表しました:次は何ですか? 「p値はあまり良くありません。」 ASAは十分に機能しなかったと思います。p値の時代が終わったことを認める時です。統計学者はそれらを使用して大学生を困惑させ、科学者をだまし、編集者をだまして成功させましたが、世界はこの策略を見始めています。意思決定を制御するための統計学者によるこの20世紀初頭の試みを放棄する必要があります。実際に機能するものに戻る必要があります。 公式のASS提案は次のとおりです。 p値の代わりに、ASSはSTOP (SeaT-Of-Pantsプロシージャ)を提唱します。ロナルド・フィッシャーが来て物事を台無しにするまで、この昔からの方法とテストされた方法は、古代ギリシア人、ルネサンスの男性、およびすべての科学者によって使用されました。STOPは、シンプルで直接的な、データ駆動型で信頼できるものです。それを実行するために、権威のある人物(好みにより年上の男性)がデータをレビューし、彼らが彼の意見に同意するかどうかを決定します。彼が決定すると、結果は「重要」になります。それ以外の場合はそうではなく、すべてのことを忘れる必要があります。 原則 応答は、ASAの6つの原則のそれぞれに対応しています。 STOPは、データが指定された統計モデルとどれだけ互換性がないかを示すことができます。 このフレーズが気に入ったのは、STOPがyesまたはnoの質問に答えると言うのはとてもおしゃれな方法だからです。p値または他の統計的手順とは異なり、疑いの余地はありません。これは、「スティンキンの帰無仮説は必要ありません!」と言う人への完璧な反応です。とにかく*?!@とは何ですか?誰がそれがどうなっているかを理解することはできませんでした。」 STOPは、仮説が真である確率を測定しません。実際に、真かどうかを判断します。 誰もが確率に混乱しています。写真から確率をとることにより、STOPは長年の学部および大学院での研究の必要性を排除します。今では誰でも(十分に年をとっており、男性でも)統計分析を行うことができます。1回の統計講義を聴いたり、わかりにくい出力を吐き出す難解なソフトウェアを実行したりする苦痛や苦痛はありません。 科学的結論とビジネスまたは政策決定は、常識と実際の権威の数字に基づいて行うことができます。 とにかく、当局は常に重要な決定を下してきたので、それを認めて仲介人を排除しましょう。STOPを使用すると、統計学者は自分に最適なことを行うことができます。数値を使用して真実を難読化し、権力者の選好を聖別します。 適切な推論には、完全なレポートと透明性が必要です。 STOPは、これまでに発明された中で最も透過的で自明の統計手順です。データを見て決定します。データの意味がわからないという事実を隠すために人々が使用する、すべての混乱するz検定、t検定、カイ2乗検定、アルファベットスープ手順(ANOVA!GLM!MLE!)を排除します。 STOPは結果の重要性を測定します。 これは自明です。権限のある人がSTOPを使用する場合、結果は重要でなければなりません。 STOP自体は、モデルまたは仮説に関する証拠の適切な尺度を提供します。 私たちは権威に挑戦したくないでしょうか?研究者と意思決定者は、STOPが知る必要があるすべての情報を提供することを認識します。これらの理由により、データ分析はSTOPで終了する可能性があります。p値、機械学習、占星術などの代替アプローチの必要はありません。 その他のアプローチ 一部の統計学者は、いわゆる「ベイジアン」法を好みます。この方法では、18世紀の聖職者によって死後に公表された不明瞭な定理が、あらゆる問題を解決するために無意識に適用されます。最も有名な支持者は、これらの方法が「主観的」であることを自由に認めています。主観的方法を使用する場合、意思決定者の権威があり知識があるほど、結果は良くなります。これにより、STOPはすべてのBayesメソッドの論理的な制限として現れます。担当者にデータを見せて、彼の意見を尋ねるだけでいいのに、なぜこれらのひどい計算をし、コンピューターの時間を無駄にする努力をするのでしょうか?物語の終わり。 統計学者の神権に挑戦するために、最近別のコミュニティが生まれました。彼らは自分たちを「機械学習者」および「データ科学者」と呼んでいますが、彼らは本当に高い地位を探しているハッカーです。ASSの公式の立場は、人々が彼らを真剣に受けとめたいなら、これらの人たちが彼ら自身の専門組織を形成すべきだということです。 質問 これは、ASAがp値と帰無仮説検定で特定した問題に対する答えですか?(応答で暗黙的に主張されているように)ベイジアンとフリークエンティストのパラダイムを本当に結び付けることができますか?

8
p値が有用な良い説得力のある例は何ですか?
タイトルの私の質問は自明ですが、コンテキストを与えたいと思います。 ASAは今週、「p値に関するコンテキスト、プロセス、目的」に関する声明を発表し、p値に関するさまざまな一般的な誤解の概要を示し、コンテキストと思考なしに使用しないように注意を促しています統計的な方法、本当に)。 ASAに応えて、Matloff教授は150年後、ASAはp-valuesにノーと言うブログ投稿を書きました。その後、ベンジャミニ教授(および私)は、「p値の誤りではない -最近のASAステートメントに関する考察」というタイトルの応答投稿を書きました。それに応えて、マトロフ教授はフォローアップの投稿で尋ねました: 私が見たいのは[...は] -p値が有用である、説得力のある良い例です。それは本当に一番下の行でなければなりません。 値の有用性に対する彼の 2つの主要な議論を引用するには:ppp サンプル数が多い場合、有意性検定は、帰無仮説からの重要ではないわずかな逸脱に飛びつきます。 現実世界では帰無仮説がほとんどないので、それらに対して有意性検定を実行するのはばかげて奇妙です。 私は、他の相互検証されたコミュニティのメンバーがこの質問/議論についてどう考えているか、そしてそれに対する良い反応を構成するものに非常に興味があります。

3
帰無仮説の有意性検定に対する引数を含む参照?
ここ数年、私は科学における帰無仮説の有意性検定の使用に反対する多くの論文を読みましたが、永続的なリストを維持するとは考えていませんでした。最近、同僚がそのようなリストを求めてきたので、私はここにいるすべての人にリストの作成を手伝ってもらおうと思った。物事を始めるために、ここに私がこれまで持っているものがあります: ヨハンソン(2011)「不可能を呼び起こす:p値、証拠、可能性。」 Haller&Kraus(2002)「重要性の誤解:生徒が教師と共有する問題」 Wagenmakers(2007)「p値の一般的な問題に対する実用的な解決策。」 Rodgers(2010)「数学的および統計的モデリングの認識論:静かな方法論的革命。」 ディクソン(1998)「科学者がp値を重視する理由」 Glover&Dixon(2004)「尤度比:経験心理学者向けのシンプルで柔軟な統計。」

6
「ネストされた」モデルと「ネストされていない」モデルの違いは何ですか?
階層/マルチレベルモデルに関する文献では、「ネストされたモデル」と「ネストされていないモデル」についてよく読んでいますが、これはどういう意味ですか?誰かが私にいくつかの例を与えるか、このフレージングの数学的な意味について教えてもらえますか?

15
なぜパラメトリック統計がノンパラメトリックよりも優先されるのでしょうか?
誰かが仮説検定や回帰分析のためにノンパラメトリック統計手法よりもパラメトリックを選択する理由を説明できますか? 私の考えでは、それはあなたがそれを濡らさないかもしれないので、ラフティングに行き、非防水時計を選ぶようなものです。あらゆる機会に機能するツールを使用してみませんか?


3
xkcd jelly bean comicについて説明してください:何が​​面白いのでしょうか?
私は、彼らが実行さ20回の合計試験のうち一度、ことがわかり、ので、誤った結果が(有意である、20回の試験のうちの1つの間にそれを想定0.05 = 1 / 20)。p &lt; 0.05p&lt;0.05p < 0.050.05 = 1 / 200.05=1/200.05 = 1/20 xkcdジェリービーンコミック-"Significant" タイトル:重要 ホバーテキスト:「だから、ええと、私たちは再び緑の研究を行ったが、リンクは得られなかった。おそらく「-」グリーンジェリービーン/ニキビのリンクに関する研究の混乱。

13
大規模な研究で帰無仮説を棄却できなかった場合、それは帰無の証拠ではありませんか?
帰無仮説の有意性検定の基本的な制限は、研究者が帰無を支持する証拠を収集できないことです(ソース) この主張は複数の場所で繰り返されていますが、その正当性を見つけることはできません。我々は大規模な研究を行い、私たちがした場合、帰無仮説に対して統計学的に有意な証拠を見つけていない、という証拠ではないため帰無仮説は?

12
両側検定...私は納得していません。ポイントは何ですか?
次の抜粋はエントリからのものです。片側検定と両側検定の違いは何ですか?、UCLAの統計ヘルプサイトで。 ...他の方向の効果を見逃した場合の結果を考慮してください。既存の薬物よりも改善されたと思われる新しい薬物を開発したと想像してください。改善を検出する能力を最大限に高めたいため、片側検定を選択します。そうすることで、新薬が既存の薬よりも効果が低い可能性をテストすることに失敗します。 仮説検定の絶対的な基礎を学び、1対2検定の一部を理解した後... 1検定の基本的な数学と検出能力の向上などを理解しました。一つのことについて...ポイントは何ですか?サンプルの結果がどちらか一方のみであるか、どちらでもない場合に、アルファを2つの極端に分割する必要がある理由を本当に理解できていません。 上記の引用テキストからシナリオ例をご覧ください。どうして逆方向の結果を「テストに失敗する」のでしょうか?サンプルの平均値があります。人口の平均値があります。単純な算術により、どちらが高いかがわかります。反対方向にテストする、またはテストに失敗するものは何ですか?サンプルの平均が他の方向に外れていることがはっきりとわかる場合、反対の仮説でゼロから始めただけで何が止まっているのでしょうか? 同じページからの別の引用: 帰無仮説の棄却に失敗した両側検定を実行した後に片側検定を選択することは、両側検定の有意性に「近い」場合でも適切ではありません。 これは、片側検定の極性の切り替えにも当てはまると思います。しかし、最初に正しい片側検定を単に選択した場合よりも、この「ドクターされた」結果の有効性は低いのでしょうか。 明らかに私はここで写真の大部分を見逃しています。それはただarbitrary意的すぎるように思えます。これは、「統計的に有意な」ことを示すもの-95%、99%、99.9%...という意味で、最初は任意です。

6
統計的検定に対するフィッシャーとネイマン・ピアソンのアプローチ間の「ハイブリッド」は、実際には「インコヒーレントなミッシュマッシュ」ですか?
統計的検定への最も普及しているアプローチは、フィッシャーのアプローチとネイマン・ピアソンのアプローチの2つのアプローチの「ハイブリッド」であるという考え方があります。主張によれば、これらの2つのアプローチは「互換性がない」ため、結果の「ハイブリッド」は「一貫性のないミッシュマッシュ」です。以下に参考文献といくつかの引用を提供しますが、現時点では、統計的仮説検定に関するウィキペディアの記事にそれについて多くのことが書かれていると言って十分です。CVでは、@ Michael Lewがこの点を繰り返し述べています(こちらとこちらをご覧ください)。 私の質問は次のとおりです。なぜFとNPのアプローチは互換性がないと主張され、ハイブリッドは一貫性がないと主張されるのですか?少なくとも6つのアンチハイブリッドペーパー(下記を参照)を読みましたが、それでも問題や議論を理解できないことに注意してください。また、FまたはNPがより良いアプローチであるかどうかを議論することを提案していないことに注意してください。頻度主義者対ベイジアンの枠組みについて議論することも申し出ていません。代わりに、問題は次のとおりです。FとNPの両方が有効で意味のあるアプローチであることを受け入れると、ハイブリッドのどこが悪いのでしょうか。 ここに私が状況を理解する方法があります。フィッシャーのアプローチは、値を計算し、それを帰無仮説に対する証拠とすることです。小さいほど、証拠を確信させることができます。研究者は、この証拠を彼の背景知識と組み合わせ、それが十分に説得力があるかどうかを判断し、それに応じて進むことになっています。(フィッシャーの見解は長年にわたって変化したが、これは彼が最終的に収束したように見えることに注意してください。)対照的に、Neyman-Pearsonアプローチは事前にを選択し、をチェックすることですP αのp個の≤のαppppppαα\alphap≤αp≤αp\le\alpha; もしそうなら、それを重要と呼び、帰無仮説を拒否します(ここでは、現在の議論に関係のないNPストーリーの大部分を省略します)。FisherとNeyman-Pearsonのフレームワークを使用するタイミングは?の @gungによる優れた返信も参照してください。 ハイブリッドアプローチは、値を計算し、それを報告し(暗黙的に小さい方が良いと仮定して)、場合は有意な結果(通常は)、それ以外の場合は有意でない結果も呼び出します。これは一貫性のないことになっています。2つの有効なことを同時に行うのはどうして無効なのでしょうか。のp ≤のαのα = 0.05pppp≤αp≤αp\le\alphaα=0.05α=0.05\alpha=0.05 特に一貫性のない反ハイブリッド主義者は、値を、、または(または)として報告する広範な慣行を、常に最も強い不平等が選択されるとます。議論は、(a)正確なが報告されないため、証拠の強度を適切に評価できないこと、および(b)不等式の右辺の数をとして解釈し、それをタイプIエラーと見なす傾向があると思われるレート、それは間違っています。ここで大きな問題は見当たりません。第一に、正確な報告することは確かに良い習慣ですが、が例えばか、、P &lt; 0.05 、P &lt; 0.01 、P &lt; 0.001 のp « 0.0001 のp α のp のp 0.02 0.03 〜0.0001 0.05 α = 0.05 、P ≠ α αpppp&lt;0.05p&lt;0.05p<0.05p&lt;0.01p&lt;0.01p<0.01p&lt;0.001p&lt;0.001p<0.001p≪0.0001p≪0.0001p\ll0.0001pppαα\alphapppppp0.020.020.020.030.030.03なので、ログスケールで丸めてもそれほど悪くありません(そしてを下回ることは意味がありません。小さなp値を報告する方法を参照してください)。第二に、コンセンサスが未満のすべてを有意と呼ぶ場合、エラー率はおよびになります。@ gungは仮説検定でのp値の解釈で説明しています。これは混乱を招く可能性のある問題ですが、統計テスト(ハイブリッド以外)の他の問題よりも混乱させることはありません。また、すべての読者は、ハイブリッドペーパーを読むときに自分のお気に入りのを念頭に置くことができ、その結果として自分のエラー率を知ることができます。∼0.0001∼0.0001\sim 0.00010.050.050.05α=0.05α=0.05\alpha=0.05p≠αp≠αp \ne \alphaαα\alphaそれで、大したことは何ですか? 私がこの質問をしたい理由の1つは、統計仮説検定に関するウィキペディアの記事のどれだけがハイブリッドの暴行に当てられているかを見るのが文字通り痛いからです。ハルピン&スタムに続いて、それが(そこに彼の教科書のも、大きなスキャンが黄色でハイライト「エラー」である)、そしてもちろんAA一定リンドクイストは責任があると主張リンドクイスト自分自身についてのwikiの記事が同じ告発で始まります。しかし、その後、多分私は何かを見逃しています。 参照資料 Gigerenzer、1993年、超自我、自我、および統計的推論のidは - 「ハイブリッド」という用語を導入し、「支離滅裂寄せ集め」と呼びました Gigerenzer et …

9
lme4混合モデルの効果のp値(有意性をチェック)を取得する方法は?
Rでlme4を使用して混合モデルに適合させる lmer(value~status+(1|experiment))) 値が連続的であり、ステータスと実験が要因であり、私は得る Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 0.23028 Number of obs: 264, groups: experiment, 10 Fixed effects: Estimate …

8
(信頼区間が利用可能な場合)仮説検定を教えて使用し続けるのはなぜですか?
なぜ区間推定器がある問題(自信、ブートストラップ、信頼性など)のために、仮説テスト(すべての難しい概念を含み、最も統計的な罪の1つ)を教え、使用し続けるのですか?学生に与えられる最良の説明(もしあれば)は何ですか?伝統だけ?ビューは大歓迎です。

4
Cumming(2008)は、複製で得られたp値の分布は元のp値にのみ依存すると主張しています。どうしてそれが本当ですか?
私はGeoff Cummingの2008年の論文Replication and Intervalsをpppppp p p読んでいます:値は漠然と未来を予測しますが、信頼区間ははるかに優れています[Google Scholarでの200回の引用] -そしてその中心的な主張の1つに混乱しています。これは、カミングが値に反対し、信頼区間を支持する一連の論文の1つです。しかし、私の質問はこの議論に関するものではなく、値に関する特定の主張にのみ関係します。pppppp 要約から引用させてください: この記事は、最初の実験の結果が両側である場合、複製からの 片側値が間隔に可能性があることを示しています。確率その、完全に確率その。注目すべきことに、間隔(間隔と呼ばれる)は、サンプルサイズが大きくてもこの幅です。p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p&lt;.00008p&lt;.00008p < .0000810%10%10\%p&gt;.44p&gt;.44p > .44ppp カミングは、この「間隔」、および実際に元の実験(同じ固定サンプルサイズ)を複製するときに取得する値の全体分布は、元の値のみに依存するとそして、真のエフェクトサイズ、パワー、サンプルサイズなどに依存しません。pppp p o b tpppppppobtpobtp_\mathrm{obt} [...]の確率分布は、(またはpower)の値を知らない、または仮定せずに導出できます。[...]についての事前知識を前提とせず、 [グループ間差異の観測]がについて与える情報のみを、特定の計算の基礎として使用します。および間隔の分布の 。pppδδ\deltaδδ\deltaMdiffMdiffM_\mathrm{diff}δδ\deltapobtpobtp_\mathrm{obt}pppppp \quad\quad\quad 私はこれに混乱しています。なぜなら、値の分布はパワーに強く依存しているように見えますが、元の自体はそれに関する情報を何も与えていないからです。真の効果サイズはあり、分布は均一である可能性があります。または、本当の効果のサイズが巨大である場合、ほとんどの場合、非常に小さい値を期待する必要があります。もちろん、可能性のある効果の大きさよりも事前にいくつかを仮定して開始することができますが、カミングはこれが彼がやっていることではないと主張しているようです。P O のB T δ = 0 Pppppobtpobtp_\mathrm{obt}δ=0δ=0\delta=0ppp 質問:ここで何が起こっているのでしょうか? このトピックはこの質問に関連していることに注意してください。最初の実験の95%信頼区間内で、繰り返し実験のどの部分が効果サイズを持ちますか?@whuberによる優れた答えがあります。Cummingには、このトピックに関する次のような論文があります:Cumming&Maillardet、2006、Confidence Intervals and Replication:Where the Next Mean Fall?-しかし、それは明確で問題ありません。 私もカミングの請求が2015年の自然法論文で数回繰り返されることに注意してください気まぐれ値は再現不可能な結果を生成し、PPPあなた方のうちの何人かは全体来ているかもしれない(それは既にGoogle Scholarの中で〜100の引用を持っています): [...] 繰り返される実験の値にはかなりのばらつきがあります。実際には、実験はめったに繰り返されません。次のがどの程度異なるかはわかりません。しかし、非常に異なる可能性があります。単一の複製が返された場合、例えば、にかかわらず、実験の統計的検出力の、値、存在する反復実験が戻ってくる可能性間の値をと(及び変化が[原文のまま]はさらに大きくなります)。P P 0.05 80 …

3
「残念な賛成票」の問題はありますか?
これは話題から外れているように聞こえるかもしれませんが、聞いてください。 スタックオーバーフローでは、ここで投稿に対する投票を得ます。これはすべて表形式で保存されます。 例えば: 投稿ID投票者ID投票タイプ日時 ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 等々。投票タイプ2は投票、投票タイプ3は投票です。このデータの匿名バージョンをhttp://data.stackexchange.comで照会できます 投稿のスコアが-1以下になると、投稿される可能性が高くなるという認識があります。これは単に確認バイアスである場合もあれば、実際に根付いている場合もあります。 この仮説を確認または否定するために、このデータをどのように分析しますか?このバイアスの影響をどのように測定しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.