タグ付けされた質問 「type-i-and-ii-errors」

タイプI:帰無仮説が真の場合にそれを拒否します。タイプII:対立仮説が真の場合に帰無仮説を棄却しない。

30
タイプIおよびタイプIIエラーの定義を覚える方法はありますか?
私は教育の統計学者ではなく、ソフトウェアエンジニアです。しかし、統計はたくさん出てきます。実際、タイプIおよびタイプIIのエラーに関する質問は、Certified Software Development Associate試験の勉強中にたくさん出てきます(数学と統計は試験の10%です)。タイプIとタイプIIのエラーの正しい定義を常に考え出すのに苦労しています-今それらを覚えていますが(ほとんどの場合それらを覚えています)、私は本当にこの試験で凍結したくありません違いが何であるかを思い出そうとしています。 タイプIエラーは偽陽性であること、または帰無仮説を拒否して実際に真であり、タイプIIエラーが偽陰性であること、または帰無仮説を受け入れて実際に偽であることがわかっています。 ニーモニックなど、違いが何であるかを覚える簡単な方法はありますか?専門の統計学者はどのようにそれをしますか-それは彼らがそれを頻繁に使用したり議論したりすることで知っていることですか (サイドノート:この質問はおそらくより良いタグを使用できます。私が作成したかったのは「用語」でしたが、それを行うには十分な評判がありません。誰かがそれを追加できれば素晴らしいです。


6
統計的検定に対するフィッシャーとネイマン・ピアソンのアプローチ間の「ハイブリッド」は、実際には「インコヒーレントなミッシュマッシュ」ですか?
統計的検定への最も普及しているアプローチは、フィッシャーのアプローチとネイマン・ピアソンのアプローチの2つのアプローチの「ハイブリッド」であるという考え方があります。主張によれば、これらの2つのアプローチは「互換性がない」ため、結果の「ハイブリッド」は「一貫性のないミッシュマッシュ」です。以下に参考文献といくつかの引用を提供しますが、現時点では、統計的仮説検定に関するウィキペディアの記事にそれについて多くのことが書かれていると言って十分です。CVでは、@ Michael Lewがこの点を繰り返し述べています(こちらとこちらをご覧ください)。 私の質問は次のとおりです。なぜFとNPのアプローチは互換性がないと主張され、ハイブリッドは一貫性がないと主張されるのですか?少なくとも6つのアンチハイブリッドペーパー(下記を参照)を読みましたが、それでも問題や議論を理解できないことに注意してください。また、FまたはNPがより良いアプローチであるかどうかを議論することを提案していないことに注意してください。頻度主義者対ベイジアンの枠組みについて議論することも申し出ていません。代わりに、問題は次のとおりです。FとNPの両方が有効で意味のあるアプローチであることを受け入れると、ハイブリッドのどこが悪いのでしょうか。 ここに私が状況を理解する方法があります。フィッシャーのアプローチは、値を計算し、それを帰無仮説に対する証拠とすることです。小さいほど、証拠を確信させることができます。研究者は、この証拠を彼の背景知識と組み合わせ、それが十分に説得力があるかどうかを判断し、それに応じて進むことになっています。(フィッシャーの見解は長年にわたって変化したが、これは彼が最終的に収束したように見えることに注意してください。)対照的に、Neyman-Pearsonアプローチは事前にを選択し、をチェックすることですP αのp個の≤のαppppppαα\alphap≤αp≤αp\le\alpha; もしそうなら、それを重要と呼び、帰無仮説を拒否します(ここでは、現在の議論に関係のないNPストーリーの大部分を省略します)。FisherとNeyman-Pearsonのフレームワークを使用するタイミングは?の @gungによる優れた返信も参照してください。 ハイブリッドアプローチは、値を計算し、それを報告し(暗黙的に小さい方が良いと仮定して)、場合は有意な結果(通常は)、それ以外の場合は有意でない結果も呼び出します。これは一貫性のないことになっています。2つの有効なことを同時に行うのはどうして無効なのでしょうか。のp ≤のαのα = 0.05pppp≤αp≤αp\le\alphaα=0.05α=0.05\alpha=0.05 特に一貫性のない反ハイブリッド主義者は、値を、、または(または)として報告する広範な慣行を、常に最も強い不平等が選択されるとます。議論は、(a)正確なが報告されないため、証拠の強度を適切に評価できないこと、および(b)不等式の右辺の数をとして解釈し、それをタイプIエラーと見なす傾向があると思われるレート、それは間違っています。ここで大きな問題は見当たりません。第一に、正確な報告することは確かに良い習慣ですが、が例えばか、、P &lt; 0.05 、P &lt; 0.01 、P &lt; 0.001 のp « 0.0001 のp α のp のp 0.02 0.03 〜0.0001 0.05 α = 0.05 、P ≠ α αpppp&lt;0.05p&lt;0.05p<0.05p&lt;0.01p&lt;0.01p<0.01p&lt;0.001p&lt;0.001p<0.001p≪0.0001p≪0.0001p\ll0.0001pppαα\alphapppppp0.020.020.020.030.030.03なので、ログスケールで丸めてもそれほど悪くありません(そしてを下回ることは意味がありません。小さなp値を報告する方法を参照してください)。第二に、コンセンサスが未満のすべてを有意と呼ぶ場合、エラー率はおよびになります。@ gungは仮説検定でのp値の解釈で説明しています。これは混乱を招く可能性のある問題ですが、統計テスト(ハイブリッド以外)の他の問題よりも混乱させることはありません。また、すべての読者は、ハイブリッドペーパーを読むときに自分のお気に入りのを念頭に置くことができ、その結果として自分のエラー率を知ることができます。∼0.0001∼0.0001\sim 0.00010.050.050.05α=0.05α=0.05\alpha=0.05p≠αp≠αp \ne \alphaαα\alphaそれで、大したことは何ですか? 私がこの質問をしたい理由の1つは、統計仮説検定に関するウィキペディアの記事のどれだけがハイブリッドの暴行に当てられているかを見るのが文字通り痛いからです。ハルピン&スタムに続いて、それが(そこに彼の教科書のも、大きなスキャンが黄色でハイライト「エラー」である)、そしてもちろんAA一定リンドクイストは責任があると主張リンドクイスト自分自身についてのwikiの記事が同じ告発で始まります。しかし、その後、多分私は何かを見逃しています。 参照資料 Gigerenzer、1993年、超自我、自我、および統計的推論のidは - 「ハイブリッド」という用語を導入し、「支離滅裂寄せ集め」と呼びました Gigerenzer et …


3
ボンフェローニ調整の使用方法と使用時期
ボンフェローニ調整をいつ使用するかに関して、2つの質問があります。 複数のテストのすべてのケースでボンフェローニ調整を使用することは適切ですか? データセットでテストを実行する場合、そのデータセットをより細かいレベルに分割し(例:性別によるデータの分割)、同じテストを実行しますが、これは知覚される個々のテストの数にどのように影響しますか?つまり、男性と女性の両方からのデータを含むデータセットでX個の仮説をテストし、データセットを分割して男性と女性のデータを別々に与え、同じ仮説をテストした場合、個々の仮説の数はXのままか、追加のテスト? コメントしてくださってありがとうございます。

2
FPR(偽陽性率)vs FDR(偽発見率)
次の引用は、Story&Tibshirani(2003)による有名な研究論文「ゲノム全体の研究の統計的有意性」から引用されています。 たとえば、偽陽性率が5%の場合、研究の真にヌルの特徴の平均5%が有意と呼ばれます。5%のFDR(False Discovery rate)は、重要と呼ばれるすべての機能の中で、これらの5%が平均して本当にヌルであることを意味します。 簡単な数値または視覚的な例を使用して、それが意味することを誰かが説明できますか?私はそれが何を意味するのか理解するのに苦労しています。FDRまたはFPRのみに関するさまざまな投稿を見つけましたが、特定の比較が行われた場所は見つかりませんでした。 この分野の専門家が、一方が他方より優れている、または両方が良いか悪いかの状況を説明できれば、特に良いでしょう。

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
負の二項GLM対カウントデータのログ変換:タイプIエラー率の増加
あなたの何人かはこの素晴らしい論文を読んだかもしれません: O'Hara RB、Kotze DJ(2010)カウントデータをログ変換しません。生態学と進化の方法1:118–122。クリック。 私の研究分野(生態毒性学)では、再現性の低い実験を扱っており、GLMは広く使用されていません。そこで、O'Hara&Kotze(2010)と同様のシミュレーションを行いましたが、生態毒性データを模倣しました。 電力シミュレーション: 1つのコントロールグループ()と5つの治療グループ()を使用した要因計画のデータをシミュレートしました。治療1の存在量は対照()と同一であり、治療2-5の存在量は対照の存在量の半分()でした。シミュレーションでは、サンプルサイズ(3,6,9,12)とコントロールグループの量(2、4、8、...、1024)を変化させました。豊度は、固定分散パラメーター()を持つ負の二項分布から引き出されました。100のデータセットが生成され、負の二項GLMとガウスGLM +対数変換データを使用して分析されました。μ 1 - 5 μ 1 = μ C μ 2 - 5 = 0.5 μ C θ = 3.91μcμc\mu_cμ1 − 5μ1−5\mu_{1-5}μ1= μcμ1=μc\mu_1 = \mu_cμ2 − 5= 0.5 μcμ2−5=0.5μc\mu_{2-5} = 0.5 \mu_cθ = 3.91θ=3.91\theta = 3.91 結果は予想通りです。GLMのパワーは、特に多くの動物がサンプリングされていない場合に大きくなります。 コードはこちらです。 タイプIエラー: 次に、タイプ1のエラーを見ました。シミュレーションは上記のように行われましたが、すべてのグループは同じ量()。μc= μ1 − 5μc=μ1−5\mu_c …

3
教科書にないオプションの停止規則
停止規則は、P値と決定に関連するエラー率との関係に影響します。シモンズ等による最近の論文。2011年には、研究者の自由度という用語が、再現不可能であることが判明した心理学の文献の多くのレポートの責任を負うと考えられる行動の集合を記述するために作られました。 これらの動作のうち、オプションの停止規則または宣言されていない中間分析が現在関心のあるものです。エラー率への影響を生徒に説明しますが、生徒が使用する教科書には記載されていないようです。使用する!)。私の大学のメインの書店には、バイオサイエンス、ビジネス、エンジニアリングなど、さまざまな分野の入門レベルの学生を対象とした14の統計教科書があります。停止ルール」。 オプションの停止ルールの問題を説明する入門レベルの統計テキストがありますか? シモンズ、JP、ネルソン、LD、およびサイモンソン、U。(2011)。偽陽性心理学:データ収集と分析の非公開の柔軟性により、あらゆるものを重要なものとして提示できます。心理学、22(11)、1359–1366。doi:10.1177 / 0956797611417632

2
選択した偽陽性/偽陰性のエラー率と基礎となるコスト比を厳密に正当化する方法は?
環境 社会科学者と統計学者のグループ(Benjamin et al。、2017)は、最近、「統計的有意性」を決定するためのしきい値として使用される典型的な偽陽性率( = .05)をより保守的なしきい値(α = .005)。競合する社会科学者と統計学者のグループ(Lakens et al。、2018)が回答し、これまたはその他の任意の閾値の使用に反対しました。以下は、レーケンズらからの引用です。(p。16)それは私の質問の主題を例示するのに役立ちます:αα\alphaαα\alpha 理想的には、アルファレベルは、決定理論を使用して効用関数に対してコストと利点を比較することによって決定されます。この費用便益分析(およびアルファレベル)は、入手が困難なサンプルからデータを収集する場合と比較して、大きな既存のデータセットを分析する場合に異なります。科学は多様であり、使用することを決定したアルファレベルを正当化するのは科学者次第です。...研究は、ヒューリスティックおよび任意の包括的しきい値ではなく、厳密な科学の原則に基づいて行う必要があります。 質問 Lakens et al。のように、選択されたアルファを「厳密な科学の原則に導かれる」方法で正当化する方法を考えているのです。ほとんどの社会科学の文脈(つまり、最適化するために利益などのより具体的な品質がある特定のケース以外)で提案しますか? Lakensらの普及に続いて、私は研究者がこの決定を下すのを助けるためにオンライン計算機が循環しているのを見始めました。それらを使用する場合、研究者は偽陽性と偽陰性のエラーの「コスト比」を指定する必要があります。ただし、この計算機が示唆しているように、このようなコスト比率の決定には、多くの定量的な推測作業が含まれます。 いくつかのエラーコストは金銭的に簡単に定量化できます(直接コスト)が、他のエラーコストを1ドル(間接コスト)にすることは困難です。...定量化するのは困難ですが、それらに数字を付ける努力をする必要があります。 たとえば、レイケンズなど。アルファを正当化する際に考慮する可能性のある要因として到達困難なサンプルを検討することを提案しますが、そのサンプルがどれだけ到達困難であるかを推測し、それによってアルファの選択をそれに応じて調整する方法を推測しているようです。別の例として、誤った推論を前提とする研究の追求に他の人が後でどれだけの時間/お金を費やすかという観点から、偽陽性の公開のコストを定量化することは私には難しいように思われます。 このコスト比の決定が主に主観的な最善の推測の問題である場合、これらの決定が(再び、利益のようなものの最適化以外で)「正当化」できるかどうか疑問に思っています。つまり、サンプリング、トレードオフ、影響などについて行われた仮定の外に存在する方法で?このように、偽陽性/偽陰性エラーのコスト比を決定することは、ベイジアン推論で事前分布を選択することに似ているように思われます。 -合理的な比較かどうかはわかりませんが。 概要 私の質問を具体的にするには: 偽陽性/偽陰性率とそのコスト比は、ほとんどの社会科学の文脈で「厳密に」正当化されることはありますか? もしそうなら、これらの分析の選択を正当化するために従うことができる一般化可能な原則は何ですか(そしておそらくそれらのうちの1つまたは2つの例) そうでない場合、コスト比を選択する際の潜在的な主観性(ベイジアンの事前選択に似ている)の私の類推は合理的なものですか? 参照資料 Benjamin、DJ、Berger、J.、Johannesson、M.、Nosek、BA、Wagenmakers、E。、... Johnson、V.(2017年7月22日)。統計的有意性を再定義します。psyarxiv.com/mky9jから取得 Lakens、D.、Adolfi、FG、Albers、CJ、Anvari、F.、Apps、MA、... Zwaan、RA(2018、January 15)。あなたのアルファを正当化します。psyarxiv.com/9s3y6から取得

1
累積データを繰り返しテストする際の全体的なタイプIエラー
グループシーケンシャルメソッドについて質問があります。 ウィキペディアによると: 2つの治療グループを使用したランダム化試験では、古典的なグループシーケンシャルテストが次の方法で使用されます。2つのグループを比較するために統計分析が実行され、対立仮説が受け入れられると、試験は終了します。それ以外の場合は、グループごとにn人の被験者がいる別の2n人の被験者に対して試験が継続されます。統計分析は、4nの被験者に対して再度実行されます。代替案が受け入れられた場合、トライアルは終了します。それ以外の場合、N個の2n被験者のセットが利用可能になるまで、定期的な評価を続けます。この時点で、最後の統計的検定が実施され、試験は中止されます しかし、この方法で累積データを繰り返しテストすることにより、タイプIのエラーレベルが増大します... サンプルが互いに独立している場合、全体のタイプIエラー、、だろうα⋆α⋆\alpha^{\star} α⋆=1−(1−α)kα⋆=1−(1−α)k\alpha^{\star} = 1 - (1 - \alpha)^k ここで、αα\alphaは各テストのレベル、は中間ルックの数です。kkk しかし、サンプルは重複しているため、独立していません。中間分析が等しい情報増分で実行されると仮定すると、次のことがわかります(スライド6) この表がどのように取得されるのか説明してもらえますか?


2
ゲルマンとカーリンを理解する「パワー計算を超えて:…」(2014)
GelmanとCarlinの「パワー計算を超えて:タイプS(符号)およびタイプM(マグニチュード)エラーの評価」(2014)を読んでいます。私は主なアイデア、主な理解を理解しようとしていますが、混乱しています。誰かが私に本質を蒸留するのを手伝ってくれる? 紙はこのようなものになります(私が正しく理解した場合)。 心理学の統計的研究は、しばしば小さなサンプルに悩まされます。 特定の研究における統計的に有意な結果を条件として、 (1)真の効果サイズは大幅に過大評価される可能性が高く、 (2)効果の符号は高い確率で反対になる可能性があります(サンプルサイズが十分に大きい場合を除く)。 上記は、母集団における効果サイズの以前の推測を使用して示され、その効果は通常小さいと見なされます。 私の最初の問題は、なぜ統計的に有意な結果の条件なのか、です。それは出版バイアスを反映することですか?しかし、そうではないようです。では、なぜでしょうか。 私の第二の問題は、私は自分自身を勉強をすれば、私は私がするために使用しています異なったよりも、私の結果を扱うべきである(I行うfrequentist統計、ベイズに精通していませんか)?たとえば、データのサンプルを取り、モデルを推定し、関心のある効果とその周りの信頼限界の点推定を記録します。私は今、自分の結果を不信にすべきですか?それとも統計的に有意である場合、それを誤解する必要がありますか?与えられた以前の変化はどうですか? (1)統計調査の「プロ​​デューサー」にとって、および(2)応用統計論文の読者にとっての主な要点は何ですか? 参照: ゲルマン、アンドリュー、ジョンカーリン。「パワー計算を超えて:タイプS(符号)およびタイプM(マグニチュード)エラーの評価。」 心理学の展望 9.6(2014):641-651。 PSここで私にとっての新しい要素は、以前の情報を含めることだと思います。これは、(頻繁なパラダイムから来た)処理方法がわかりません。

3
タイプIおよびIIのエラーの確率は負の相関関係がありますか?
私がTAだった初等統計クラスで、教授は、タイプIエラーの確率が増加するにつれて、タイプIIエラー確率が減少し、その逆も真であると述べました。したがって、これはことを私に示唆してい。β ρ α 、β &lt; 0αα\alphaββ\betaρα 、β&lt; 0ρα,β&lt;0\rho_{\alpha, \beta} < 0 しかし、一般的な仮説検定でこれをどのように証明しますか?声明は一般的にも真実ですか? 特定のケース(たとえば、および)を試すこともできますが、明らかに、この質問を処理するには一般的ではありません。H 1:μ &lt; μ 0H0:μ = μ0H0:μ=μ0H_0: \mu = \mu_0H1:μ &lt; μ0H1:μ&lt;μ0H_1: \mu < \mu_0


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.