タグ付けされた質問 「statistical-significance」

統計的有意性とは、このサンプルが引き出された母集団において、真の効果が0(またはいくつかの仮説値)であった場合、サンプルで得られたものよりも極端または極端なテスト統計が発生した確率を指します。

4
GLMの過剰分散が重要かどうかを判断するテストはありますか?
RでポアソンGLMを作成しています。過剰分散をチェックするために、残留偏差と自由度の比を調べていsummary(model.name)ます。 この比率を「有意」とみなすカットオフ値またはテストはありますか?1より大きい場合、データは分散しすぎますが、比率が1に比較的近い場合(たとえば、比率1.7(残差= 25.48、df = 15)と1.3(rd = 324、df) = 253)]、まだ準ポアソン/負の二項式に切り替える必要がありますか?ここで、このテストの重要性を発見しました:1-pchisq(residual deviance、df)ですが、これは一度しか見たことがなく、緊張しています。また、比率<1.5が一般に安全であると読みました(ソースが見つかりません)。ご意見?

10
1000のうち600が10のうち6よりも説得力があるのはなぜですか?
「スタディスキルハンドブック」、Palgrave、2012年、Stella Cottrell著、155ページからのこの抜粋をご覧ください。 パーセンテージパーセンテージが与えられると通知します。 代わりに、上記のステートメントが次のようになっているとします: 60%の人がオレンジを好んだ。40%がリンゴを好むと答えました。 これは説得力があるように見えます:数値が与えられています。しかし、60%と40%の違いは重要ですか?ここでは、何人の人が尋ねられたかを知る必要があります。1000人が600人のオレンジを好む人を尋ねられた場合、その数は説得力があるでしょう。ただし、10人だけが質問された場合、60%は6人がオレンジを好んだことを意味します。「60%」は、「10のうち6」ではできない方法で説得力があるように聞こえます。重要な読者として、不十分なデータを印象的に見えるようにするために使用されているパーセンテージを監視する必要があります。 統計でこの特性は何と呼ばれますか?私はそれについてもっと読みたいです。

4
モデルを作成するときに、統計的に有意ではない共変量を「保持」する必要がありますか?
モデルの計算にはいくつかの共変量がありますが、そのすべてが統計的に有意ではありません。そうでないものは削除すべきですか? この質問は現象について説明していますが、私の質問には答えていません 。ANCOVAの共変量の有意でない影響をどのように解釈するか しかし、その質問に対する答えには、有意ではない共変量を取り出すことを示唆するものは何もありません。そのため、今のところ、それらは留まるべきだと信じています。あるしきい値(共変量には当てはまらないと思われる有意性しきい値)を超える量を必ずしも説明することなく、分散の一部を説明できます(したがって、モデルを支援します)。 CVのどこかに別の質問があり、その答えは有意性に関係なく共変量を保持する必要があることを暗示しているようですが、それについては明確ではありません。(私はその質問にリンクしたいのですが、たった今再び追跡することができませんでした。) それで...統計的に有意ではない共変量は、モデルの計算で保持されるべきですか?(とにかく計算によって共変量がモデル出力に決して含まれないことを明確にするために、この質問を編集しました。) 複雑さを追加するために、データの一部のサブセット(個別に処理する必要のあるサブセット)の共変量が統計的に有意な場合はどうでしょうか。デフォルトでは、このような共変量を保持します。そうしないと、異なるモデルを使用するか、いずれかのケースで統計的に有意な共変量が失われます。ただし、このスプリットケースについても回答がある場合は、そのことをお知らせください。

1
統計的に有意な分析と有意でない分析でイータ平方/部分イータ平方の解釈と報告方法は?
グループ平均差の効果サイズの尺度として計算されたイータ2乗値と部分イータ2乗値を持つデータがあります。 イータ平方と部分イータ平方の違いは何ですか?同じCohenのガイドラインを使用して両方を解釈できますか(1988年:0.01 =小、0.06 =中、0.13 =大) また、比較テスト(すなわち、t検定または一元配置分散分析)が有意でない場合、効果のサイズを報告するのに使用はありますか?私の頭では、これは「平均差は統計的有意性に達しなかったが、イータの2乗から示される効果の大きさは中程度であるため、依然として注目に値する」と言っているようなものです。または、効果サイズは、補完的なものではなく、有意性テストの代替値ですか?

2
A / Bテスト:z検定対t検定対カイ二乗対フィッシャーの正確な検定
私は、単純なA / Bテストを扱うときに特定のテストアプローチを選択することで、推論を理解しようとしています(つまり、バイナリレスポン(変換済みまたは未変換)の2つのバリエーション/グループ。例として、以下のデータを使用します) Version Visits Conversions A 2069 188 B 1826 220 トップの答えはここには素晴らしいであり、z、tとカイ二乗検定のための基礎となる仮定のいくつかについて話しています。しかし、私が混乱しているのは、さまざまなオンラインリソースがさまざまなアプローチを引用することであり、基本的なA / Bテストの仮定はほぼ同じであると思うでしょうか? たとえば、この記事ではz-scoreを使用します。 この記事では、次の式を使用します(zscoreの計算と異なるかどうかはわかりません)。 このペーパーは、t test(p 152)を参照しています。 それでは、これらのさまざまなアプローチを支持して、どのような議論ができるのでしょうか?なぜ好みがありますか? もう1つの候補を投入するには、上記の表を2x2分割表として書き直します。フィッシャーの正確確率検定(p5)を使用できます Non converters Converters Row Total Version A 1881 188 2069 Versions B 1606 220 1826 Column Total 3487 408 3895 しかし、このスレッドフィッシャーの正確なテストによると、より小さいサンプルサイズでのみ使用する必要があります(カットオフは何ですか?) そして、tとzのテスト、fテスト(およびロジスティック回帰がありますが、今のところは省略します)があります...私はさまざまなテストアプローチにdrれているように感じていますこの単純なA / Bテストケースのさまざまなメソッドに対して、ある種の引数を作成します。 サンプルデータを使用して、次のp値を取得しています https://vwo.com/ab-split-test-significance-calculator/は0.001のp値(zスコア)を提供します http://www.evanmiller.org/ab-testing/chi-squared.html(カイ二乗検定を使用)は、0.00259のp値を与えます そして、R …


6
2つの二項分布が互いに統計的に異なるかどうかをテストします
データには3つのグループがあり、それぞれに二項分布があります(つまり、各グループには成功または失敗の要素があります)。成功の予測確率はありませんが、真の成功率の近似として、それぞれの成功率にのみ頼ることができます。私はこの質問を見つけましたが、これは近いですが、このシナリオに正確に対処していないようです。 テストを簡略化するために、2つのグループがあるとしましょう(このベースケースから3つのグループを拡張できます)。 グループ1の試行: = 2455n1n1n_1 グループ2試験: = 2730n2n2n_2 グループ1の成功:k1k1k_1 = 1556 グループ2の成功:k2k2k_2 = 1671 予想される成功確率はありません。サンプルから知っていることだけです。したがって、2つのグループの成功率は次のとおりです。 グループ1の成功率:p1p1p_1 = 1556/2455 = 63.4% グループ2の成功率: p2p2p_2 = 1671/2730 = 61.2% 各サンプルの成功率はかなり近いです。しかし、私のサンプルサイズも非常に大きいです。二項分布のC​​DFを調べて、最初の分布との違いを確認すると(最初はヌルテストであると仮定します)、2番目の分布が達成される可能性は非常に小さくなります。 Excelの場合: 1-BINOM.DIST(1556,2455,61.2%、TRUE)= 0.012 ただし、これは最初の結果の分散を考慮せず、最初の結果がテスト確率であると見なします。 これらの2つのデータサンプルが実際に互いに統計的に異なるかどうかをテストするより良い方法はありますか?

5
p値は本質的に役に立たず、使用するには危険ですか?
NY Timesのこの記事「The Odds、Continually Updated」たまたま私の注目を集めました。簡潔に言うと、 [ベイジアン統計]は、2013年に沿岸警備隊が行方不明の漁師ジョン・アルドリッジを見つけるために使用した検索など、複雑な問題へのアプローチに特に有用であることが証明されています(これまでのところ、マレーシア航空370便の捜索ではありません)。 ......、ベイジアン統計は、物理学からがん研究、生態学から心理学まで、あらゆるものを波打っています... この記事では、次のような頻度主義者のp値に関する批判もあります。 p値が5パーセント未満の場合、結果は通常「統計的に有意」とみなされます。しかし、この伝統には危険があります、とコロンビアの統計学教授アンドリュー・ゲルマンは言いました。科学者が常に正しく計算を行っていたとしても、そうではないと彼は主張します。p値が5%のすべてを受け入れるということは、20の「統計的に有意な」結果の1つがランダムノイズに他ならないことを意味します。 上記のほかに、おそらくp値を批判する最も有名な論文はこれです-NatureのRegina Nuzzoによる「科学的方法:統計誤差」では、再現性の懸念など、 p値ハッキングなど 統計的妥当性の「ゴールドスタンダード」であるP値は、多くの科学者が想定しているほど信頼性が高くありません。......おそらく、最悪の誤theは、ペンシルベニア大学の心理学者Uri Simonsohnと彼の同僚がPハッキングという用語を広めた一種の自己欺ceptionです。データのred、スヌーピング、釣り、重要度追跡、ダブルディップとしても知られています。「P-hacking」はサイモンソン氏は言います。「意図した結果が得られるまで、複数のことを試みています」。......「その発見はPハッキングによって得られたようです。著者は、全体のp値が.05未満になるように条件の1つを下げました」と「彼女はpハッカーであり、彼女は収集中のデータを常に監視しています。」 別のことは、プロットについてのコメント付きの、ここから続く興味深いプロットです: 効果がどれほど小さくても、p <.05のしきい値を渡すために、常にデータを収集するという大変な作業を行うことができます。調査している効果が存在しない限り、p値はデータ収集にどれだけの労力を費やしたかを測定するだけです。 上記のすべてについて、私の質問は次のとおりです。 2番目のブロック引用でのAndrew Gelmanの議論は正確に何を意味するのでしょうか?なぜ彼は5%のp値を「統計的に有意な結果の20分の1が注目に値するがランダムなノイズ」と解釈したのですか?私にとって、p値は1つの研究の推論に使用されるため、私は確信していません。彼のポイントは複数のテストに関連しているようです。 更新: Andrew Gelmanのこれについてのブログを確認してください:いいえ、私はそれを言わなかった!(@ Scortchi、@ whuberへのクレジット)。 p値についての批判と、モデルの重要性を評価するためのAIC、BIC、Mallowの(したがって変数)のような多くの情報基準があるため、変数選択にp値を使用しないでくださいそれらのモデル選択基準を使用する以外はすべて?CpCpC_p より信頼性の高い研究結果につながる可能性のある統計分析にp値を使用する実用的なガイダンスはありますか? 統計学者が主張するように、ベイジアンモデリングフレームワークは追求するより良い方法でしょうか?具体的には、ベイジアンアプローチは、データの問題の誤検出や操作を解決する可能性が高いでしょうか?事前のアプローチはベイジアンのアプローチでは非常に主観的であるため、ここでも納得できません。ベイジアンのアプローチが頻度主義者のp値よりも優れていることを示す実用的で有名な研究はありますか、少なくとも特定のケースではありますか? 更新:ベイジアンアプローチが頻度主義者のp値アプローチよりも信頼できる場合があるかどうかに特に興味があります。「信頼できる」とは、ベイジアンアプローチが望ましい結果を得るためにデータを操作する可能性が低いことを意味します。助言がありますか? アップデート6/9/2015 ニュースに気付いたばかりで、議論のためにここに置いておくといいと思いました。 心理学ジャーナルはP値を禁止 少なくとも1つのジャーナルで、物議を醸す統計テストが最終的に終わりました。今月初め、Basic and Applied Social Psychology(BASP)の編集者は、統計が低品質の研究をサポートするためにあまりにも頻繁に使用されたため、P値を含む論文を出版しないと発表しました。 Natureの P値についての最近の論文「気まぐれなP値は再現性のない結果を生成します」に加えて 2016年5月8日更新 3月に、米国統計協会(ASA)は統計的有意性とp値に関する声明を発表しました。「.... ASAの声明は、研究を「ポストp <0.05時代」に導くことを目的としています」 このステートメントには、p値の誤用に対処する6つの原則が含まれています。 P値は、データが指定された統計モデルとどの程度互換性がないかを示すことができます。 P値は、調査した仮説が真である確率、またはデータがランダムチャンスのみによって生成された確率を測定しません。 科学的結論とビジネスまたは政策決定は、p値が特定のしきい値を超えるかどうかだけに基づいてはなりません。 適切な推論には、完全なレポートと透明性が必要です。 p値または統計的有意性は、効果の大きさや結果の重要性を測定しません。 p値自体は、モデルまたは仮説に関する証拠の適切な尺度を提供しません。 詳細: …

1
ロジスティック回帰:anovaカイ2乗検定対係数の有意性(anova()vs summary()in R)
8つの変数を持つロジスティックGLMモデルがあります。Rでカイ2乗検定を実行しましたanova(glm.model,test='Chisq')が、変数の2つは、テストの一番上で注文したときに予測的であり、一番下で注文したときにはそれほど予測されませんでした。summary(glm.model)それらの係数は有意でない(高いp値)であることを示唆しています。この場合、変数は重要ではないようです。 変数の有意性のより良い検定-モデルの要約の係数の有意性またはからのカイ2乗検定のどちらがよいかを尋ねたかったのanova()です。また、どちらが一方よりも優れているのはいつですか? 私はそれは広範な質問だと思いますが、何を考慮すべきかについてのポインタは評価されるでしょう。

2
「p値」の正確な値は無意味ですか?
私は2009年に統計学者と話し合い、p値の正確な値は無関係であると述べました。重要なことはそれが有意であるかどうかだけです。つまり、ある結果が別の結果よりも重要になることはありません。たとえば、サンプルは同じ母集団からのものであるかそうでないかです。 私はこれにいくつかの不安を持っていますが、おそらくイデオロギーを理解できます 5%のしきい値は任意です。つまり、p = 0.051は重要ではなく、p = 0.049は、一方の結果が重要でもう一方が重要ではないにもかかわらず、観測または実験の結論を実際に変更すべきではありません。 私が今これを取り上げる理由は、私がバイオインフォマティクスの修士課程を勉強していることであり、現場の人々と話した後、彼らが行うすべての統計の正確なp値を取得する決意があるようです。たとえば、p <1.9×10 -12の p値を「達成」する場合、結果がどの程度重要であり、この結果が非常に有益であることを示したいと考えています。この問題は、次のような質問で例示されています。なぜ2.2e-16より小さいp値を取得できないのですか?、偶然にもこれは1兆分の1未満であるということを示す値を記録したいと考えています。しかし、この結果は10億分の1ではなく1兆分の1未満であるということを示すことにはほとんど違いがありません。 p <0.01は、これが発生する可能性が1%未満であることを示し、p <0.001は、このような結果が前述のp値よりもさらに低いことを示しますが、結論を完全に引き出す必要があることを理解できます違う?結局、それらは両方とも有意なp値です。正確なp値を記録したいと考える唯一の方法は、ボンフェローニ補正を行うことです。これにより、比較の回数によってしきい値が変化し、タイプIエラーが減少します。しかし、それでも、しきい値の有意性より12桁小さいp値を表示したいのはなぜですか? また、Bonferroni補正自体を少しarbitrary意的に適用していませんか?最初は修正が非常に保守的であると見なされているため、オブザーバーが多重比較に使用できる有意水準にアクセスするために選択できる他の修正があります。しかし、このため、研究者が使用したい統計に応じて、何かが重要になるポイントは本質的に可変ではありません。統計は解釈に対してそれほど開かれているべきですか? 結論として、統計は主観的ではないはずではありませんが(主観的である必要性は多変量システムの結果であると思いますが)、最終的には明確化が必要です。そして、正確なp値を記録しようとすることに関して、p <0.001で十分ですか?

4
p値が小さいほど説得力がありますか?
値、タイプ1のエラー率、有意水準、検出力の計算、効果の大きさ、およびフィッシャーとネイマンピアソンの議論について読んでいます。これにより、私は少し圧倒されました。テキストの壁をおaびしますが、実際の質問に移る前に、これらの概念の現在の理解の概要を提供する必要があると感じました。ppp 私が収集したものから、値は単に驚きの尺度であり、帰無仮説が真であれば、少なくとも極端な結果が得られる確率です。フィッシャーはもともと、それが継続的な測定であることを意図していた。ppp Neyman-Pearsonフレームワークでは、事前に有意水準を選択し、これを(任意の)カットオフポイントとして使用します。有意水準はタイプ1のエラー率に等しくなります。これは、長時間の実行頻度によって定義されます。つまり、実験を1000回繰り返して帰無仮説が真である場合、それらの実験のうち約50がサンプリングのばらつきのために大きな効果をもたらします。有意水準を選択することにより、一定の確率でこれらの誤検知から身を守ります。値は伝統的にこのフレームワークには現れません。PPP 0.01の値が見つかった場合、これはタイプ1のエラー率が0.01であることを意味するものではなく、タイプ1のエラーは事前に示されます。p値は0.05 *、0.01 **、0.001 ***として報告されることが多いため、これはフィッシャー対NPの議論における主要な議論の1つであると思います。これは、特定の有意値ではなく、特定のp値で効果が有意であると人々を誤解させる可能性があります。ppppppppp また、値がサンプルサイズの関数であることも認識しています。したがって、絶対測定として使用することはできません。小さなp値は、大規模なサンプル実験での小さな、無関係な効果を示している可能性があります。これに対抗するには、実験のサンプルサイズを決定するときに、出力/効果サイズの計算を実行することが重要です。P値は、効果の大きさではなく、効果があるかどうかを示します。Sullivan 2012を参照してください。ppppppPPP 私の質問: p値が驚きの尺度(より小さい=より説得力がある)であると同時に、絶対的な測定値と見なすことができないという事実をどのように調整できますか?ppp 私が混乱しているのは、次のとおりです。小さな値の方が大きな値よりも自信がありますか?漁師の意味では、そうです、私たちはもっと驚いています。NPフレームワークでは、より低い有意水準を選択することは、偽陽性に対してより強力に保護していることを意味します。ppp しかし、一方で、値はサンプルサイズに依存します。それらは絶対的な尺度ではありません。したがって、0.001593が0.0439 より重要であると単純に言うことはできません。しかし、これはフィッシャーのフレームワークで暗示されていることです。このような極端な価値にもっと驚かれることでしょう。用語についても、議論があります非常に重要な誤った名称であること:それは「非常に重要」であるとの結果を参照するために間違ってますか?ppp 一部の科学分野の値は0.0001より小さい場合にのみ重要と見なされるのに対し、他の分野では0.01前後の値はすでに非常に重要であると見なされていると聞きました。ppp 関連する質問: 統計的検定に対するフィッシャーとネイマン・ピアソンのアプローチ間の「ハイブリッド」は、実際には「インコヒーレントなミッシュマッシュ」ですか? FisherとNeyman-Pearsonフレームワークを使用する場合 「p値」の正確な値は無意味ですか? タイプIエラーに関連したp値の頻度特性 2つの平均の信頼区間とP値 なぜp値が低いほどnullに対する証拠ではないのですか?Johansson 2011の引数(@amoeba提供)

4
なぜ低いp値はヌルに対する証拠ではないのですか?ヨハンソン2011からの議論
Johansson(2011)は、「Hail the不可能:p値、証拠、および可能性」(ここにもジャーナルへのリンクがあります)で、値が低いほど、nullに対する強力な証拠と見なされることが多いと述べています。Johanssonは、統計テ​​ストが値出力した場合よりも統計テストが値出力した場合、nullに対する証拠が強いと考えることを意味します。Johanssonは、値をnullに対する証拠として使用できない4つの理由をリストしています。pppppp0.010.010.01ppp0.450.450.45ppp pppは帰無仮説の下で均一に分布しているため、帰無の証拠を示すことはできません。 pppは帰無仮説のみに条件付けられ、したがって、証拠は別の仮説に関連する仮説の証拠または反対の証拠であるという意味で常に相対的であるため、証拠を定量化するのには適していません。 pppは、エビデンスの強度ではなく、エビデンスを取得する確率(nullの場合)を示します。 pppは、観察されていないデータと主観的な意図に依存するため、証拠の解釈を考慮すると、観察されたデータの証拠強度は、発生しなかったものと主観的な意図に依存することを意味します。 残念ながら、ヨハンソンの記事から直感的な理解を得ることができません。私にとっての-値 nullがより、真である少ないチャンスがあることを示しの-値。なぜ低いppp0.010.010.01ppp0.450.450.45ppp値はnullに対する強力な証拠ではないのですか?


5
個々の研究者は、誤発見率をどのように考えるべきですか?
私は、False Discovery Rate(FDR)が個々の研究者の結論をどのように知らせるべきかについて頭をかき回そうとしています。たとえば、研究の能力が不足している場合、有意であったとしても結果を割り引く必要がありますか?注:複数のテスト修正の方法としてではなく、複数の研究の結果を総合的に検討するという文脈でFDRについて話している。α = .05α=.05\alpha = .05 (多分寛大な)の仮定を作るテストの仮説が実際に真であるが、FDRは、タイプIの両方の関数であり、次のようにIIエラー率を入力します。〜0.5∼.5\sim.5 FDR = αα + 1 - β。FDR=αα+1−β.\text{FDR} = \frac{\alpha}{\alpha+1-\beta}. ある研究が十分な能力を持たない場合、十分な能力のある研究の結果と同様に、結果が有意であっても、結果を信頼すべきではないことは理にかなっています。したがって、一部の統計学者が言うように、「長期的に」、従来のガイドラインに従えば、誤った多くの重要な結果を公開する可能性がある状況があります。研究の一貫性が一貫して不十分な研究によって特徴づけられている場合(例えば、過去10年間の候補遺伝子環境相互作用の文献)、複製された重要な発見でさえ疑われる可能性があります。××\times Rパッケージを適用するとextrafont、ggplot2とxkcd、私はこれが有効として概念かもしれないと思うの視点の問題: この情報を与えられた場合、個々の研究者は次に何をすべきでしょうか?私が勉強している効果の大きさを推測している場合(したがって、サンプルサイズを考慮して推定値)、FDR = .05までαレベルを調整する必要がありますか?私の研究が十分ではなく、FDRの考慮を文献の消費者に委ねる場合でも、α = .05レベルで結果を公開する必要がありますか?1 - β1−β1 - \betaαα\alphaα = .05α=.05\alpha = .05 これは、このサイトと統計文献の両方で頻繁に議論されているトピックであることは知っていますが、この問題に関する意見の一致を見つけることができないようです。 編集: @amoebaのコメントに応じて、FDRは標準のタイプI /タイプIIエラー率分割表から導出できます(そのさをご容赦ください)。 | |Finding is significant |Finding is insignificant | |:---------------------------|:----------------------|:------------------------| |Finding is false in reality …

3
2つのサンプルが同じ母集団から引き出されているかどうかを判断する統計的テスト?
2つのサンプルがあるとします。それらが異なる母集団から引き出されているかどうかを知りたい場合は、t検定を実行できます。しかし、サンプルが同じ母集団からのものであるかどうかをテストしたいとしましょう。これをどのように行うのですか?つまり、これら2つのサンプルが同じ母集団から引き出された統計的確率を計算するにはどうすればよいですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.