タグ付けされた質問 「hypothesis-testing」

仮説検定では、データがランダムな変動の影響ではなく、特定の仮説と矛盾しているかどうかを評価します。

5
なぜこれらのステートメントは平均値の95%CIから論理的に従わないのですか?
私はWaekmakersのWebサイトからダウンロードした、「信頼区間のロバストな誤解」に関するHoekstraらの2014年の論文を読んでいます。 最後から2番目のページに次の画像が表示されます。 著者によると、Falseはこれらすべてのステートメントに対する正しい答えです。陳述が偽である理由はよくわかりませんが、私が知る限り、残りの論文ではこれを説明しようとはしていません。 1-2と4は、真の平均が未知の明確な値を持っているときに、真の平均の可能性のある値について何かを主張するため、正しくないと思います。これは説得力のある違いですか? 3に関して、私は帰無仮説が間違っている可能性について主張するつもりはないことを理解していますが、その理由はあまりわかりません。 同様に、6は、真の平均が実験ごとに変化していることを意味するため、真ではありえません。 私がまったく理解していないのは5です。なぜそれが間違っているのですか?95%の時間で真の平均を含むCIを生成するプロセスがある場合、人口値が0.1から0.4の間である95%の信頼性があると言わないのはなぜですか?真の平均値を含まない5%の1つである可能性が高いと思わせる、採取したサンプルに関する特別な情報がある可能性があるからでしょうか。たとえば、0.13は信頼区間に含まれており、何らかの理由で、特定の研究のコンテキスト内では0.13は妥当な値とは見なされません。たとえば、その値は以前の理論と矛盾するためです。 とにかく、この文脈で自信は何を意味しますか?

3
非常に小さなサンプルサイズ(n = 6など)で正規性をテストすることは意味がありますか?
サンプルサイズは6です。このような場合、Kolmogorov-Smirnov検定を使用して正規性を検定するのは理にかなっていますか?SPSSを使用しました。それぞれの取得に時間がかかるため、サンプルサイズは非常に小さくなっています。それが意味をなさない場合、テストするのに意味のある最小数はいくつのサンプルですか? 注: ソースコードに関連するいくつかの実験を行いました。サンプルは、ソフトウェアのバージョン(バージョンA)でのコーディングに費やされた時間です。 実際には、別のバージョンのソフトウェア(バージョンB)でのコーディングに費やされたサンプルサイズ6があります。 コードバージョンAで費やされた時間がコードバージョンBで費やされた時間と異なるかどうかをテストするために、1サンプルt検定を使用して仮説テストを行いたいと思います(これは私のH1です)。1サンプルのt検定の前提条件は、テストするデータを正規分布する必要があることです。そのため、正常性をテストする必要があります。

5
フィッシャーの「より多くのデータを取得する」アプローチが意味を持つのはいつですか?
gungの素晴らしい答えを引用する 伝えられるところでは、ある研究者が「重要でない」結果でフィッシャーに近づき、何をすべきかを尋ね、フィッシャーは「より多くのデータを取得する」と言いました。 ネイマン・ピアソンの観点から、これは露骨なハッキングですが、フィッシャーのgo-get-more-dataアプローチが理にかなっているユースケースはありますか?ppp

1
t検定の死亡の報告は非常に誇張されていますか?
CVの昔からの古典を読んで、はっきりさせたいと思う声明に出くわしました。これが投稿であり、私の質問は最後の発言に言及しています。「私が伝えた知識はすべて時代遅れであることに注意する必要があります。おそらく、t検定を実行するように教えられた場所であればどこでもWilcoxonテストを使用したいでしょう。」 サンプル平均の分布がt検定を実行するのに十分に正常であると仮定するのが妥当かどうかについての心配がないことは、明らかに大きな利点です。そして、コンピューターは、2つのデータベクトル間の差の長いリストを簡単にランク付けできることを確認します。 それで、t検定は本当に過去のものですか?順列テストはどうですか?通常、数行のコードを書くという意味で、あまりにもアドホックですか?

4
Ziliak(2011)は、p値の使用に反対し、いくつかの代替案に言及しています。彼らは何ですか?
「Matrixx v。SiracusanoおよびStudent v。Fisher 統計的有意性」(DOI:10.1111 / j.1740-9713.2011.00511.x)と呼ばれる、統計的推論のためにp値に依存するデメリットを議論する最近の記事では、 Stephen T. Ziliakは、p値の使用に反対しています。最後の段落で彼は言う: データは、私たちがすでに知っていることの1つであり、確かです。私たちが実際に知りたいのは、まったく異なるものです。データが与えられた場合、仮説が真である(または少なくとも実用的に有用である)確率です。入手可能な証拠があれば、2つの薬物が異なる確率、およびその程度を知りたいと思います。転置された条件の誤fall、フィッシャーが陥ったtrapに基づいた有意性テストは、その確率を教えてくれません。パワー関数、予想損失関数、およびスチューデントとジェフリーズから派生した多くの意思決定理論およびベイジアン手法は、現在広く利用可能でオンラインで無料です。 べき関数、予想損失関数、および「その他の決定理論およびベイズ法」とは何ですか?これらの方法は広く使用されていますか?Rで利用できますか?これらの新しい推奨方法はどのように実装されますか?たとえば、これらの方法を使用して、従来の2標本のt検定とp値を使用するデータセットで仮説をテストする方法を教えてください。

1
経験的ベイズはどのように有効ですか?
だから私はちょうど素晴らしい本入門の経験的ベイズを読み終えました。この本は素晴らしいと思いましたが、データからの事前作成は間違っていると感じました。分析計画を立て、データを収集し、分析計画で以前に決定した仮説をテストするように訓練されました。すでに収集したデータを分析すると、選択後の推論が行われ、「重要」と呼ばれるものをより厳しくする必要があります。こちらを参照してください。機械学習には、テストとトレーニングセットを設定する前に予測子を選択することを意味する「チェリーピッキング」と呼ばれる類似したものがあると思います(統計学習の概要)。 私が以前に学んだことを考えると、経験的なベイズは弱い基盤に基づいているように思えます。データが受動的に生成された設定でのみ使用されますか?もしそうなら、これは正当かもしれませんが、厳密な実験計画を行うときにそれを使用するのは正しくないようですが、ブラッド・エフロンは一般に非常にNHST分野である生物統計学のために経験的ベイズを使用することを知っています。 私の質問は: 経験的ベイズはどのように有効ですか? どのような状況で使用されますか? どのような状況で経験的ベイズアプローチの使用を避ける必要がありますか?その理由は? 人々は生物統計学以外の分野でそれを使用していますか?もしそうなら、どのような状況でそれを使用していますか?

3
夜明け以降、すべての実験に複数の仮説修正が適用されないのはなぜですか?
私たちは、そうでない場合は、偽発見率を制御するために、単一のデータセットに基づいて実験にBenjamini Hochbergのような複数の仮説検証のための修正を適用しなければならないことを知っているすべての肯定的な結果が得られた実験が偽である可能性があります。 しかし、データがどこから来たかに関係なく、この同じ原理を時間の初めからすべての実験に適用しないのはなぜですか? 結局のところ、「重要」と見なされる公開された科学的結果の半分以上は、現在、偽りで再現不可能であることが知られており、これが100%になりにくい理由はありません。科学者はポジティブな結果のみを公開する傾向があるため、ネガティブな結果の数がわからないため、公開したものが偽陽性のみであるかどうかはわかりません。一方、複数の仮説検定修正の背後にある数学が同じデータセットからの結果にのみ適用されるべきであり、経時的に取得されたすべての実験データからの結果に適用されるべきではないということはありません。 科学全体が、誤った仮説や弱い仮説に基づいた1つの大きな漁業遠征になったようです。 これまでに実行されたすべての実験で複数の仮説検定の修正を適用せずに、独立した結果のみを公開した場合、どのように偽発見率を制御できますか? このような修正を適用せずに、誤検出率を制御することは可能ですか?

4
Shapiro–Wilkは最高の正規性テストですか?Anderson-Darlingのような他のテストよりも優れているのはなぜですか?
私は与えられた有意水準、のためので、シャピロ-ウィルク検定は、最高の正規のテストと見なされることが文献でどこかで読んだ、帰無仮説を棄却する確率は、それの偽は他の場合よりも高い場合正常性テスト。αα\alpha 可能であれば数学的な議論を使用して、他の正常性テスト(アンダーソン-ダーリングテストなど)と比較してどのように機能するかを説明してください。

3
健全性チェック:p値はどのくらい低くできますか?
2つのサンプル()の中央値を比較するためにランクサムテストを使用しており、それらが以下と大きく異なることがわかりました。このような小さな値を疑うべきですか、それとも非常に大きなサンプルを持つことに関連する高い統計的検出力に起因するのでしょうか?疑わしいほど低い値などはありますか?n = 120000n=120000n=120000p = 1.12E-207pppppp

3
毎日の時系列分析
私は時系列分析を行おうとしており、この分野は初めてです。2006年から2009年までのイベントを毎日数えており、時系列モデルをそれに合わせたいと考えています。これが私が達成した進歩です。 timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 結果のプロットは次のとおりです。 データに季節性と傾向があるかどうかを確認するには、この投稿に記載されている手順に従います。 ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal そしてロブ・J・ハインドマンのブログで: library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) どちらの場合も、季節性がないことを示しています。 シリーズのACFとPACFをプロットすると、次のようになります。 私の質問は: これは、毎日の時系列データを処理する方法ですか?このページは、週ごとと年ごとのパターンを検討する必要があることを示唆していますが、そのアプローチは明確ではありません。 ACFプロットとPACFプロットを取得した後、どのように進めるかわかりません。 auto.arima関数を単純に使用できますか? fit <-arima(myts、order = c(p、d、q) ***** Auto.Arimaの結果を更新****** ここでRob Hyndmanのコメントに従ってデータの頻度を7に変更すると、auto.arimaは季節ARIMAモデルを選択して出力します。 …

4
能力不足の研究では、誤検知の可能性が増加していますか?
この質問はこことここで以前に尋ねられましたが、答えが質問に直接対処するとは思いません。 能力不足の研究では、誤検知の可能性が増加していますか?いくつかのニュース記事がこの主張をしています。以下の場合の例: 低い統計的検出力は悪いニュースです。能力不足の研究は、本物の効果を見逃す可能性が高く、グループとしては、偽陽性の割合が高い可能性が高くなります。つまり、現実ではなくても統計的有意性に達する効果です。 私が理解しているように、テストの力は次のように高めることができます。 サンプルサイズを増やす エフェクトサイズが大きい 有意水準を上げる 有意水準を変更したくないと仮定すると、上記の引用はサンプルサイズの変更に言及していると思います。ただし、サンプルを減らすことで誤検出の数がどのように増えるかはわかりません。簡単に言えば、研究の力を弱めると、質問に答える偽陰性の可能性が高まります。 P(Hを拒否できない 0| H0 偽です)P(拒否しない H0|H0 間違っている)P(\text{failure to reject }H_{0}|H_{0}\text{ is false}) それどころか、誤検知は質問に応答します。 P( Hを拒否 0|H0 本当です)P(拒絶する H0|H0 本当です)P(\text{reject }H_{0}|H_{0}\text{ is true}) 条件が異なるため、両方とも異なる質問です。パワーは、(逆に)偽陰性に関連していますが、偽陽性には関連していません。何か不足していますか?

4
Rの正確な2つのサンプル比率の二項検定(およびいくつかの奇妙なp値)
私は次の質問を解決しようとしています: プレーヤーAは25ゲーム中17勝、プレーヤーBは20ゲーム中8勝-両方の比率に大きな違いはありますか? Rで頭に浮かぶことは次のとおりです。 > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 したがって、このテストでは、95%の信頼レベルでは差は有意ではないと述べています。 prop.test()近似のみを使用していることがわかっているので、正確な二項検定を使用してより正確にしたい-と私は両方の方法でそれを行う: > …

7
Bonferroniの調整の何が問題になっていますか?
私は次の論文を読みました:Perneger(1998)ボンフェローニ調整の何が問題なのか。 著者は、Bonferroniの調整は、せいぜい生物医学研究での用途が限られているため、特定の仮説に関する証拠を評価する際には使用すべきではないと述べて要約しました。 要約ポイント: 研究データで実行されたテストの数の統計的有意性の調整—ボンフェローニ法—は、解決するよりも多くの問題を作成します ボンフェローニ法は、一般的な帰無仮説(すべての帰無仮説が同時に真であるという)に関係しています。 主な弱点は、発見の解釈が実行される他のテストの数に依存することです タイプIIエラーの可能性も増加するため、真に重要な違いは重要ではないとみなされます。 実行された有意性のテストとその理由を単に説明することが、一般的に多重比較を処理する最良の方法です。 次のデータセットがあり、複数のテスト修正を行いたいのですが、この場合の最良の方法を決定することはできません。 平均のリストを含むすべてのデータセットに対してこの種の修正を行うことが不可欠かどうか、この場合の修正の最良の方法は何か知りたいですか?

1
先験的な消費電力解析は本質的に役に立たないのですか?
先週パーソナリティと社会心理学会の会議に出席しました。そこでは、先験的な検出力分析を使用してサンプルサイズを決定することは、結果が仮定に非常に敏感であるため本質的に役に立たないという前提でUri Simonsohnの講演を見ました。 もちろん、この主張は、私のメソッドクラスで教えられたものと、多くの著名な方法論者の推薦(特にCohen、1992)に反するため、ウリは彼の主張に関連するいくつかの証拠を提示しました。この証拠のいくつかを以下で再現しようとしました。 簡単にするために、2つのグループの観測値がある状況を想像して、(標準化された平均差で測定される)効果サイズがと推測します。標準的な電力計算(以下のパッケージを使用して行われます)では、この設計で80%の電力を得るには観測値が必要であることがわかります。.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") ただし、通常、予想される効果の大きさについての推測は(少なくとも私の研究分野である社会科学では)まさにそれです-非常に大まかな推測です。エフェクトのサイズについての推測が少しずれている場合はどうなりますか?迅速な電力計算は、効果の大きさがある場合ことを示していますの代わりに、あなたが必要とする -観測あなたはの効果の大きさのために十分な力を持っている必要があると倍の数。同様に、エフェクトのサイズが場合、必要な観測値はだけです。これはエフェクトサイズを検出するのに十分なパワーが必要なものの70%です。.4.4.4.5.5.52002002001.561.561.56.5.5.5.6.6.6909090.50.50.50。事実上、推定観測の範囲が非常に大きいです-に。909090200200200 この問題に対する応答の1つは、効果のサイズを純粋に推測する代わりに、過去の文献またはパイロットテストを通じて、効果のサイズに関する証拠を収集することです。もちろん、パイロットテストを実行している場合は、パイロットテストを十分に小さくして、スタディの実行に必要なサンプルサイズを決定するためだけにスタディのバージョンを実行するのではなく(たとえば、パイロットテストで使用するサンプルサイズを調査のサンプルサイズよりも小さくする必要があります)。 Uri Simonsohnは、電力分析で使用される効果の大きさを決定するためのパイロットテストは役に立たないと主張しました。私が実行した次のシミュレーションを検討してくださいR。このシミュレーションでは、母集団効果のサイズがと想定しています。次に、サイズ40の1000回の「パイロットテスト」を実行し、10000個のパイロットテストのそれぞれから推奨されるNを集計します。.5.5.5100010001000NNN …

5
帰無仮説を棄却したので、次は何ですか?
帰無仮説を何度も拒否したか、拒否しなかった。却下に失敗した場合、却下の十分な証拠がないと結論付け、「先に進む」(つまり、さらにデータを収集する、実験を終了するなど) しかし、ときに提供し、帰無仮説を棄却「ん」いくつかのあなたが本当にあなたの対立仮説が実際に成り立つことを「証明」することはできません対立仮説の証拠を。 それでは、帰無仮説を棄却した後の一般的な次のステップは何ですか?調査結果をより決定的なものにするために、「問題をさらに分析する」ためにどのツール/手法を採用していますか?さらなる分析を必要とする統計学者としての論理的な「次のステップ」は何ですか? 例えば: H0:μ1= μ0H0:μ1=μ0H_0: \mu_1 = \mu_0 H1:μ1> μ0H1:μ1>μ0H_1: \mu_1 > \mu_0(予想される方向がわかっていると言います) ある有意水準で帰無仮説を棄却すると、代替案が真実であるという「何らかの証拠」が得られますが、その結論を引き出すことはできません。その結論を本当に結論付けたい場合(ダブルワードプレイをご容赦ください)、どうすればよいですか? 私は学部時代にこの質問について考えたことはありませんでしたが、今ではかなり多くの仮説をテストしているので、何が先にあるのか疑問に思います:)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.