統計とビッグデータ hypothesis-testing

1

仮定 Xi∼i.i.d.N(μ,σ2)Xi∼i.i.d.N(μ,σ2)X_i \stackrel{\mbox{i.i.d.}}{\sim} \mathcal{N} (\mu, \sigma^2)、どこ σ2σ2\sigma^2知られている。このデータを使用して、μ∈Qμ∈Q\mu \in \mathbb{Q}、つまり、平均かどうか μμ\mu 有理数です。ノイズが多すぎるため、これを実行できないことは直感的に明らかです。どのようなテストでもタイプIIのエラー率になると思いますβ=0β=0\beta = 0 タイプIのエラー率 α=1α=1\alpha = 1またはその逆。しかし、私はこの仮説検定問題について理論的な説明をする方法を理解していません。この問題は、テストが「難しい」場合を示すより一般的なフレームワークにどのように当てはまりますか？

7 probability hypothesis-testing normal-distribution mean iid

2

テストモデルの仮定は、pハッキング/フィッシングと見なされますか？

こことここで説明されている「Pハッキング」、「フィッシング」、および「分岐パスの庭」は、偏った推定値を生成する調査を行う探索的データ分析のようなスタイルを示しています。モデルの適合に使用されるのと同じデータセットで統計的検定を使用してモデルの仮定（たとえば、正規性、回帰のホモスケダスティシティ）をテストすることは、「p-ハッキング」または「分岐パスのガーデン」の問題と見なされますか？これらのテストの結果は、研究者が最終的にどのモデルに適合するかを決定するのに確かに影響します。

7 hypothesis-testing model-selection multiple-comparisons assumptions philosophical

1

混合モデルでのt検定とF検定の大きな違い（anovaとlmerTestの要約）

lmerTestによって提供された、Rのlme4における線形混合モデルのt検定とF検定の違いに関する質問に遭遇しました。線形混合モデルのあらゆる種類のp値を計算する際の問題（主に自由度の定義に問題があることが原因であることがわかっているため）と、主な効果の解釈に関する問題を認識しています。重要な相互作用の存在（マージナリティの原則に基づく）。簡単に言うと、データは2つの条件（合同TRUE / FALSE）の実験からのもので、6セットのセンサーで測定されます。これは、2つの要因の組み合わせとして説明できます。。以下の要約出力からわかるように、t.testは有意な合同効果（p = 0.12）を示しませんが、anova出力は非常に有意な合同効果（p = 2.8e-10）を示します。適合性には2つのレベルしかないため、これはF検定が固定因子のいくつかのレベルでオムニバステストを行った結果ではありません。したがって、何がanova出力に非常に重要な結果をもたらすのかはわかりません。これは、もちろんモデルのパラメータ化に主効果を含めることに依存する、合同性を伴う強い相互作用があるという事実によるものですか？ CrossValidatedでこの質問に対する以前の回答を探しましたが、おそらくこの質問に対する最初の回答を除いて、関連するものを見つけることができませんでした。しかし、それが本当の答えを提供するのであれば、それは数学に内在しているので、私が助けようとしている人に説明できる概念的な答えを探しています。 > final.mod<-lmer(uV~1+factor(congruity)*factor(laterality)*factor(anteriority)+(1|sent.id)+(1|Subject),data=selected.data) > summary(final.mod) Linear mixed model fit by REML t-tests use Satterthwaite approximations to degrees of freedom ['lmerMod'] Formula: uV ~ 1 + factor(congruity) * factor(laterality) * factor(anteriority) + (1 | sent.id) + (1 | Subject) Data: selected.data …

7 hypothesis-testing mixed-model t-test lme4-nlme f-test

2

ポッパーの理論によると、頻度主義の枠組みはベイジアンの枠組みよりも適切ですか？

カールポッパーによれば、偽りのない仮説だけが真に科学的です（Wikipedia引用）：実験的テストのレベルでの肯定的な結果の数は科学的理論を確認できませんが、単一の反例が論理的に決定的です。これらの理論的前提に沿って、どの統計フレームワークが頻繁であるか、それともベイジアンか？

7 hypothesis-testing bayesian frequentist

1

p値の信頼区間はどのくらいですか？

-値は、我々は仮説に対して推定することができますどのように強力に報告するために使用されます。明らかなように、この値自体はデータから推定され、同じ条件で収集された新しいデータの場合、新しい値が同じになることはほとんどありません。ppppppppp Nature Methodsの解説におけるHalsey、Curran-Everett、Vowler＆Drummond（2015）は、値を取り巻く不確実性がかなり大きくなる可能性があることを示しました。返信で、Lazzeroni、Lu＆Belitskaya-Lévy（2016、同じジャーナル）は、信頼区間が0.00000008から0.99になる0.049の観測された値の例を示しました。pppppp 私の質問は、値の標本分布を知っていますか？後者によれば、サンプルサイズには依存しません（これらはすべてテスト統計を「標準化」するために使用されるため、おそらくサンプルの標準偏差に依存します）。おそらく、それはテスト手順に依存する可能性がありますか？ppp 私があればということを知っている真である、の分布 -値が1の範囲0にわたって均一である（しかし、私はこのことを学んだ場所を覚えていないことができます）。ますます不十分である、の分布 -値（左テール試験用）0％確率上傾い、峰となります。H0H0H_0pppH0H0H_0ppp ブートストラップを使用すると、値の分布を視覚的に表現するのがかなり簡単になります。ただし、より満足のいく答えは、どのような特性がその分布に影響を与えるかを正確に把握できるようにするための式（閉形式はさらに優れている）になることです。これにより、信頼区間の幅が決まります。ppp あなたはそのような式を知っていますか、あるいはそれを持つことさえ可能ですか？

7 hypothesis-testing confidence-interval p-value bootstrap

2

仮説統計検定の導出方法に関する一般的なガイドラインは？

一般に、仮説検定のプロセスは4つのステップに分けることができます。仮説の観点から実際的な問題を定式化します。統計を計算する TTT、純粋にデータの関数。すべての優れたテスト統計には、2つの特性があります。（a）次の場合に動作が異なる傾向があります。H0H0H_0 いつから本当ですか H1H1H_1本当です; および（b）はその確率分布を仮定して計算可能でなければなりませんH0H0H_0 本当です。重要な地域を選択してください。の価値の種類を決定できなければなりませんTTT 最も強く指します H1H1H_1 よりも本当である H0H0H_0 本当であること。クリティカル領域のサイズを決定します。これには、誤った結論に至るリスクをどれだけ大きくするかを指定することが含まれます。テストの有意水準またはサイズを定義します。αα\alpha、私たちが拒否することで準備するリスクとして H0H0H_0 それが実際に真実であるとき。これは最も創造的なステップのようです。実際に特定のテストを他のテストと区別するのは、統計の選択です。 TTT。したがって、私の質問は次のとおりです。統計的仮説検定の著者はどのようにして彼らの統計を思いついたのですか？特定の問題を考えると、理想的な（これが客観的な理由で定義できる場合）統計がどうあるべきかは常に明白ですか？上記のステップ2にリストされている2つの要件は2つあり、同じ仮説をテストするためにさまざまな統計を考案することができます。たとえば、中央値やその他の統計に基づくt検定の別の代替検定ではなかったでしょうか？

7 hypothesis-testing

1

これはモンテカルロシミュレーションですか？

では、2つの正規分布を比較してみましょう Do this x times: runs <- 100000 a.samples <- rnorm(runs, mean = 5) b.samples <- rbeta(runs, mean = 0) mc.p.value <- sum(a.samples > b.samples)/runs アルファ（0.05）をxで割った値を下回るmc.p.値は、type1のエラー率になります。H0はa.samples> = b.samplesです。（https://www.countbayesie.com/blog/2015/3/3/6-amazing-trick-with-monte-carlo-simulationsに触発されて）しかし、モンテカルロシミュレーションは次の手順に従う必要があると思いました。アルゴリズム：データのいくつかの分布、f（）またはf（θ）、およびいくつかのH0を設定します。次の2つのステップを何度も繰り返します。（a）H0に従ってデータセットをシミュレートします（b）シミュレートしたデータを使用してT（x）を計算しますサンプルデータから評価されたT（X）を追加するすべてのT（x）を注文する p値は、T（x）の割合で、サンプルデータのT（x）よりも極端または極端ですしたがって、最初のコードスニペットは、真のモンテカルロシミュレーションではありませんか？これは、p値が有効であるためです。これをグラフ化すると、統計的検定で期待される5％のtype1エラー率が得られないためです。

7 r hypothesis-testing monte-carlo

1

2つのサンプルの歪度の違いをテストする方法は？

2つのサンプルがあります。それらの密度を見ると、1つは対称に見え、もう1つはいくつかの右裾分布から見えます。2つが同じ歪度を持たないことをテストしたいと思います（ここでは選択的推論の問題を無視しています）。私の計画は、2つのサンプルのブートストラップ複製を取り、歪度の違いを計算し、B回繰り返して、値の97.5％が0の両側のうちの1つになるかどうかを確認することです。私の質問は次のとおりです。1）正規性を仮定した場合（または他の何らかの仮定をした場合）、2つの観測の歪度を比較する既知のテストはありますか？2）このタイプのブートストラップ仮説検定を行うときに（上記の説明で触れなかった）知っておくべきことはありますか？ありがとう。（ps：Rの例はいつでも歓迎です）

7 r hypothesis-testing bootstrap skewness

1

ベンフォード・ロウのリアルタイムのテスト

で与えられる特定の量データがある。ここで、各数量の最初の桁を取得し、最初の桁の経験分布の関係を調べたいと思いここで、は、最初の数字としての正規化された頻度であり、ベンフォードの法則今、この論文を読みましたXXXx1,...,xnx1,...,xnx_1,...,x_ndidid_ixixix_ip^=(p^1,...,p^n)p^=(p^1,...,p^n)\hat{p}=(\hat{p}_1,...,\hat{p}_n)pi^pi^\hat{p_i}iiipi=log10(1+1/i)pi=log10⁡(1+1/i) p_i = \log_{10} (1 + 1/i) 最初の桁の経験的頻度とベンフォードの法則を比較することについて。ただし、彼らが言及する方法を使用して、データが特定の頻度（たとえば、1秒あたり50データ）で到着する場合に、ベンフォードの法則をリアルタイムで一定の信頼度で棄却できるかどうかについては触れていません。これらの方法は、次のようにベンフォードの法則とのリアルタイム比較に適用できると思います：（短い）時間間隔（たとえば、3秒）が与えられた場合、最初の桁の経験的頻度を計算します次に、前述のリファレンスに示されている統計の同時信頼区間と値を計算します（サンプルサイズを確認する必要があります）少なくとも60個のデータのため、統計の分布は、その必要があり、比較的近い漸近分布にすることなので、計算され -値がなければならない信頼できます）。p^=(p^1,...,p^n)p^=(p^1,...,p^n)\hat{p}=(\hat{p}_1,...,\hat{p}_n)pppppp 私の質問は、これは有効な手順ですか？それは意味がありますか？そうでない場合、経験的な最初の桁の分布をベンフォードの法則とリアルタイムで比較するための適切な方法はありますか？私が目にする1つの潜在的な問題は、最初の数字の基になる分布が、指定された時間枠内で（おそらく1回以上）変化する可能性があることです。これが、最初の桁の基になる分布が変化する可能性を低減しながら、適切なサンプルサイズを確保するために、比較的小さな時間ウィンドウを使用することをお勧めする理由です。

7 hypothesis-testing confidence-interval multinomial sequential-analysis real-time

3

「複数のテストの修正」と「結合テスト」の何が問題になっていますか？

複数のテスト修正が「任意」であり、それらが以下の一貫性のない哲学に基づいていると言われているのはなぜでしょうか。 1つのステートメントの真実性は、他のどの仮説が楽しまれるかに依存します Bonferroniの調整の何が問題になっているのかなどの回答やコメントを参照してください。特に@FrankHarrellと@Bonferroniの間の議論。（説明を簡単にするために）説明を簡単にするために、2つの（独立した）正規母集団があり、独立しており、標準偏差は既知であるが、手段は不明であると仮定します。（例として）これらの標準偏差がそれぞれであるとしましょう。。σ1=2,σ2=3σ1=2,σ2=3\sigma_1=2, \sigma_2=3 共同テスト仮説H_0をテストしたいとします：\ mu_1 = 2 \＆\ mu_2 = 2H0:μ1=2&μ2=2H0:μ1=2&μ2=2H_0: \mu_1 = 2 \& \mu_2=2対H_1：\ mu_1 \ ne 2 | \ mu_2 \ ne 2 \ alpha = 0.05のH1:μ1≠2|μ2≠2H1:μ1≠2|μ2≠2H_1: \mu_1 \ne 2 | \mu_2 \ne 2有意水準（記号\＆は「and」を意味し、|は「or」を意味します）。α=0.05α=0.05\alpha=0.05&&\&||| また、最初の母集団からのランダムな結果x1x1x_1と2番目の母集団からのバツ2x2x_2があります。場合真である最初確率変数及び第1我々は独立性を仮定したようにそれが保持しています確率変数は、。このを検定統計量として使用できます。観測された結果およびについて、が成り立つ場合、を受け入れH0H0H_0バツ1〜N（μ1= 2 、σ1= 2 ）X1∼N(μ1=2,σ1=2)X_1 \sim N(\mu_1=2,\sigma_1=2)バツ2〜N（μ2= 2 、σ2= …

7 hypothesis-testing multiple-comparisons bonferroni

2

非正規性に対する相関テストのロバスト性

ピアソンの相関検定統計の非正規性に対する堅牢性について、一見逆の2つのステートメントを調整しようとしています（nullは「相関なし」を意味します）。このCVの答えは言う：非常に堅牢ではありません。このバイオスタットハンドブックには次のように書かれています。 [...]多数のシミュレーション研究により、線形回帰と相関は非正規性の影響を受けないことが示されています。一方または両方の測定変数は非常に非正規である可能性があり、偽陽性の確率（帰無仮説が真の場合はP <0.05）は依然として約0.05です（EdgellおよびNoon 1984、およびその参照）。何が欠けていますか？

7 hypothesis-testing correlation p-value robust

タグ付けされた質問 「hypothesis-testing」

タグ付けされた質問「hypothesis-testing」