統計とビッグデータ hypothesis-testing

4

過去数年間、さまざまな学者が科学的仮説検定の有害な問題を提起しており、これは「研究者の自由度」と呼ばれています。つまり、科学者は分析中に、p値<5％の発見に偏る多くの選択肢を持っています。これらのあいまいな選択は、たとえば、どのケースが含まれるか、どのケースが外れ値として分類されるか、何かが現れるまで多数のモデル仕様を実行するか、nullの結果を公開しないかなどです（心理学におけるこの議論を引き起こした論文はここにあります、人気のスレートの記事を参照し、フォローアップの議論をアンドリュー・ゲルマンことで、ここで、そしてタイム誌にもこの話題に触れここに。）最初に、1つの明確化の質問：タイム誌は書いて、「0.8のべき乗とは、テストされた10の真の仮説のうち、その影響がデータに反映されないため、除外されるのは2つだけであることを意味します。」これが、教科書で見つけたべき関数の定義にどのように当てはまるかはわかりません。これは、パラメーター関数としてnullを拒否する確率ですθθ\theta。異なるとθθ\theta我々は異なる力を持っているので、私はかなり上記の引用を理解していません。第二に、いくつかの研究の影響：私の政治学/経済学の分野では、学者は利用可能な国年データをすべて使い果たします。したがって、ここでサンプルをいじる必要はありませんか？複数のテストを実行して1つのモデルのみを報告するという問題は、その分野の他の誰かがあなたの論文を再テストし、堅牢な結果が得られなかったとしてすぐにあなたを打ちのめすという事実によって修正できますか？これを予測して、私の分野の学者は、robustness check複数のモデル仕様が結果を変更しないことを示すセクションを含める可能性が高くなります。これで十分ですか？ Andrew Gelmanらは、データに関係なく、実際には存在しない「パターン」を見つけて公開することが常に可能であると主張している。しかし、経験に基づく「パターン」は理論によってサポートされなければならないという事実を考えると、これは問題になりません。ある分野内のライバル理論は、どのキャンプがより多くの「パターン」を見つけることができるかを見つけるために議論/競争に参加するだけです。様々な場所で。パターンが本当に疑わしい場合、他のサンプル/設定に同様のパターンがない場合、背後にある理論はすぐに打ち消されます。これが科学の進歩ではないでしょうか？無効な結果に対するジャーナルの現在の傾向が実際に繁栄すると仮定すると、すべての無効な結果と肯定的な結果を一緒に集計し、それらすべてがテストしようとしている理論を推測する方法はありますか？

10 hypothesis-testing inference philosophical reproducible-research social-science

1

ウェルチ（1947）のおおよその自由度またはサッタースウェイト（1946）を使用する必要がありますか？

ウェルチのt検定に使用する自由度のおおよその正しい式について混乱しています。Satterthwaite（1946）の公式は最も一般的に引用されている公式ですが、Welchは1947年に代替案を提供しました。サッタースウェイトの公式：（s2バツ/ nバツ+ s2y/ ny）2（s2バツ/ nバツ）2/（ nバツ− 1 ）+ （s2y/ ny）2/（ ny− 1 ）(sx2/nx+sy2/ny)2(sx2/nx)2/(nx−1)+(sy2/ny)2/(ny−1)\frac{\left(s_x^2/n_x +s_y^2/n_y\right)^2}{(s_x^2/n_x )^2/(n_x-1)+(s_y^2/n_y )^2/(n_y-1)} ウェルチの公式： − 2 + （s2バツ/ nバツ+ s2y/ ny）2（s2バツ/ nバツ）2/（ nバツ+ 1 ）+ （s2y/ ny）2/（ ny+ 1 ）−2+(sx2/nx+sy2/ny)2(sx2/nx)2/(nx+1)+(sy2/ny)2/(ny+1)-2+ \frac{\left(s_x^2/n_x +s_y^2/n_y\right)^2}{(s_x^2/n_x )^2/(n_x+1)+(s_y^2/n_y )^2/(n_y+1)} 参照： Satterthwaite、FE（1946）。「分散成分の推定値の近似分布」。Biometrics Bulletin、2、6、110-114ページ。ウェルチ、BL（1947）。「いくつかの異なる母集団分散が関与する場合の「学生」問題の一般化」。Biometrika、34、1 / 2、28-35ページ。

10 hypothesis-testing t-test degrees-of-freedom

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

1

効果サイズの一般的な定義はありますか？

effect-sizeタグにはWikiを持っていません。効果の大きさについてのWikipediaのページには、正確な一般的な定義を提供していません。そして、私はエフェクトサイズの一般的な定義を見たことがありません。しかし、このような議論を読んでいると、統計的検定の文脈において、人々が効果の大きさの一般的な概念を頭に持っているという印象を受けます。標準化された平均は、標準モデルの効果サイズ呼ばれ、標準化された平均差N（μ 、σ 2）θ = （μ 1 - μ 2）/ σθ = μ / σθ=μ/σ\theta=\mu/\sigmaN（μ 、σ2）N(μ,σ2){\cal N}(\mu,\sigma^2)θ = （μ1- μ2）/ σθ=(μ1−μ2)/σ\theta=(\mu_1-\mu_2)/\sigma「2ガウス平均」モデルの場合。しかし、一般的な定義はどうですか？上記の2つの例に共通する興味深い特性は、私が見る限りでは、パワーはを介してのみパラメーターに依存し、増加関数であることです| θ |θθ\theta| θ ||θ||\theta|最初のケースではの通常のテストを検討し、2番目のケースではをます。 H 0：{ μ 1 = μ 2 }H0：{ μ = 0 }H0:{μ=0}H_0:\{\mu=0\}H0：{ μ1= μ2}H0:{μ1=μ2}H_0:\{\mu_1=\mu_2\} このプロパティは、エフェクトサイズの概念の背後にある基本的なアイデアですか？つまり、効果のサイズは単調な1対1の変換まで定義されるということでしょうか。または、より正確な一般的な定義はありますか？

10 hypothesis-testing effect-size power

1

統計的検定の提案

私は、次の上の適切な統計的検定（尤度比検定、t検定など）を見つける必要がある：レッツをランダムベクトルのIID試料で（X 、Y ）と仮定する（Y X）〜N [ （μ 1 μ 2）、（1 0.5 0.5 1） ]。仮説がある： H 0 = μ 1 + μ{Xi;Yi}ni=1{Xi;Yi}i=1n\{X_i;Y_i\}^n_{i=1}(X;Y)(X;Y)(X;Y)(YX)(YX)\bigl( \begin{smallmatrix} Y\\ X \end{smallmatrix} \bigr)NNN [(μ1μ2),(1.5.51)][(μ1μ2),(1.5.51)]\left[\bigl( \begin{smallmatrix} \mu_1\\ \mu_2 \end{smallmatrix} \bigr), \bigl( \begin{smallmatrix} 1 & .5\\ .5 & 1 \end{smallmatrix} \bigr) \right]。 H 1 = μ 1 + μ 2 …

10 hypothesis-testing self-study

3

帰無仮説がある場合の二項データの検出力分析

対 2項データから単一サンプルの電力分析を実行したいと思います。ここで、は母集団内の成功の割合です。場合、項の正規近似または -testのいずれかを使用できますが、場合、どちらも失敗します。この分析を行う方法があるかどうか知りたいです。提案、コメント、または参考資料をいただければ幸いです。どうもありがとう！H 1：P = 0.001 、P 0 < P < 1 χ 2、P = 0H0:p=0H0:p=0H_0: p = 0H1:p=0.001H1:p=0.001H_1: p = 0.001ppp0<p<10<p<10 < p <1χ2χ2\chi^2p=0p=0p =0

10 hypothesis-testing sample-size power-analysis power

2

「類似した」ソースコードのクラスターを検出する

コンピューターサイエンスプロジェクトを行う必要のある400人の学生（大規模な大学の学生）がいて、彼らは（学生のグループではなく）一人で作業する必要があると仮定します。プロジェクトの例としては、「Fortranでの高速フーリエ変換アルゴリズムの実装」が挙げられます（これはセクシーに聞こえませんが、質問が簡単になります）。私は修正者であり、「本当に独立して書くにはあまりにも類似している」実装を提案している学生のグループがあるかどうかを確認するルーチンを送信したいと思います。これは、クラスターの教師なし検索です。問題は、使用するクラスタリングアルゴリズムではなく、使用する属性に関するものだと思います。最初に行うのは、文字ごとのヒストグラムです。理想的には、詐欺師はそれより賢いので、最終的には文字のランダムな順列を選び、文字のヒストグラム（順列を含む）の適切な一致が存在するかどうかを確認します。また、それらはコードの構造を探求せず、文字の周辺分布のみを探索します...どのような解決策がありますか？その問題専用の既存のソフトウェアまたはパッケージはありますか？（実際、私の昔、コンピュータサイエンスの教師は、そのようなツールがあったと主張していましたが、今では、非常にシンプルなものがあったと思います）私は、ソフトウェア開発の弁護士もそのような問題を抱えていると思います（1000人の学生ではなく、2つの大きなコードがあるため、事態が難しくなります）。

10 hypothesis-testing clustering

1

観察された対立遺伝子頻度は予測よりも大幅に少ないですか？

質問：観察された「山」対立遺伝子頻度（図1）が生態学的選択モデル（詳細は以下を参照）によって予測された（図2）よりも中央から南部の山で著しく低いかどうかを判断するテストを構築するにはどうすればよいですか？問題：私の最初の考えは、緯度：経度と高度に対してモデルの残差を回帰することでした（これにより、緯度と経度の間の相互作用のみが重要になります）。問題は、残差（図3）がモデルによって説明されない変動を反映していること、および/またはそれらが生物学的に起こっていることである、たとえば対立遺伝子がそのポテンシャルまで南に広がる時間がない、または遺伝子の流れに対する何らかの障壁があることです。観測された（図1）と予想された（図2）の山アレル頻度を比較すると、特にスウェーデンとノルウェーの中央から南部の山では明らかな違いがあります。モデルがすべてのバリエーションを説明しない可能性があることは認めますが、山岳対立遺伝子が中部山脈から南部山脈でその可能性に達していないという考えを調査するための合理的なテストを考え出すことはできますか？バックグラウンド：私はバイアレルAFLPマーカーを持っています。その頻度分布は、スカンジナビア半島の低地生息地と山（および緯度：経度）に関連しているようです（図1）。「山」対立遺伝子は、山岳地帯である北部でほぼ固定されています。それは山が欠けている南の「低地」対立遺伝子のためにほとんど欠けているか固定されています。山の中を北から南に移動すると、「山」対立遺伝子はより低い頻度で発生します。北から南への「山」対立遺伝子頻度のこの違いは、地域が北と南の両方から植民地化されたため、単純に系統地理学または歴史的プロセスが原因である可能性があります。たとえば、山岳対立遺伝子が北部の人口に由来する場合、おそらく南部の人口に完全に拡大する時間がありませんでした。私の作業仮説は、「山」対立遺伝子頻度が生態学的選択の結果であるというものです（帰無仮説は中立選択です）。私の生態学的選択モデルでは、応答変数として二項対立遺伝子頻度（通常、各サイトで10から20の個体がサンプリングされたフェノスカンジナビア全体で129のサイトでサンプリング）と、いくつかの気候および成長期変数を使用して、一般化加法モデル（GAM）を使用しました。予測変数。モデルの結果は次のとおりです（TMAX04-06 = 4月から6月の最高気温、Phen_NPPMN =平均成長期の植生生産性、PET_HE_YR =年間の潜在的な蒸発散量、Dist_Coast =海岸までの距離）： Family: binomial Link function: logit Formula: Binomial_WW1 ~ s(TMAX_04) + s(TMAX_05) + s(TMAX_06) + s(Phen_NPPMN) + s(PET_HE_YR) + s(Dist_Coast) Parametric coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.74372 0.04736 -15.7 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …

10 hypothesis-testing statistical-significance residuals gam

1

逆共分散行列の仮説検定

私が観察仮定IID 、及び試験たい vechため適合行列およびベクトル。この問題に関する既知の作業はありますか？H 0：A （Σ - 1） = A A Aバツ私〜N（μ 、Σ ）xi∼N(μ,Σ)x_i \sim \mathcal{N}\left(\mu,\Sigma\right)H0：A H0:A H_0: A\ （Σ− 1） =a(Σ−1)=a\left(\Sigma^{-1}\right) = aあAAaaa （私にとって）明らかな試みは、尤度比テストによるものですが、の制約のを受ける可能性を最大化するには、SDPソルバーが必要であり、かなりかもしれません。H0H0H_0

10 hypothesis-testing normal-distribution multivariate-analysis maximum-likelihood covariance

1

比率とバイナリ分類器のテスト

部品を作る機械のプロトタイプを持っています。最初のテストで、マシンはパーツを生成し、バイナリ分類子は、パーツに欠陥があり（、通常および）、パーツが良好であることをてくれます。d 1 d 1 < N 1 d 1 /N1N1N_1d1d1d_1d1< N1d1<N1d_1 < N_1N 1 ≈ 10 4 N 1 - D 1d1/ N1< 0.01d1/N1<0.01d_1/N_1<0.01N1≈ 104N1≈104N_1\approx10^4N1− d1N1−d1N_1-d_1 次に、技術者は、欠陥のある部品の数を減らすために、機械に変更を加えます。 2回目以降のテストでは、変更されたマシンがパーツを生成し、同じバイナリ分類子（そのまま）により、パーツに欠陥があることがます。とにかく、はと非常に似ています。d 2 d 2 / N 2 dN2N2N_2d2d2d_2d2/N2d2/N2d_2/N_2d1/N1d1/N1d_1/N_1 技術者は、彼の変更が有効かどうかを知りたいと考えています。分類子が完全である（その感度が100％で、その特異度が100％である）と仮定すると、比率のテストを実行できます（Rを使用して、と入力するだけですprop.test(c(d1,d2),c(N1,N2))）。しかし、分類子は完全ではないので、技術者に適切に回答するために、分類子の感度と特異度（どちらも不明）をどのように考慮することができますか？

10 hypothesis-testing statistical-significance classification proportion

6

2つの異なるランダムフォレストモデルのR-2乗を比較する

RのrandomForestパッケージを使用してランダムフォレストモデルを開発し、サンプルよりも多くの予測子を持つ「広い」データセットで継続的な結果を説明しようとしています。具体的には、1つのRFモデルをフィッティングして、重要と思われる75個までの予測変数のセットから手順を選択できるようにしています。以前にここに投稿したアプローチを使用して、予約済みテストセットの実際の結果をモデルがどの程度予測できるかをテストしています。 ...またはR： 1 - sum((y-predicted)^2)/sum((y-mean(y))^2) しかし、これで追加できる〜25の予測変数が追加されました。〜100の予測子のセットを使用すると、R²が高くなります。これを統計的にテストしたいのですが、言い換えると、〜100の予測子のセットを使用した場合、モデルのテストは、〜75の予測子を使用したモデルの近似よりもデータのテストで大幅に優れています。つまり、RFモデルのテストから得られたR²は、完全なデータセットに適合し、削減されたデータセットでのRFモデルのテストから得られたR²よりも大幅に高くなります。これはパイロットデータであり、追加の25の予測子を取得するのは高価であり、大規模な追跡調査でこれらの予測子を測定するために支払う必要があるかどうかを知る必要があるため、これは私にとってテストにとって重要です。なんらかのリサンプリング/順列アプローチを考えているのですが、何も思い浮かびません。

10 r machine-learning hypothesis-testing model-selection random-forest

4

コミュニティの構成を比較するためのテストは何ですか？

この初心者の質問がこのサイトの正しい質問であることを願っています： 2つのサイトA、Bの生態系コミュニティの構成を比較したいとします。3つのサイトすべてに犬、猫、牛、鳥がいることを知っているので、各サイトでその存在量をサンプリングします（実際には「各サイトの各動物の予想される存在量）。たとえば、各サイトで各動物の5匹を数えると、AとBは非常に「類似」しています（実際、それらは「同じ」です）。しかし、サイトAで100匹の犬、5匹の猫、2頭の牛、および3羽の鳥を見つけた場合、サイトBで5匹の犬、3匹の猫、75頭の牛、および2羽の鳥を見つけます。サイトAとBは「異なる」と言えます。、彼らは正確に同じ種の組成を持っているにもかかわらず。（私はSorensenとBray-Curtisのインデックスを読みましたが、それらは犬や猫などの不在/存在のみを考慮し、それらの存在量は考慮していないようです。）これを決定する統計的検定はありますか？

10 hypothesis-testing distributions correlation multinomial compositional-data

3

ゼロインフレ連続データの仮説検定

次の問題についてのアドバイスをいただければ幸いです。多くのゼロ（〜95％）を持つ大規模な連続データセットがあり、その特定のサブセットが「興味深い」かどうかをテストするための最良の方法を見つける必要があります。つまり、同じ分布から引き出されていないようです残り。ゼロインフレは、各データポイントが、真とサンプリングゼロの両方を持つカウント測定に基づいているという事実から来ますが、カウントによって重み付けされた他のいくつかのパラメーターを考慮するため、結果は連続的です（したがって、カウントがゼロの場合、結果もゼロです）。これを行う最善の方法は何でしょうか？ウィルコクソンおよびブルートフォース順列テストでさえ、これらのゼロによって歪められるので不十分だと感じています。ゼロ以外の測定に焦点を合わせると、非常に重要な真のゼロも削除されます。カウントデータのゼロインフレモデルは十分に開発されていますが、私の場合には適していません。 Tweedie分布をデータに適合させ、response = f（subset_label）にglmを適合させることを検討しました。理論的にはこれは実現可能と思われますが、（a）これが過剰であり、（b）すべてのゼロがサンプルゼロであると暗黙のうちに想定されているか、つまり順列と同じように（せいぜい）バイアスがかかっているのでしょうか？直感的には、ゼロの比率に基づく二項統計と、非ゼロ値（または、より良いのは、いくつかの以前に基づいてゼロ）。ベイジアンネットワークのように聞こえます... うまくいけば、私がこの問題を抱えた最初のものではないので、あなたに適切な既存のテクニックを教えていただければ幸いです... どうもありがとう！

10 hypothesis-testing

2

混合モデル（変量効果としての主題）と単純な線形モデル（固定効果としての主題）の比較

大量のデータの分析を終えています。作業の最初の部分で使用された線形モデルを取得し、線形混合モデル（LME）を使用して再適合させたいと思います。LMEは非常に似ていますが、モデルで使用される変数の1つが変量効果として使用される点が異なります。このデータは、少数の被験者（〜10）の多くの観測（> 1000）から得られ、被験者の効果のモデリングはランダム効果（これはシフトしたい変数です）として行う方がよいことを知っています。Rコードは次のようになります。 my_modelB <- lm(formula = A ~ B + C + D) lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML') すべてが正常に実行され、結果は非常に似ています。RLRsimやAIC / BICのようなものを使用して、これら2つのモデルを比較し、どちらが最も適切であるかを判断できれば、すばらしいと思います。LMEの方が適切なモデルだと思いますが、同僚が「より良い」ものを選択する簡単にアクセスできる方法がないため、LMEを報告したくありません。助言がありますか？

10 r regression hypothesis-testing mixed-model lme4-nlme

2

独立性のテストとは何ですか？

非常に統計的な用語を使用せずに、独立性のテストとは何かを定義する必要があります。

10 hypothesis-testing independence definition

タグ付けされた質問 「hypothesis-testing」

タグ付けされた質問「hypothesis-testing」