統計とビッグデータ hypothesis-testing

1

20世紀を通じて青い目の武術家の割合が減少しているという仮説を検証したいとします。残念ながら、火星の人口は大きく変動するため、10年ごとに総人口に大きな違いがあります[更新：火星の人口は10億の火星で一定であると考えてください。以下のデータは、毎年ランダムなサンプルです]。（私がこれを書いているときに作成された）データセットは次のようになります： Year | Total martian population | Blue-eyed martians | Proportion 1910 | 400 | 250 | 0.625 1920 | 2000 | 1000 | 0.500 1930 | 70 | 40 | 0.571 1940 | 30 | 14 | 0.467 1950 | 10 | 4 | 0.400 1960 | 140 | …

8 hypothesis-testing

1

R-A / Bテストでのpower.prop.test、prop.test、および等しくないサンプルサイズ

成功の2つの比率の差が統計的に有意であるかどうかを判断しようとしている実験に必要なサンプルサイズを知りたいとしましょう。これが私の現在のプロセスです：履歴データを見て、ベースライン予測を確立します。過去に、行動を起こすと10％の成功率になり、行動しないと9％の成功率になると言います。これらの結論は統計的に検証されていませんが、比較的大量のデータ（10,000以上の観測）に基づいていると仮定します。これらの仮定をpower.prop.testにプラグインして、以下を取得します。 power.prop.test(p1=.1,p2=.11,power=.9) Two-sample comparison of proportions power calculation n = 19746.62 p1 = 0.1 p2 = 0.11 sig.level = 0.05 power = 0.9 alternative = two.sided したがって、これは、比率間の有意差を検出するために、A / Bテストの各グループで最大20000のサンプルサイズが必要になることを示しています。次のステップは、各グループで20,000の観測値を使用して実験を実行することです。グループB（アクションなし）は20,000回の観測のうち2300回の成功を収めていますが、グループA（アクションを実行）は20,000回の観測のうち2200回の成功を収めています。 prop.testを実行する prop.test(c(2300,2100),c(20000,20000)) 2-sample test for equality of proportions with continuity correction data: c(2300, 2100) out of c(20000, 20000) …

8 r hypothesis-testing statistical-significance proportion

2

p値も偽の発見率ですか？

でhttp://surveyanalysis.org/wiki/Multiple_Comparisons_(Post_Hoc_Testing）それは述べてたとえば、p値が0.05であり、それが有意であると結論付けた場合、誤った発見の確率は、定義により、0.05です。私の質問：私は常に、誤った発見はタイプIのエラーであると常に考えていました。これは、ほとんどのテストで選択された有意水準と同じです。P値は、サンプルから計算された値です。確かに、ウィキペディアは述べています p値は、ネイマンピアソンアプローチの有意水準またはタイプIエラー率[誤検知率] と混同しないでください。 "αα\alpha では、なぜリンクされた記事はタイプIのエラー率がp値によって与えられると主張しているのですか？

8 hypothesis-testing statistical-significance p-value false-discovery-rate type-i-and-ii-errors

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

2x2分割表のテスト：男性/女性、雇用/非雇用

私は科学を専攻していて、私の統計学の知識は表面的なものです。問題データセットを見つけ、統計コースの課題として自分の能力を最大限に活用して分析する必要がありました。これはもはや課題ではありません。分析がうまくいかなかった理由と代わりに何をすべきかを解釈するのに助けが必要です。私はニュージーランドの雇用率のカテゴリーデータセットを使用して、2x2分割表に配置し、ピアソンのカイ2乗検定とフィッシャーの正確確率検定を使用して、性別が雇用と相関しているかどうかを検定しました。答えたいことこの問題に対してカイ2乗検定とフィッシャーの正確確率検定を使用できない理由を理解し、代わりに何を使用すべきかを理解してください。「時間の関数としてのオッズ比」と思いますか？Rで完全にそれを行う方法に関する有用なリンクはありますか？割り当ての最初の部分に関する「順次相関」コメントと、正確に何をすべきかを理解してください。私を助ける方法＃1（短い）データは次のとおりです（国勢調査に基づく）。 Male Female Employed 1201600 1060200 Unemployed 73300 75000 Rでカイ2乗検定とフィッシャーの正確確率検定を行いました。得られたp値から、nullがtrue（男性と女性）である場合に、このような仕事の分布（または1つ以上の極値）の確率がわかると想定しています。就職のチャンスは同じです）。私は非常に小さいp値を取得しました。フィッシャーのテストでは、オッズ比1.16が得られました。これは、相関関係があり、特に男性がニュージーランドで就職する可能性が16％高いことを意味します。しかし、私の講師によると、私はこれらのテストを不適切に使用しました。理由はよくわかりませんでしたが、これらのテストは独立性を前提としていると彼は言っていたと思います。NZには一定量の求人があるため、サンプルは独立していないので...下に引用されている彼のフィードバックを見ることができます）。私を助ける方法＃2（長い）時間に余裕があれば、課題全体をご覧いただければ幸いです。講師からのフィードバックも添えてお伝えしますので、よろしくお願いします！割り当ては数学者/統計学者にとって非常に簡単であり、そこには2つの質問しかありません。私がやっていることを知っていることを実証しようとしたところ、パディングでいっぱいになりました。ほとんどはスキップできます。これが、私が成功しなかった割り当てを含むPDFファイルへのリンクです。statisticsassignment.pdf。講師のフィードバック図1は逐次相関を示しています。これが線形回帰が機能しない本当の理由です。フィッシャーのテストもカイ二乗も、2x2テーブルには適していません。これは、均一性をテストしたいが、独立性がないためnullを拒否しているためです（これは興味深いことではありません）。この2つの違いはここでは関係ありません（どちらの場合も漸近的に同一です）。時間の関数としてオッズ比をプロットすることもできます。

8 hypothesis-testing chi-squared fishers-exact

1

順列ベースのp値に必要な順列の数

有意水準順列ベースの値を計算する必要がある場合pppαα\alpha、いくつの順列が必要ですか？ 5ページの記事「分類子のパフォーマンスを研究するための順列テスト」から：実際には、上限は通常、テストの望ましい精度を達成するために必要なサンプル数を決定するために使用されます。1/(2k−−√)1/(2k)1/(2\sqrt{k}) ...ここで、は順列の数です。kkk この式から必要な順列の数を計算するにはどうすればよいですか？

8 hypothesis-testing p-value permutation-test resampling

2

ボンフェローニ修正は、いくつかの依存する仮説に対しては保守的すぎませんか？

ボンフェローニ修正は従属仮説にも有効であることをよく読みます。しかし、私はそれが真実だとは思わず、反例があります。誰かが私に（a）私の間違いがどこにあるか、または（b）私がこれについて正しいかどうかを教えてもらえますか？カウンターサンプルの設定 2つの仮説をテストするとします。LET最初の仮説が偽とであるそうでありません。同様に定義します。ましょう二つの仮説に関連したp値であるとしましょう表す括弧の中指定されたセットの指標関数。H1=0H1=0H_{1}=0H1=1H1=1H_{1}=1H2H2H_{2}p1,p2p1,p2p_{1},p_{2}[[⋅]][[⋅]][\![\cdot]\!] 固定されたように定義しますこれは明らかに確率密度ですオーバー。これは2つの密度のプロットですθ∈[0,1]θ∈[0,1]\theta\in [0,1]P(p1,p2|H1=0,H2=0)P(p1,p2|H1=0,H2=1)===12θ[[0≤p1≤θ]]+12θ[[0≤p2≤θ]]P(p1,p2|H1=1,H2=0)1(1−θ)2[[θ≤p1≤1]]⋅[[θ≤p2≤1]]P(p1,p2|H1=0,H2=0)=12θ[[0≤p1≤θ]]+12θ[[0≤p2≤θ]]P(p1,p2|H1=0,H2=1)=P(p1,p2|H1=1,H2=0)=1(1−θ)2[[θ≤p1≤1]]⋅[[θ≤p2≤1]]\begin{eqnarray*} P\left(p_{1},p_{2}|H_{1}=0,H_{2}=0\right) & = & \frac{1}{2\theta}[\![0\le p_{1}\le\theta]\!]+\frac{1}{2\theta}[\![0\le p_{2}\le\theta]\!]\\ P\left(p_{1},p_{2}|H_{1}=0,H_{2}=1\right) & = & P\left(p_{1},p_{2}|H_{1}=1,H_{2}=0\right)\\ & = & \frac{1}{\left(1-\theta\right)^{2}}[\![\theta\le p_{1}\le1]\!]\cdot[\![\theta\le p_{2}\le1]\!] \end{eqnarray*}[0,1]2[0,1]2[0,1]^{2} により、と同様に。P(p1|H1=0,H2=0)P(p1|H1=0,H2=1)==12θ[[0≤p1≤θ]]+121(1−θ)[[θ≤p1≤1]]P(p1|H1=0,H2=0)=12θ[[0≤p1≤θ]]+12P(p1|H1=0,H2=1)=1(1−θ)[[θ≤p1≤1]]\begin{eqnarray*} P\left(p_{1}|H_{1}=0,H_{2}=0\right) & = & \frac{1}{2\theta}[\![0\le p_{1}\le\theta]\!]+\frac{1}{2}\\ P\left(p_{1}|H_{1}=0,H_{2}=1\right) & = & \frac{1}{\left(1-\theta\right)}[\![\theta\le p_{1}\le1]\!] \end{eqnarray*}p2p2p_{2} さらに、これは、 P(H2=0|H1=0)P(H2=1|H1=0)==P(H1=0|H2=0)=2θ1+θP(H1=1|H2=0)=1−θ1+θ.P(H2=0|H1=0)=P(H1=0|H2=0)=2θ1+θP(H2=1|H1=0)=P(H1=1|H2=0)=1−θ1+θ.\begin{eqnarray*} P\left(H_{2}=0|H_{1}=0\right) & = & P\left(H_{1}=0|H_{2}=0\right)=\frac{2\theta}{1+\theta}\\ P\left(H_{2}=1|H_{1}=0\right) & …

8 hypothesis-testing mathematical-statistics multiple-comparisons p-value bonferroni

2

同じデータに適用された異なる統計的検定からのp値を組み合わせる

質問のタイトルは取るに足らないように見えますが、同様のデータセットで同じ統計的検定を適用して、完全帰無仮説（メタ分析）に対して検定するという問題とは異なるという意味では、それほど簡単ではないことを説明したいと思います。たとえば、p値を組み合わせるためにフィッシャーの方法を使用します）。私が探しているのは、2つの異なる統計検定（t検定とu検定など）のp値を組み合わせる方法（存在する場合、および質問が統計的に有効である場合）です。 2つの母集団からの2つのサンプリングの中心を比較するために適用されます。これまでのところ、明確な答えがなくても、ウェブで多くの検索を行ってきました。私が見つけた最良の答えは、David Bickel（http://arxiv.org/pdf/1111.6174.pdf）によるゲーム理論の概念に基づいていました。非常に単純な解決策は、投票方式です。観測の2つのベクトルとあり、いくつかのtのような統計（t検定、 u-test、one-way ANOVA）は、2つの過酷な分布の中心（平均、中央値など）が有意水準0.05で等しくないという仮説に対して等しいという仮説を検定します。5つのテストを実行するとします。5つのテストのうち3つでp値が0.05未満の場合、null分布を拒否する十分な証拠があると言うのは正当でしょうか？B = [ B 1、B 2、。。。、b n ]A=[a1,a2,...,an]A=[a1,a2,...,an]A=[a_1, a_2, ..., a_n]B=[b1,b2,...,bn]B=[b1,b2,...,bn]B=[b_1, b_2, ..., b_n] 別の解決策は、全確率の法則を使用することでしょうか、これは完全に間違っていますか？たとえば、がnull分布が拒否されるイベントであるとします。次に、3つのテスト、、（つまり、、可能な値はなります、ここでは、null分布がテストし。T 1 T 2 T 3 P （T 1）= P （T 2）= P （T 3）= 1 / 3 P （A ）P （A ）= P （A | T 1）P （T 1）+ P …

8 hypothesis-testing probability statistical-significance multiple-comparisons p-value

2

nが増加すると、t値は仮説検定で増加しますが、tテーブルは正反対です。どうして？

以下のための式仮説検定では、次式で与えられる。 T = ˉ X - μtttt = X¯- μσ^/ n−−√。t=バツ¯−μσ^/ん。 t=\frac{\bar{X}-\mu}{\hat \sigma/\sqrt{n}}. 場合が増加すると、T上記式に従って-value増加します。しかし、なぜdf（nの関数）が増加すると、tテーブルの臨界t値が減少するのでしょうか。んんntttttttttdfdf\text{df}んんn

8 hypothesis-testing self-study statistical-significance t-test t-distribution

3

統計学者は、どの分布が異なる統計的検定に適しているかをどのように決定しますか？

例えば、ＡＮＯＶＡ検定について計算された検定統計量はＦ分布と比較され、一方、ｔ検定比較手段は検定統計量をｔ分布と比較する。

8 hypothesis-testing distributions

1

非正規データのマハラノビス距離

マハラノビス距離は、分類の目的で使用される場合、通常、多変量正規分布を想定しており、重心からの距離は分布に従う必要があります（自由度は次元/特徴の数に等しい）。マハラノビス距離を使用して、新しいデータポイントがセットに属する確率を計算できます。χ2χ2\chi^2ddd 多変量正規分布に従わないデータセットがあります（）。理論的には、各特徴はポアソン分布に従う必要があり、経験的にこれは多くの（）特徴に当てはまるようで、ノイズに含まれていない特徴で、分析から削除できます。このデータの新しいポイントをどのように分類できますか？d≈1000d≈1000d \approx 1000≈200≈200\approx 200 2つのコンポーネントがあると思います。このデータの適切な「マハラノビス距離」式は何ですか（つまり、多変量ポアソン分布）。他の分布への距離の一般化はありますか？通常のマハラノビス距離を使用しても、別の定式化を使用しても、これらの距離の分布はどうなりますか？仮説検定を行う別の方法はありますか？あるいは... 各クラスの既知のデータポイントのは、（少なすぎます。経験的に最小値を決定します）から約まで幅広く変化します。マハラノビス距離はでスケーリングされるため、1つのモデル/クラスから次のモデル/クラスまでの距離を直接比較することはできません。データが正常に分布している場合、カイ2乗検定は、さまざまなモデルからの距離を比較する方法を提供します（臨界値または確率を提供することに加えて）。「マハラノビスのような」距離を直接比較する別の方法がある場合、たとえそれが確率を提供していなくても、私はそれで作業することができます。nnnn=1n=1n=1n=6000n=6000n=6000nnn

8 hypothesis-testing classification multivariate-analysis poisson-distribution joint-distribution

3

なぜ依存が問題になるのですか？

従属観測が統計で問題になる理由に興味があります。2つの学校の平均試験の点数に差があるかどうかを知りたいとします。各学校で50の観測を収集します。これらの50の観察は、各学校の5つの異なる教室から得られ、教室内で依存関係があります。この場合、t検定の結果はどのように影響を受け、どのようにして不正確な結論につながるのでしょうか。

8 hypothesis-testing t-test independence non-independent

3

オムニバステストと多重比較の関係は？

ウィキペディアは言う多重比較に進む前に、オムニバステストに依存するメソッド。通常、これらの方法では、複数の比較に進む前に重要なANOVA / Tukeyの範囲検定が必要です。これらのメソッドには、タイプIエラーの「弱い」制御があります。また ANOVAのF検定は、モデルの全体的な有意性を検定するオムニバス検定の例です。有意なF検定とは、検定された平均のうち、少なくとも2つの平均が有意に異なることを意味しますが、この結果は、どの平均が互いに異なるかを正確に特定していません。実際、検定手段の違いは、2次有理F統計（F = MSB / MSW）によって行われました。どの平均が別の平均と異なるか、または平均のコントラストが有意に異なるかを判断するには、有意なオムニバスF検定を取得した後に、事後検定（多重比較検定）または計画検定を実行する必要があります。単純なBonferroni補正またはその他の適切な補正を使用することを検討してください。したがって、全体的な有意性をテストするためにオムニバステストが使用されますが、多重比較は、どの違いが有意かを見つけることです。しかし、私が正しく理解していれば、多重比較の主な目的は全体的な有意性をテストすることであり、どの差異が有意かを見つけることもできます。つまり、オムニバスと同じように多重比較を行うことができます。では、なぜオムニバステストが必要なのでしょうか。

8 hypothesis-testing multiple-comparisons

2

3つのグループ間の比率を比較するために使用するテストはどれですか？

メールマーケティングキャンペーンをテストしています。最初のテストでは、2つの異なる種類の電子メールを送信し、電子メールを受信しない3番目のコントロールグループを用意しました。現在、アプリに戻ったユーザーの割合として「結果」が返されています。結果は次のとおりです。 Group | received e-mail | returned | %-returned A | 16,895 | 934 | 5.53% B | 17,530 | 717 | 4.09% C | 42408 | 1618 | 3.82% グループAは実際にはBやCよりも優れているようですが、これを示す適切なテストは何ですか？

8 hypothesis-testing binomial multiple-comparisons

3

ユニットルートテストの結果をどのように解釈しますか？

プロジェクトに対していくつかのユニットルートテストを実行する必要があります。データの解釈方法がわからないだけです（これは私が要求されたものです）。これが私の結果の1つです。 dfuller Demand Dickey-Fuller test for unit root Number of obs = 50 ---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------- Z(t) -1.987 -3.580 -2.930 -2.600 ------------------------------------------------------------------- MacKinnon approximate p-value for Z(t) = 0.2924 臨界値とp値の結果について何を言いますか？

8 time-series hypothesis-testing stata interpretation unit-root

タグ付けされた質問 「hypothesis-testing」

タグ付けされた質問「hypothesis-testing」