統計とビッグデータ hypothesis-testing

3

次のようなデータがあります。 ID Status 01 A 02 G 03 E ... ... 100 G あなたはアイデアを理解していると思います。2つの異なる母集団（コホート）からのこのデータがあり、ある母集団の状態変数の分布を別の母集団の分布と比較したいと思います。私が回答している質問は次のようなものです。あなたがこれ以上知らなければ、これらは同じ母集団からのものである可能性がありますか？確かではありませんが、これは人のカイ二乗を実行する必要があることを意味します。また、テストを実行できるように変数を変換する方法もわかりません。（私は特にこれをRで行う方法を知りたいです。）

8 r hypothesis-testing categorical-data chi-squared

1

エントロピーと圧縮/暗号化データのバイト分布の比較

しばらくの間、自分自身を占める質問があります。暗号化されたデータを識別するために、エントロピーテストがよく使用されます。分析されたデータのバイトが均一に分散されると、エントロピーが最大になります。エントロピーテストは、暗号化されたデータを識別します。これは、このデータが、エントロピーテストの使用時に暗号化されたものとして分類される圧縮データのように均一な分布を持っているためです。例：一部のJPGファイルのエントロピーは7,9961532ビット/バイト、一部のTrueCryptコンテナーのエントロピーは7,9998857です。つまり、エントロピーテストでは、暗号化されたデータと圧縮されたデータの違いを検出できません。しかし、最初の写真でわかるように、JPGファイルのバイトは均一に分散されていません（少なくとも、truecrypt-containerからのバイトほど均一ではありません）。別のテストは、周波数分析です。各バイトの分布が測定され、たとえば、分布を仮説の分布と比較するためにカイ2乗検定が実行されます。その結果、p値が得られます。JPGとTrueCrypt-dataでこのテストを実行すると、結果が異なります。 JPGファイルのp値は0です。これは、統計ビューからの分布が均一でないことを意味します。TrueCryptファイルのp値は0,95です。これは、分布がほぼ完全に均一であることを意味します。私の質問：エントロピーテストでこのような誤検知が発生する理由を誰かに教えてもらえますか？情報の内容が表現されている単位のスケール（ビット/バイト）ですか？より細かいスケールのため、例えばp値はより良い「単位」ですか？回答/アイデアをありがとうございました！ JPG-Image TrueCrypt-Container

8 distributions hypothesis-testing chi-squared entropy compression

2

さまざまなパンフレットの比較成功の見積もり

現実世界の問題私のクライアントの1つは、サブスクライブしているユーザーリストにダイレクトメーラーを送信する準備をしていて、この統計的な課題が浮上しました。彼らのマーケティングチームには3つの異なるパンフレットがあり、どのパンフレットが最も高い応答率を得るか知りたいと考えています。また、厚手の封筒で手書きのアドレスをメーラーに送信すると、通常の封筒と比較して結果が向上するかどうかも知りたいと考えています。次のことを前提とします。各パンフレットのための（iは= 1 、2 、3）、そのパンフレット受信者実際に開き、それが読み取る確率で応答するR Iを、R iは、そのパンフレットのため真の応答率でありますbibib_ii=1,2,3i=1,2,3i = 1,2,3ririr_iririr_i 厚くて高品質の封筒の真の開封率は、通常の封筒の開封率はo n o r m a lです。othickothicko_{thick}onormalonormalo_{normal} 以前の郵送から、実際に観察された回答率は約1％から5％の間になると予想しています。私たちの目標送付するメールの数を最小限に抑えながら、最適なパンフレットを見つけたいと考えています。また、2つのオープンレートを推定します。実際に送信されたメーラーから経験的応答率を収集すると、応答率間の真の差が0.5％より大きい場合、p < .05で統計的に有意であるとしてその差を検出できるはずです。ririr_ip<.05p<.05p < .05 これまでの私の考え人のユーザーが各パンフレットを受け取るように、3つのパンフレットのそれぞれにユーザーをランダムに割り当てます。応答率の違いを検出するために必要な感度を達成するために必要なNを知りたい。最悪のケースを想定すると、1％と1.5％の真の率の差を検出できる必要があります。この違いのSDは√NNNNNN(.01∗.99)+(.015∗.985)N−−−−−−−−−−−−−√(.01∗.99)+(.015∗.985)N\sqrt{\frac{(.01*.99) + (.015*.985)}{N}}N=3948N=3948N = 3948 ご質問これは最適な設計ですか、それとももっとうまくできるでしょうか？ NNN oN 、O 、R 、M Lonormalo_{normal}oT H I C Kothicko_{thick} r私rir_iNNN oN 、O 、R 、M …

8 hypothesis-testing anova statistical-significance

3

SPSSを使用した2x3混合設計ANOVAの事後テスト？

実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group（コントロール、実験）、time（最初、2、3）、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です！記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。どう思いますか？どちらが正しい方法でしょうか？

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

2

離散確率変数に基づくテストの保守性

離散検定統計の場合、対応する値の分布は離散的であり、一様分布よりも確率的に大きくなります。したがって、p値に基づく対応する仮説検定（たとえば、p値が0.05未満の場合は拒否）は、タイプIのエラーが発生する確率が0.05未満になるという意味で常に保守的です。mid-pvalueを使用することが推奨されることもあります。しかし、mid-pvalueを使用してもType Iエラーが制御されるという証拠はないと思います。保守性を減らす他の方法はありますか？この分野に精通している人は、これに関するいくつかのヒントや既存の文献を指摘できますか？ppp

8 distributions statistical-significance hypothesis-testing discrete-data

1

ベイズの定理を使用する場合の信頼区間

いくつかの条件付き確率と、95％の信頼区間を計算しています。私のケースの多くでは、（分割表からの）試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合：baaabbb P（a | b ）= P（B |）⋅ P（a ）P（b ）P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}（\＃\ left（b \ cap {} a）、\＃（a）\ right）を使用してP（b | a）の周りの95％信頼区間を計算でき、比率P（a）/ P（b）を周波数比\＃（a）/ \＃（b）として。この情報を使用してP（a | b）の周囲の信頼区間を導出することは可能ですか？P（b | a ）P(b|a)P(b|a)binom.confint（＃（B ∩a ）、＃（a ））binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P（a ）/ P（b ）P(a)/P(b)P(a)/P(b)＃（a ）/＃（b ）#(a)/#(b)\#(a)/\#(b)P（a | b ）P(a|b)P(a|b) ありがとう。

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

1

ペアのブートストラップでp値を計算する

私は、バークレーNLPグループからの統計的テストに関する新しい論文「NLP における統計的有意性の実証的調査」に出くわしました。論文にはp値を計算するための疑似コードがあり、基本的には、のサンプルセットは、データからの置換でサンプリングされます。その後 xバツ1、x2、。。。、xNバツ1、バツ2、。。。、バツNx_1,x_2,...,x_Nバツバツx p値= カウント（δ（x私）> 2 δ(x))/Np-value=count(δ(xi)>2δ(x))/N\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N、ここではメトリックゲインです。δ(xi)δ(xi)\delta(x_i) ケーンの論文「機械翻訳評価のための統計的有意性検定」のp値を計算する式を理解できました。 p-value=count(δa(xi)<δb(xi))/Np-value=count(δa(xi)<δb(xi))/N\text{p-value} = \text{count}(\delta_a(x_i) < \delta_b(x_i))/N、ここでとはそれぞれシステムとシステムメトリックゲインです。δをbは Bδaδa\delta_aδbδb\delta_baaabbb 式のための任意の説明または参照ある。著者は、の平均があり、が対称である場合、上記の両方の式は同等であることにも言及しました。δ （X I）δ （X ）δ （X Ip値= カウント（δ（x私）> 2δ（x ））/ Np-value=カウント（δ（バツ私）>2δ（バツ））/N\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/Nδ（x私）δ（バツ私）\delta(x_i)δ（x ）δ（バツ）\delta(x)δ（x私）δ（バツ私）\delta(x_i)

8 hypothesis-testing bootstrap p-value

4

1つのグループにほとんどまたはまったく差異がない場合、テストで実行できますか？

基準と比較している4つのグループがあります。私のグループの1つでは、すべての参加者がすべての項目で同じように回答しました。つまり、差異はありません。 ANOVAでそれをどのように処理しますか？また、エラー条件が出ないので、テストでそれを基準と比較して実行するとどうなりますか？生徒に含めているかどうかわからない1人の参加者を含めた場合、分散は37のうちの1つの異なる観測値で完全に均一ではありませんが、実行すると、分散が小さすぎるため有意ではありません。計算的にできることは何もないことを理解しています。私はそれを概念的にどのように扱うかを尋ねています。

8 hypothesis-testing anova variance t-test

1

ランダム化された順序で提示された3つ以上の条件で繰り返し測定ANOVAを分析する方法は？

環境：私の質問は私の領域の典型的なデザインに関するものです。研究者が被験者のグループ（たとえば10）を取り、次に3つの異なる条件をそれらに適用して、応答変数の変化を測定します。普通の水、そしてフルーツジュース（例えば）。すべての被験者はすべての治療を受けますが、効果が「洗い流される」のに十分な時間があるランダムな順序で。分析： Kuehl（2000）（Kuehl、RO（2009）Design of Experiments：Statistical主義of research design and analysis、Duxbury Press、CA、p497 2nd Ed。）各治療がランダムな順序で各被験者に投与されると、被験者はランダム化された完全なブロック設計のランダムブロックになります。」次に、対応する分析を表示します。この場合、主題は変量効果ですが、迷惑またはブロック要因であり、統計モデルはブロック要因の有意性をテストしますが、その有意性にはあまり関心がありません。ただし、多くの研究者（およびレビュアー！）は、そのような設計は、Huynh-Feldt条件のMauchlyテスト（反復測定としての取り扱い）を使用した反復測定設計として分析する必要があると考えています。ただし、これは、時間要素が分析されている場合（たとえば、0分、10分、30分、60分で観測が行われる場合など）に適しています。この場合、特に不均等な時間間隔が使用されている場合、時点のペア間の共分散は合理的に変化すると予想される可能性があります。[実際、この場合SASを使用してさまざまな共分散構造をモデル化します（たとえば、被験者がブロックファクターであり、異なる治療が被験者ごとに異なるランダムな順序で投与される場合、これは、観測間の相関が被験者ごとに異なるため、化合物の対称性を仮定できることを理解しました。質問：ランダムな順序で提示された3つ以上の条件を持つ反復測定ANOVAをどのように分析する必要がありますか？複合対称性を仮定することは理にかなっていますか？

8 hypothesis-testing anova repeated-measures

3

コンピュータサイエンティストのための統計的仮説検定の優れた導入とは何ですか？

最近、職場でいくつかの統計的仮説検定法（例：フリードマン検定）に曝されたので、このトピックに関する知識を増やしたいと思います。コンピュータサイエンティストのための統計的有意性/統計的仮説検定への良い導入を提案できますか？ PDFブックなどを考えていますが、それ以外のサポートは大歓迎です。編集：私はすでにこのウェブサイトを見つけましたが、簡単に印刷できるものを探していました。ありがとう Tunnuz

8 hypothesis-testing statistical-significance p-value

1

どのようにしてテストすることができ

2つの異なるモデルから計算されたパラメーターの数百の推定値があり、これらのパラメーターの分散が異なるかどうかを知りたいです。これらのパラメーターの分散を比較する簡単なテストは何ですか？（簡単な意味、最小限の仮定）。

8 hypothesis-testing variance mean

1

チャウテストかどうか？

多数の時系列で構造的な破損を検出する自動画面を設定しようとしています。時系列は毎週であり、顧客の行動を表します。チャウテストを設定しました。私は最近の4週間を使用して、それを直前の22週間と比較します。彼らの最近の行動が前回の行動と大幅に異なるかどうかを知りたいです。私の質問はこれです：チャウテストはこの質問に最も適切なテストですか？これが最も適切なテストではない場合、どのテストが最も適切なテストかをどのように判断できますか？

8 time-series hypothesis-testing chow-test change-point

1

私が見ている問題の種類を理解するのを手伝ってくれる人はいますか？これが仮説検定として分類されるかどうかわからない

この質問が明確でない場合はご容赦ください。適切な用語を使用しているかどうかはわかりません。さまざまな環境で何度も実験を行いました。だから私のデータは次のようになります： Environment1 1.2 2.1 1.1 1.5 1.6 Environment2 4.2 2.6 3.5 2.5 2.9 Environment3 7.2 4.6 5.3 4.5 1.6 Environment4 0.0 0.0 1.2 15.0 0.0 Environment5 3.2 2.4 7.2 5.5 6.6 Environment6 23.2 32.1 18.1 1.5 19.6 実験がEnvironment4（低すぎて変動が激しい）とEnvironment5（高すぎる）で適切に行われなかったことははっきりと（またはおそらく私の直感では）わかりますが、これを証明する方法がわかりません。私は仮説を用いた仮説テストに依存することになっていますか？実験は、環境4および6では適切に行われませんでした。そして、これを証明するためにいくつかの手順を使用しますか？またはこれを示す標準的な方法はありますか？誰かが私にこの種の問題に取り組む方法を助けてくれませんか？私はRを使用しています。

8 r distributions hypothesis-testing statistical-significance experiment-design

1

2x2の偶発性の1つのビンが欠落しているときの独立性のテスト

私は、以下の状況の仮説検定を考案する助けを探しています。私は時々粒子を吐き出す放射能源を持っています。また、私は2つの粒子検出器を持っています。赤い粒子検出器と緑の粒子検出器です。赤い粒子検出器が粒子を検出するときはいつでも、それは赤いライトを点滅させます。せ粒子が赤色検出器によって検出されたことイベントを表す粒子が赤色検出器によって検出されなかったこと補体イベント。緑色の粒子検出器が粒子を検出すると、緑色のライトが点滅します。ましょう緑色検出器が粒子を検出した場合、及びであるがないこと。したがって、放出される各パーティクルは、次の4つのカテゴリのいずれかに分類されます。r G gRRRrrrGGGggg 両方の検出器（）によって検出され、RGRGRG 赤の検出器で検出されたが緑の検出器（）では検出されなかった、RgRgRg 緑の検出器で検出されたが赤の検出器では検出されなかった（）、またはrGrGrG どちらの検出器（）でも検出されません。rgrgrg 粒子が放出されるたびに、赤の検出器は粒子を検出する確率を持ち、緑の検出器は粒子を検出する確率を持ちます。（粒子が存在しない場合、誤って検出されることはありません。）各粒子は他のすべての粒子と同じように、独立して処理されますが、2つの検出器が互いに独立しているかどうかはわかりません。それらが独立している（つまり、）か、または相関している（つまり、\ Pr [RG] \ ne \ Pr [R] \ Pr [ G]）; どちらが当てはまるかはわかりません。Pr[RG]=Pr[R]Pr[G]Pr[RG]=Pr[R]Pr[G]\Pr[RG] = \Pr[R] \Pr[G]Pr[RG]≠Pr[R]Pr[G]Pr[RG]≠Pr[R]Pr[G]\Pr[RG] \ne \Pr[R] \Pr[G] 私は、検出の数（つまり、両方の検出器が何かを検出した回数）、検出の数（つまり、赤の検出器が何かを検出したが、緑の検出器は検出しなかった回数）をカウントします。検出の数。残念ながら、これらの粒子はいずれの検出器でも検出されないため、状況の数を測定する方法はありません。実験の最後に、これらの数を表す3つの負でない整数を取得しました。RGRGRGRgRgRgrGrGrGrgrgrg 2つの検出器が独立している、つまりイベントがイベント独立しているという仮説をテストします。このような実験から3つの数値が与えられた場合、誰かがこの仮説の値を計算する方法を提案するのを助けることができますか？HHHRRRGGGppp 私は、値を計算するためのコンピューターアルゴリズム/手順に完全に満足します。簡単な数式は必要ありません。コンピュータで計算できるもので十分です。ppp これを表示する別の方法を次に示します。次のような2x2の分割表を作成できます。 G | g --------- R | 17 22 r | 12？ 17のイベント、22のイベントなどを記録した。残念ながら、放出された粒子の数がわからないため、右下のセルは空です。4つのセルすべての数がある場合、おそらくフィッシャーの正確確率検定を使用できますが、そうではありません。また、や（これらは迷惑なパラメータと思われます）や放出された粒子の総数は与えられません。RGRGRGRgRgRgrgrgrgPr[R]Pr[R]\Pr[R]Pr[G]Pr[G]\Pr[G] 助言がありますか？

8 hypothesis-testing

1

2標本順列コルモゴロフ-スミルノフ検定

ピアソンのカイ二乗/クレッシーリード型検定を使用する方が簡単ですが、ペティット＆スティーブンス（1977）によって提案された形式のコルモゴロフスミルノフ型検定を使用して、2つのグループにまたがるカテゴリーの比率の同等性をテストしたいと思います。）（こちらもご覧ください）kkk 特に、その論文の著者が指摘しているように、傾向のある代替案に対してある程度の力があるかもしれません。：その1サンプルの公称/カテゴリコルモゴロフ-スミルノフ検定が形状を有するので、ここで、πはカテゴリの順序の順列、fDn=supπsup1≤j≤k|∑i=1j(fexp,π(i)−fobs,π(i))|Dn=supπsup1≤j≤k|∑i=1j(fexp,π(i)−fobs,π(i))| D_n = \sup_{\pi}\sup_{1 \leq j \leq k}\vert \sum_{i=1}^j(f_{exp,\pi(i)}-f_{obs,\pi(i)})\vertππ\piは、カテゴリiの観測頻度と期待頻度（または同等に観測の割合）です。これは次のように書くこともできます： D n = 1f.,if.,if_{.,i}iii これを、ランダム化/置換の手順を使用して、2サンプルの場合に拡張したいと思います。D（r ） n =1Dn=12∑i=1k|fexp,i−fobs,i|Dn=12∑i=1k|fexp,i−fobs,i| D_n = \frac{1}{2} \sum_{i=1}^k\vert f_{exp,i}-f_{obs,i} \vert。（r ）は、カテゴリ変数の r 番目の順列に基づいて計算された統計を示します。元の統計の値が置換された統計の 95 ％の値より大きい場合は拒否します。 D(r)n=12∑i=1k|f(r)group1,i−f(r)group2,i|,r=1,…,RDn(r)=12∑i=1k|fgroup1,i(r)−fgroup2,i(r)|,r=1,…,R D_n^{(r)} = \frac{1}{2} \sum_{i=1}^k\vert f^{(r)}_{\text{group1},i}-f^{(r)}_{\text{group2},i} \vert,\, r=1,\dots,R .(r).(r).^{(r)}rthrthr^{\text{th}}95%95%95\% そのような手順の長所/短所/有効性に関するコメントは大歓迎です。ありがとう。

8 hypothesis-testing

タグ付けされた質問 「hypothesis-testing」

タグ付けされた質問「hypothesis-testing」