統計とビッグデータ hypothesis-testing

1

分析化学の文献（ほとんど）では、一変量データ（たとえば、いくつかのパラメーターの一連の測定値）の外れ値を検出するための標準テストは、ディクソンのQテストです。常に、教科書に記載されているすべての手順では、表の値と比較するデータから数量を計算します。手作業では、これはそれほど問題ではありません。しかし、私はDixon Qのコンピュータープログラムを書くつもりであり、値をキャッシュするだけでは洗練されていません。これが最初の質問です。 Dixon Qの表形式の値はどのように生成されますか？さて、すでにこの記事を調べましたが、著者がDixonによって生成された表形式の値を通過するスプラインを作成するだけであるという点で、これは少しの不正行為だと感じています。特別な関数（エラー関数や不完全なベータ/ガンマなど）がどこかで必要になると思いますが、少なくともそれらのアルゴリズムがあります。さて、私の2番目の質問です。ISOは、最近のDixon Qに対するGrubbsのテストをゆっくりと推奨しているようですが、まだ理解していない教科書から判断すると、一方、スチューデントtのCDFの逆数を計算するだけなので、実装は比較的簡単です。さて、私の2番目の質問です。 Dixonの代わりにGrubbsを使用したいのはなぜですか？私の場合、明白な面では、アルゴリズムは「よりきれい」ですが、もっと深い理由があると思います。誰かが私を啓発する気にできますか？

8 outliers hypothesis-testing

2

既知の統計特性を持つ事前に生成された数値シリーズはありますか？

数値シーケンスのいくつかの統計的特性（平均、中央値、標準偏差など）を計算すると主張するプログラムをテストしようとしています。シンプルで短いシーケンスはテストに合格しますが、長いシーケンス、または大きな値と小さな値のシーケンス（オーバーフロー/アンダーフローをテストするため）などでプログラムに挑戦したいと思います。したがって、ソフトウェアやオンラインリソースなどがありますか既知の統計特性を持つさまざまな数値シーケンスのソース？

8 hypothesis-testing

4

仮説検定の解釈の問題

仮説テストについて常に2つのことで悩みました。人口平均が正確に任意の数値である確率（問題の確率変数が連続である場合）は常にゼロです。そうではありませんか？したがって、私たちは常に帰無仮説を拒否する必要があります... 検定の結果が帰無仮説を棄却するか受け入れるかである場合、対立仮説に示されているものとどのような違いがありますか？どうか、誰かが光を当てることができますか？

8 hypothesis-testing

2

2つの比率を比較するためのプールされていないz検定の使用を正当化するリファレンスはありますか？

2つの比率を比較するz検定は、。通常それは定義されますz=p^1−p^2Var(p^1−p^2)√z=p^1−p^2Var(p^1−p^2)\newcommand{\p}{\hat{p}}\newcommand{\v}{\mathrm{Var}} z=\frac{\p_1-\p_2}{\sqrt{\v(\p_1-\p_2)}} Var(p^1−p^2)=p^(1−p^)(1/n1+1/n2),Var(p^1−p^2)=p^(1−p^)(1/n1+1/n2),\v(\p_1-\p_2)=\p(1-\hat{p})(1/n_1+1/n_2), どこ p^=n1p^1+n2p^2n1+n2.p^=n1p^1+n2p^2n1+n2.\p=\frac{n_1 \p_1+n_2 \p_2}{n_1+n_2}. 代わりにプールされていない差異を使用するために私を正当化する書面による参照はありますか？ Var(p^1−p^2)=p^1(1−p^1)n1+p^2(1−p^2)n2?Var(p^1−p^2)=p^1(1−p^1)n1+p^2(1−p^2)n2?\v(\p_1-\p_2)=\frac{\p_1(1-\p_1)}{n_1}+\frac{\p_2(1-\p_2)}{n_2}?

8 variance proportion hypothesis-testing

1

バックテストのリターンと実際のトレーディングリターンの比較

（過去の価格を使用した）いくつかのトレーディング戦略の10年のバックテストシミュレーションパフォーマンスと、Nか月の実際のトレーディングパフォーマンスがあります。バックテストの数値で目標を達成しているかどうかは、どのような統計的テストで確認できますか？（両方とも、予想される年間収益と予想される年間シャープ比の両方に関して）

8 hypothesis-testing

2

中央値の差をテストする

2つの分布のサンプルを考えて、中央値の差のテストを探しています（中央値が異なるという証拠のためにnullを拒否します）。両方の分布について何も仮定しません。この状況の標準テストはありますか？ムードの中央値検定は知っていますが、分布がシフトしていることを前提としています。一部の。私はこれらの情報源でこの主張を支持します：F2（t ）=F1（t − a ）F2(t)=F1(t−a)F_2(t) = F_1(t-a)A ∈ Ra∈Ra \in \mathbb{R} リンク1 リンク2 LINK3

8 hypothesis-testing statistical-significance median

1

シャピロウィルクテストWは効果サイズですか？

十分に大きなサンプルサイズがわずかな非正規性を強調する正規性テストの誤用を避けたいです。分布は「十分に正常」であると言えるようにしたいと思います。母集団が非正規の場合、サンプルサイズが増加するにつれて、Shapiro-Wilk検定のp値は0になる傾向があります。p値は、分布が「十分に正規」であるかどうかを判断するのに役立ちません。解決策は、非正規性の効果サイズを測定し、しきい値よりも非正規性であるものはすべて拒否することだと思います。 Shapiro Wilk検定は検定統計量生成し。これは非正規性の効果サイズを測定する方法ですか？WWW これをRでテストするには、均一な分布から抽出されたサンプルに対してシャピロウィルクテストを行います。サンプル数は10から5000の範囲で、結果は下にプロットされています。Wの値は定数に収束し、向かう傾向はありません。小さなサンプルに対してがバイアスされているかどうかはわかりませんが、小さなサンプルサイズに対しては低くなるようです。場合、私は下の何かを受け入れるようにしたい場合は問題になる可能性効果の大きさの偏った推定値である「通常は十分」と。111WWWWWWW=0.1W=0.1W=0.1 私の2つの質問は次のとおりです。ある非正規の効果の大きさの尺度？WWW さ小さなサンプルサイズのバイアス？WWW

8 hypothesis-testing normality-assumption effect-size

2

このタイプの質問に対する正しい分析は何ですか？（条件付きロジスティック回帰？）

次の実験を踏まえて、以下の質問に答えるための正しい統計的方法は何ですか？参加者は写真が連続して表示され、各写真の後にオブジェクトまたは顔のどちらを見たかに応答する必要があります。各試行（画像のプレゼンテーション）では、表示された画像（210の個別の顔の1つまたは210の個別のオブジェクトの1つ）に、一定量のランダムノイズ（5％から98％の間）が重ねられます。各トライアルで提示される画像はかなり小さいため、各トライアルにも背景があります。背景は黒、大きなオブジェクト、または大きな顔のいずれかです。個々の画像が一致します。つまり、個々の画像は合計3回表示されます。1回は黒い背景で、1回は大きなオブジェクトを背景として、1回は大きな顔を背景として表示されます。個々の画像に重ねられるランダムノイズの量は、3つの異なる背景条件にわたって一定に保たれます。大きなオブジェクトの背景にあるオブジェクトは変化せず、提示された210個の個別オブジェクト画像の1つに含まれていません。同様に、大きな顔の背景の顔は変化せず、表示される210個の個別の顔写真の1つには含まれません。背景にノイズは追加されません。私が回答したいのは、3つの異なる背景条件間で、顔、オブジェクト、または両方の知覚が大きく異なるかどうかです。回答したい質問の詳細については、下の質問5を参照してくださいつまり、最後に、次のようなデータテーブルがあります。 + ------------- + ------------- + ------------- + ------- ------ + ------------- + ------------- + | 参加者| カテゴリー| Pic ID | 騒音レベル| 背景| レスポンス* | + ------------- + ------------- + ------------- + ------- ------ + ------------- + ------------- + | 1 | 0 | 1 | …

8 hypothesis-testing logistic multiple-comparisons paired-data

2

異常な仮説を使用した仮説検定（）

通常、私は仮説検定の方法に非常に精通していますが、が特定の値に等しいという別の仮説を見たことはありません。この状況では、どのように進めますか？これは私が遭遇した例です：μμ\mu 「分散正規性を仮定し、\ bar x = 58.05のサンプルサイズ20を使用し、\ alpha = 0.05を選択してσ2=9σ2=9σ^2 = 9、対立仮説\ mu = 57.0に対して帰無仮説\ mu = 60.0をテストします。 "μ=60.0μ=60.0\mu = 60.0μ=57.0μ=57.0\mu = 57.0202020x¯=58.05x¯=58.05\bar x = 58.05α=0.05α=0.05\alpha = 0.05

8 hypothesis-testing self-study

1

フィッシャーの正確確率検定の不適切な使用を回避する時期と方法

Richard McElreathがフィッシャーの正確な検定が彼の優れたベイジアン紹介本（統計的再考）でますか？参考までに、コンテキストは以下のとおりです。なぜ革新的な研究に十分なテストではないのですか？導入統計の古典的な手順は、柔軟性がなく、壊れやすい傾向があります。柔軟性がないということは、彼らが独自の研究状況に適応する方法が非常に限られているということです。壊れやすいということは、新しいコンテキストに適用すると、予測できない方法で失敗するということです。ほとんどの科学の境界では、どの手順が適切であるかがはっきりしないので、これは重要です。従来のゴーレムはどれも斬新な研究環境で評価されていないため、1つを選択してそれがどのように動作するかを理解するのは難しい場合があります。良い例はフィッシャーの正確検定です。これは非常に狭い経験的コンテキストに（正確に）適用されますが、セル数が少ない場合は常に使用されます。私は個人的にフィッシャーの正確な検定の数百の使用法を科学雑誌で読みましたが、フィッシャーの元の使用法は別として、それが適切に使用されたことはありません。多くの点で非常に柔軟性があり、興味深い多様な仮説を非常に多様にエンコードできる通常の線形回帰のような手順でさえ、壊れやすい場合があります。たとえば、予測変数に大きな測定誤差がある場合、手順は見事に失敗する可能性があります。しかし、より重要なことに、主にオーバーフィッティングと呼ばれる現象が原因で、通常の線形回帰よりも優れた処理を行うことがほぼ常に可能です。

7 hypothesis-testing bayesian fishers-exact

1

帰無仮説の棄却がなぜ検察官の誤りのケースではないのですか？

これが私の理解です： p値-調査質問の帰無仮説（H0）が真の場合に、観測された、またはより極端な結果を見つける確率つまり、p-valueです。ここで、p値が特定のしきい値（）を下回ると、帰無仮説を棄却します。=P(evidence/nullhypothesis)=P(evidence/nullhypothesis)=P(evidence/nullhypothesis)alphaalphaalpha 私はここで非常に基本的な何かを見逃していることを知っていますが、検察官の誤謬を犯した場合ではなく、帰無仮説が真実であるという証拠である可能性が低いことに基づいて帰無仮説を拒否するのはどうですか？

7 hypothesis-testing bayesian p-value frequentist fallacy

3

なぜ人々は重要性レベルを権力と交換しないのですか？

慣例として、有意水準がで検出力がある多くの研究があります。ただし、べき乗で研究を見つけることは非常にまれです。0.050.050.050.80.80.8α = 0.2α=0.2\alpha = 0.20.950.950.95 私の理解では、実験が行われた後、結果が有意でない場合、有意水準はまったく問題になりません。なぜなら、この場合、私たちはnullを受け入れることが理にかなっているかどうかを検討しており、すべての重要なことです力です。同様に、結果が有意である場合、有意水準は証拠となり、検定の検出力はまったく差がありません。（「重要ではない」とは、「この実験の目的ではない」という意味です。メタスタディでは、重要度とパワーの両方が重要であるため、両方をレポートで報告してください！）私が正しい場合、帰無仮説と代替案はある程度対称的です。帰無仮説は本質的にそれ以上の保護を必要としません。代替案を証明したい場合は、「この新薬は患者に影響を与える」と言ってから、非常に小さなと適度に高いパワーを使用します。一方、たとえば正規性テストでnullを証明する場合は、適度に小さいと非常に高いパワーを選択して、nullを秘密裏に受け入れることができるようにする必要があります。αα\alphaαα\alpha 適度に小さいと非常に高いパワーでの実験がそれほど珍しいのはなぜですか？αα\alpha

7 hypothesis-testing statistical-significance power-analysis methodology philosophical

4

合計のA / Bテスト比率

環境オンラインで商品を販売する会社について、次のシナリオを考えます。ユーザーは複数のアイテム（つまり、アイテムのバスケット）を購入できます。そのうちのいくつかは特に重要で、特に追跡されます（スターアイテムと呼びましょう）。販売されたスターアイテムの数と総売上の両方に影響を与える可能性のあるアルゴリズムの変更（推奨、リスク評価、ターゲティングの追加など）をテストしたいと考えています。これは標準のA / Bテストセットアップです。ランダム化ユニットはユーザーレベルにあります。 A / Bテストの目的は、アルゴリズム変更の影響を比較することです。コントロールグループには元のアルゴリズムがあり、バリアントには新しいアルゴリズムがあります。重要な指標の1つは、総売上に対するスターアイテムの売上の比率として定義されます。これは、各AまたはBグループのスコープ内のすべてのユーザーのすべてのトランザクションにわたる合計です。つまり、分析単位はトランザクションレベルにあり、ランダム化単位とは異なります。メトリックは、テストの全期間（2週間など）にわたって計算されます。使用されるメトリックの詳細グループAと一連のユーザー与えられた場合、各ユーザーは多数のトランザクションに関与しています。テスト期間中のグループAのすべてのユーザーのすべてのトランザクションのセットは、。UA={u1,u2,...,uNA}UA={u1,u2,...,uNA}U_A = \{u_1,u_2,...,u_{N_A} \}tuntunt_{u_n}TATAT_ATA={tu11,tu12,...tunm}TA={tu11,tu12,...tunm}T_A = \{ t_{u_{11}}, t_{u_{12}}, ... t_{u_{nm} } \} グループAの対象メトリックは、グループAのスコープ内のすべてのトランザクションに対して定義されます。合計は、ユーザーレベルではなくトランザクションレベルです。 MetricA=∑ti∈TAsales star items $∑ti∈TAsales $MetricA=∑ti∈TAsales star items $∑ti∈TAsales $\text{Metric}_A = \frac{\sum_{t_{i} \in T_A} \text{sales star items }$}{\sum_{t_{i} \in T_A} \text{sales }$ } もちろん、ユーザーレベルの平均を計算するように定義を変更することもできます。これによりすべてが簡略化されますが、これは使用されているメトリックではありません。ご質問 …

7 hypothesis-testing statistical-significance ab-test

4

時系列を生成したプロセスが時間とともに変化したかどうかをテストする方法

問題マシンによって生成された時系列データが2つのばらばらの期間にわたってあります-およそ2016年に1か月、2018年にもう1か月です。各タイムステップで、観測された変数は観測された変数の別のセットで説明できるとドメインの専門家は仮定しています。tttYtYtY^tバツt1、… 、バツtdバツ1t、…、バツdtX_1^t, \ldots, X_d^t このプロセスが時間とともに変化したかどうかをどのようにテストできますか？変数分布が時間の経過とともに変化したかどうかをテストしようとしていないことに注意してください。との関係が時間とともに変化したかどうかをテストしたいと思います。YYYバツ私バツ私X_iYYY 現在のアプローチを生成した基礎となるプロセスをモデル化する方法として、を指定してを予測するために、2016年のデータに時系列モデル（たとえば、ガウスプロセス）をたとします。YtYtY^tバツt1、… 、バツtdバツ1t、…、バツdtX_1^t, \ldots, X_d^tYtYtY^t ドメインの専門家は、おそらくこのモデルを使用して、2018年の与えられた場合の変数を予測し、残差を使用してモデル（2016年のプロセスを表す）がそうであることを推測できると示唆しました2018年も同じではありません。この時点以降の継続方法は不明です。YtYtY^tバツtバツtX^t 私が考えていること 2016年と2018年の残差が同じ分布から生成されているかどうかをテストする必要がありますか、それともKolmogorov-Smirnovテストなどを使用して適合度テストを実行する必要がありますか？このアプローチに関する私の懸念は、2018年のサンプル外のデータは2016年のサンプル内のトレーニングデータよりもエラーが大きくなる可能性が高いため、このテストでは誤検知が発生する可能性が高いということです。この影響を調整/説明する方法はありますか？ 2016年と2018年の2つのモデルを適合させ、これらの2つのモデルが「同じ」または「異なる」ことをテストする方法を使用する必要がありますか？たとえば、1つの可能性は、2016年と2018年のデータにそれぞれ当てはめられた2つのガウスプロセス間のKL発散を計算することです。このアプローチの他の提案や問題はありますか？共和分に関するいくつかの投稿を見ました。しかし、私はこの概念を完全に理解していません。これは関連していますか？一般に、この種の問題にどのように取り組むことができますか？私はこれをオンラインで検索してみましたが、クエリの精度が不足しているため（この領域についてはよく知らないため）、関連する結果が多く得られません。検索するトピック/キーワードに関する簡単なヒント/コメント、または目を通すための本/論文にも感謝します。親切に私は発見的手法に基づく方法ではなく、原則的な（できれば統計的）アプローチを探していることに注意してください。良い例は、以下のChowテストとその変形を示唆する回答です。

7 time-series hypothesis-testing gaussian-process model-comparison structural-change

2

仮説検定なしの統計

Andrew Gelmanは彼のブログ投稿で、ベイジアン仮説検定のファンではない（ここを参照：http : //andrewgelman.com/2009/02/26/why_i_dont_like/）と述べています。また、フリークエンティスト仮説検定には欠点もあると述べています。私の質問は次のとおりです。仮説検定（繰り返し申し訳ありません）についても、仮説検定を行わずに統計を実行して、意思決定を行うことはできますか？解決策は推定のみに依存し、推定確率に基づいて決定を下すことですか？もしそうなら、これについてどこで学ぶべきか指摘できますか？

7 hypothesis-testing bayesian frequentist

タグ付けされた質問 「hypothesis-testing」

タグ付けされた質問「hypothesis-testing」