タグ付けされた質問 「hypothesis-testing」

仮説検定では、データがランダムな変動の影響ではなく、特定の仮説と矛盾しているかどうかを評価します。

2
Wilksの1938年の証明が、誤って指定されたモデルに対して機能しないのはなぜですか?
有名な1938年の論文(「複合仮説をテストするための尤度比の大標本分布」、Annals of Mathematical Statistics、9:60-62)で、サミュエルウィルクスは(対数尤度比)の漸近分布を導きました)ネストされた仮説の場合、より大きな仮説が正しく指定されているという仮定の下で。極限分布はχ 2(カイ二乗)とH - M個の自由度Hが大きい仮説とのパラメータの数であり、Mが2×LLR2×LLR2 \times LLRχ2χ2\chi^2h−mh−mh-mhhhmmmネストされた仮説の自由パラメーターの数です。ただし、仮説が誤って指定されている場合(つまり、大きな仮説がサンプリングされたデータの真の分布ではない場合)、この結果が保持されないことはよく知られています。 誰でもその理由を説明できますか?ウィルクスの証明は、わずかな修正を加えても機能するはずです。最尤推定(MLE)の漸近正規性に依存しますが、これは誤って指定されたモデルでも保持されます。唯一の違いは、制限多変量正規分布の共分散行列です。正しく指定されたモデルでは、共分散行列を逆フィッシャー情報行列で近似できますが、仕様が間違っていれば、共分散行列のサンドイッチ推定(J − 1 K J − 1)。モデルが正しく指定されると、後者はフィッシャー情報行列の逆行列になります(J = KJ−1J−1J^{-1}J−1KJ−1J−1KJ−1J^{-1} K J^{-1}J=KJ=KJ = K)。AFAICT、Wilksの証明は、MLEの多変量正規の可逆漸近共分散行列(Wilks論文の)がある限り、共分散行列の推定値がどこから来るかを気にしません。 c−1c−1c^{-1}

4
なぜベイジアン手法は複数のテスト修正を必要としないのですか?
アンドリュー・ゲルマンは、ベイジアンAB検定が複数の仮説修正を必要としない理由に関する広範な記事を書いた:2012年、複数の比較を心配する必要がない理由(通常)。 よくわかりません。なぜベイジアンメソッドは複数のテスト修正を必要としないのですか? A ~ Distribution1 + Common Distribution B ~ Distribution2 + Common Distribution C ~ Distribution3 + Common Distribution Common Distribution ~ Normal 私の理解では、上記のベイジアンのアプローチは、すべての仮説による共有された基礎となる分布を説明するものです(頻繁なボンフェローニ補正とは異なります)。私の推論は正しいですか?

4
ストーファーのZスコア法:我々は合計あれば何の代わりに、?
同じ帰無仮説でNNN独立した統計検定を実行していますが、結果を1つのppp値に結合したいと思います。Fisherの方法とStoufferの方法の 2つの「受け入れられた」方法があるようです。 私の質問は、ストーファーの方法についてです。個別のテストごとに、zスコアz_iを取得しz私z私z_iます。帰無仮説では、それらはそれぞれ標準正規分布で分布するため、和ΣのZ私Σz私\Sigma z_iは分散Nの正規分布に従いますNNN。したがって、Stoufferの方法は、単位分散で正規分布する\ Sigma z_i / \ sqrt {N}を計算しΣのZ私/ N−−√Σz私/N\Sigma z_i / \sqrt{N}、これをジョイントzスコアとして使用することを提案しています。 これは理にかなっていますが、ここで私が思いついた別のアプローチがあり、これも理にかなっています。各z私z私z_iは標準正規分布に由来するため、平方和S= Σ Z2私S=Σz私2S=\Sigma z^2_iはNNN自由度のカイ2乗分布に由来する必要があります。したがって、N自由度の累積カイ2乗分布関数を使用してSSSを計算し、ppp値に変換できます(p = 1−X_N(S)、X_NはCDF)。NNNp = 1 − XN(S)p=1−バツN(S)p=1−X_N(S)バツNバツNX_N しかし、このアプローチが言及されていることすら見つけることができません。使用されたことがありますか?名前はありますか?ストーファーの方法と比較した場合の利点/欠点は何ですか?または、私の推論に欠陥がありますか?

5
ノンパラメトリックテストは正確に何を達成し、結果をどうしますか?
私はこれが他の場所で尋ねられたかもしれないと感じていますが、実際に私が必要とする基本的な説明のタイプではありません。ノンパラメトリックは、比較するために平均ではなく中央値に依存していることを知っています...何か。また、標準偏差ではなく「自由度」(?)に依存していると思います。私が間違っている場合は修正してください。 私はかなり良い研究をしてきたので、コンセプト、その背後にある仕組み、テスト結果が本当に意味すること、および/またはテスト結果をどう処理するかを理解しようとして考えました。しかし、誰もその地域に進出することはないようです。 簡単にするために、Mann-WhitneyのU検定に固執しましょう。これは非常に人気があることに気づきました(また、「正方形のモデルを円の穴に入れる」ために誤用され、過度に使用されているようです)。他のテストについても自由に説明したい場合は、一度理解すれば、他のテストもさまざまなt検定などに類似した方法で理解できます。 データでノンパラメトリックテストを実行し、この結果を取得したとしましょう。 2 Sample Mann-Whitney - Customer Type Test Information H0: Median Difference = 0 Ha: Median Difference ≠ 0 Size of Customer Large Small Count 45 55 Median 2 2 Mann-Whitney Statistic: 2162.00 p-value (2-sided, adjusted for ties): 0.4156 私は他の方法に精通していますが、ここで何が違うのですか?p値を.05より低くする必要がありますか?「マン・ホイットニー統計」とはどういう意味ですか?それに用途はありますか?ここでのこの情報は、私が持っている特定のデータソースを使用する必要があるかどうかを確認するだけですか? 私は回帰と基本の合理的な量の経験を持っていますが、この「特別な」ノンパラメトリックなものに非常に興味があります。 私が5年生だと想像して、あなたがそれを私に説明できるかどうか確かめてください。

3
A / Bテストのサンプルサイズを安全に決定する
私は、A / Bテストツールの構築を検討しているソフトウェアエンジニアです。統計のバックグラウンドはしっかりしていませんが、ここ数日間はかなりの読書をしています。 ここで説明する方法論に従い、関連するポイントを以下にまとめます。 このツールにより、デザイナーとドメインエキスパートは、特定のURLで受信したトラフィックを2つ以上のURLに分割するようにWebサイトを構成できます。たとえば、http://example.com/hello1に到着するトラフィックは、http://example.com/hello1とhttp://example.com/hello2に分割できます。トラフィックはターゲットURL間で均等に分割され、各ターゲットURLでのマーケティングプロセスのパフォーマンスが比較されます。 この実験では、サンプルサイズNは訪問者に対応します。このテストでは、訪問者がマーケティングプロセスで特定のアクションをいつ実行するかを表す用語である「コンバージョン」を測定します。コンバージョンはパーセンテージで表され、より高いコンバージョン率が望まれます。これにより、テストは独立した比率の比較になります。このツールは、安全な結果のテストを作成するために簡単に使用できる必要があります。の適切な値を選択することNが重要です。 上記のリンクされた記事では、2つの独立した比率の検出力分析を使用してを見つけていますN。この方法では、コントロールの変換率を事前に把握し、目標とする変換改善を指定する必要があります。また、有意水準95%および統計的検出力80%を指定します。 質問: N音を決定するこの方法はありますか?その場合、テストを開始する前にコントロールの変換率を決定する最も安全な方法は何ですか? Nコントロールの変換率を事前に知る必要のない適切な判断方法はありますか? リンクされた記事の方法論は適切ですか?そうでない場合、私にリンクできるアクセス可能な簡単に消化できる方法はありますか?

2
混合効果モデルをどのように比較または検証する必要がありますか?
(線形)混合効果モデルは通常どのように互いに比較されますか?尤度比検定を使用できることは知っていますが、一方のモデルが他方のモデルの「サブセット」でない場合、これは機能しませんか? モデルdfの推定は常に簡単ですか?固定効果の数+推定される分散成分の数 ランダム効果の推定値を無視しますか? 検証はどうですか?私の最初の考えは相互検証ですが、データの構造を考えるとランダムな折り畳みは機能しないかもしれません。「1つのサブジェクト/クラスターを除外する」方法論は適切ですか?1つの観察結果を除外するのはどうですか? Mallows Cpは、モデルの予測誤差の推定値として解釈できます。AICを介したモデル選択は、予測エラーを最小化しようとします(したがって、エラーがガウス分布である場合、CpとAICは同じモデルを選択する必要があります)。これは、AICまたはCpを使用して、いくつかのネストされていないモデルのコレクションから予測エラーの観点から「最適な」線形混合効果モデルを選択できることを意味しますか?(同じデータに当てはまる場合)BICは、候補者の間で「真の」モデルを選択する可能性がまだ高いですか? また、AICまたはBICを介して混合効果モデルを比較する場合、実際のモデルdfではなく、計算で固定効果のみを「パラメーター」として数えるという印象を受けています。 これらのトピックに関する良い文献はありますか?cAICまたはmAICを調査する価値はありますか?AIC以外の特定のアプリケーションがありますか?

2
帰無仮説が仮説検定の範囲ではなく常にポイント値であるのはなぜですか?
これは、私が尋ねた別の質問に多少関連しています。私が持っている疑問は、仮説検定を行うとき、対立仮説が範囲であるとき、帰無仮説はまだポイント値であるということです。例として、相関係数が0.5より大きいかどうかをテストする場合、帰無仮説は「correlation <= 0.5」ではなく「correlation = 0.5」です。これはなぜですか?(または私はそれを間違えましたか?)

1
Benjamini-Hochberg、p値またはq値による複数の仮説検定修正?
昇順でソートされた独立したテストから生成されたp値のリストが与えられた場合、複数のテストの修正にBenjamini-Hochberg手順を使用できます。各p値について、Benjamini-Hochbergプロシージャを使用すると、各p値のFalse Discovery Rate(FDR)を計算できます。つまり、ソートされたp値のリストの各「位置」で、それらのどの割合が帰無仮説の誤った拒否である可能性が高いかを示します。 私の質問は、これらのFDR値は「q値」、「修正されたp値」、または完全に別のものと呼ばれますか? 編集2010-07-12:私たちが使用している修正手順をより完全に説明したいと思います。まず、未修正の元のp値で昇順にテスト結果を並べ替えます。次に、リストを反復処理し、「これとリストの前のすべての検定について帰無仮説を拒否する場合に予想されるFDR」として解釈されているものを計算します。 、各反復の未修正p値。次に、「q値」と呼んでいるものとして、単調性を維持するために、以前に修正された値(反復i-1でのFDR)または現在の値(i)の最大値を取ります。 以下は、この手順を表すPythonコードです。 def calc_benjamini_hochberg_corrections(p_values, num_total_tests): """ Calculates the Benjamini-Hochberg correction for multiple hypothesis testing from a list of p-values *sorted in ascending order*. See http://en.wikipedia.org/wiki/False_discovery_rate#Independent_tests for more detail on the theory behind the correction. **NOTE:** This is a generator, not a function. It will yield …

2
順列検定の前提は何ですか?
置換テストには前提がないとよく言われますが、これは確かに真実ではありません。たとえば、サンプルが何らかの形で相関している場合、ラベルを並べ替えることは正しいことではないと想像できます。この問題について私が見つけたと思うのは、ウィキペディアの次の文章です。「置換テストの背後にある重要な仮定は、帰無仮説の下で観測値が交換可能であるということです。」私には分かりません。 順列検定の前提は何ですか?そして、これらの仮定は、考えられるさまざまな置換スキームにどのように関連していますか?

2
回帰におけるWaldテスト(OLSおよびGLM):t分布とz分布
回帰係数のWald検定は、漸近的に保持される次のプロパティに基づいていることを理解しています(たとえばWasserman(2006):All Statistics、pages 153、214-215): ここで推定回帰係数を示し、は回帰係数の標準誤差を示し、は係数の値をテストするために関心のある値(は通常0です) 0とは大きく異なります)。サイズようワルドテストがある:リジェクト場合β^SE(β)β0β0αH0| W| >Zα/2(β^- β0)seˆ(β^)〜 N(0 、1 )(β^−β0)se^(β^)∼N(0,1) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}seˆ(β^)se^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}|W| > zα / 2|W|>zα/2|W|> z_{\alpha/2}ここで、 W= β^seˆ(β^)。W=β^se^(β^). W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. ただしlm、Rで線形回帰を実行する場合、回帰係数が0(with )と大きく異なるかどうかをテストするために、値の代わりに値が使用されます。さらに、in R の出力は、テスト統計として値と値を提供する場合があります。明らかに、分散パラメータが既知であると想定される場合は値が使用され、分散パラメータが推定される場合は値が使用されます(このリンクを参照)。z z t z ttttzzzsummary.lmglmzzztttzzzttt 係数とその標準誤差の比率が標準正規分布として分布していると想定されているのに、なぜWald検定に分布が使用されることがあるのか、誰か説明できますか?ttt 質問に答えた後に編集する この投稿は、質問に役立つ情報も提供します。


4
サンプルサイズが十分に大きい場合、実際の効果サイズが正確にゼロでない限り、テストは常に重要な結果を示します。どうして?
Wikipediaの効果サイズに関する記事で主張されていることに興味があります。具体的には: [...] null以外の統計比較では、母集団効果サイズが正確にゼロでない限り、常に統計的に有意な結果が表示されます これが何を意味/意味するのかはわかりませんが、それを裏付ける議論は言うまでもありません。結局、効果は統計、つまり、サンプルから計算された値であり、独自の分布を持っていると思います。これは、効果が単なるランダムな変動によるものではないことを意味しますか(これは重要ではないことを意味します)?次に、効果が十分に強いかどうか、つまり絶対値が高いかどうかだけを検討しますか? 私が最もよく知っている効果を考えています。ピアソン相関係数rはこれと矛盾するようです。が統計的に有意なのはなぜですか?が小さい場合、回帰直線 r y = a x + b = r (s yrrrrrry=ax+b=r(sysx)=ϵx+by=ax+b=r(sysx)=ϵx+b y=ax+b = r\left(\frac {s_y}{s_x}\right) = \epsilon x+b 小さな、0に近いです、F-テストはおそらくスロープを0を含む区間自信が含まれています。これは反例ではありませんか?ϵϵ\epsilon

3
ネイマン・ピアソンの補題
Mood、Graybill、Boes の著書「Introduction to the Theory of Statistics」から ネイマン・ピアソンの補題を読みました。しかし、私は補題を理解していません。 誰でも私に補題をわかりやすい言葉で説明してもらえますか?それは何を述べていますか? ネイマン・ピアソンの補題:レッツからのランダムサンプルである、二つの既知の値のいずれかであると、およびlet固定します。X1,…,XnX1,…,XnX_1,\ldots,X_nf(x;θ)f(x;θ)f(x;\theta)θθ\thetaθ0θ0\theta_0θ1θ1\theta_10&lt;α&lt;10&lt;α&lt;10<\alpha<1 ましょう 正の定数とすることのサブセットでれる満たすクリティカル領域C ^ *に対応する テスト\ gamma ^ *は、サイズ\ alphaの\ mathscr H_0:\ theta = \ theta_0対\ mathscr H_1:\ theta = \ theta_1の最も強力なテストです。k∗k∗k^*λ = L (θ 0、X 1、··· 、XのN)C∗C∗C^*XX\mathscr XPθ0[(X1,…,Xn)∈C∗]=α(1)(1)Pθ0[(X1,…,Xn)∈C∗]=α \tag 1 P_{\theta_0}[(X_1,\ldots,X_n)\in C^*] = \alpha λ = L (θ0; バツ1、… 、xn)L …

3
比較および対比、p値、有意水準およびタイプIエラー
p値、有意水準、タイプIエラーの定義と使用に関して、だれかが簡潔に要約できるかどうか疑問に思っていました。 p値は「少なくとも実際に観測したものと同じくらい極端な検定統計量を取得する確率」として定義され、p値が有意であるかどうかを測定するための有意水準は単なる任意のカットオフ値です。タイプIエラーは、真である帰無仮説を棄却したエラーです。ただし、有意水準とタイプIエラーの違いについては不明ですが、それらは同じ概念ではありませんか? たとえば、コインを1000回裏返し、「頭」に着弾した回数を数える非常に単純な実験を想定します。私の帰無仮説、H0は、heads = 500(不偏コイン)です。次に、有意水準をalpha = 0.05に設定します。 コインを1000回反転し、p値を計算します。p値が0.05より大きい場合、帰無仮説を棄却できず、p値が0.05未満の場合、帰無仮説を棄却します。 今、この実験を繰り返して、p値を計算し、帰無仮説を拒否または拒否し、拒否した/拒否しなかった回数を数えるたびに、帰無仮説の5%を拒否することになります実際にはどれが本当でしたか、それは正しいですか?これがタイプIエラーの定義です。したがって、フィッシャー有意性検定の有意水準は、繰り返し実験を実行した場合の本質的に、ネイマンピアソン仮説検定からのタイプIエラーです。 p値については、最後の実験から0.06のp値を得て、複数の実験を行い、0から0.06のp値を取得したすべての実験を数えた場合、真の帰無仮説を棄却する確率は6%ですか?

2
「調査者の意図」としきい値/ p値
私はジョン・クルシュケの「Doing Bayesian Data Analysis」スライドを読んでいますが、実際には彼のt検定の解釈および/または帰無仮説有意性テストのフレームワークについて質問があります。彼は、研究者の意図に依存するため、p値は不明確だと主張している。 特に、2つの治療法を比較する同一のデータセットを収集する2つのラボの例を挙げています(3〜6ページ)。1つのラボは12人の被験者(条件ごとに6人)からデータを収集することを約束し、もう1つのラボは一定の期間データを収集します。スライドによると、重要なための-valueこれら二つのデータ収集方式間で異なる:、前者のために、しかし、後者のために!p &lt; 0.05 t crit = 2.33 t crit = 2.45tttp &lt; 0.05p&lt;0.05p<0.05tクリティカル= 2.33tcrit=2.33t_{\textrm{crit}}=2.33tクリティカル= 2.45tcrit=2.45t_{\textrm{crit}}=2.45 ブログ投稿-私は今見つけることができません-固定期間シナリオは、11、13、または他の任意の数の被験者からデータを収集できたので、固定期間シナリオはより自由度があると示唆しました定義はです。N= 12N=12N=12 誰かが私に説明してください: なぜこれらの条件の間で臨界値が異なるのでしょうか? (それが問題だと仮定すると)異なる停止基準の影響を修正/比較する方法は? 有意性に基づいて停止基準を設定すると(たとえば、p &lt;0.05までのサンプルp &lt; 0.05p&lt;0.05p<0.05)、タイプIエラーの可能性が増大する可能性がありますが、停止ルールはどちらの結果にも依存しないため、ここでは行われていないようです解析。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.