統計とビッグデータ hypothesis-testing

4

データが指数分布または正規分布に従っているかどうかを確認するための標準的な統計検定は何ですか？

12 distributions hypothesis-testing normal-distribution

3

ベイズファクター（BF）を理解しようとしています。2つの仮説の尤度比のようなものだと思います。したがって、BFが5の場合、これはH1がH0の5倍可能性が高いことを意味します。また、3〜10の値は中程度の証拠を示し、10を超える値は強い証拠を示します。ただし、P値の場合、伝統的に0.05がカットオフとして使用されます。このP値では、H1 / H0の尤度比は約95/5または19になります。それでは、BFに対して3を超えるカットオフが採用され、P値に対して19を超えるカットオフが採用されるのはなぜですか？これらの値もどこにも近くありません。

11 hypothesis-testing bayesian p-value bayes-factors

5

信頼区間は役に立ちますか？

頻出統計では、95％信頼区間は、時間を生成する手順であり、無限の回数を繰り返すと、95％の時間で真のパラメーターが含まれます。なぜこれが便利なのですか？信頼区間はしばしば誤解されます。これらは、パラメーターが含まれていることを95％確実にすることができる間隔ではありません（同様のベイズ信頼性間隔を使用している場合を除く）。信頼区間は、私にとって餌とスイッチのように感じます。私が考えることができる1つの使用例は、パラメーターがその値であるという帰無仮説を棄却できなかった値の範囲を提供することです。p値はこの情報を提供しませんか？それほど誤解を招くことなく、つまり、信頼区間が必要なのはなぜですか？正しく解釈すると、それらはどのように役立ちますか？

11 hypothesis-testing bayesian mathematical-statistics confidence-interval frequentist

4

複数のグループの平均を比較するANOVAとネストされたモデルを比較するANOVAの関係は何ですか？

これまで、ANOVAが2つの方法で使用されるのを見てきました。まず、私の紹介統計テキストでは、平均の1つに統計的有意差があるかどうかを判断するために、ペアワイズ比較に対する改善として、3つ以上のグループの平均を比較する方法としてANOVAが導入されました。第二に、私の統計学習テキストでは、ANOVAが2つ（またはそれ以上）のネストされたモデルを比較して、モデル2の予測子のサブセットを使用するモデル1がデータに等しく適合するか、または完全なモデル2が優れています。今、私は何らかの方法でこれら2つの事柄が両方ともANOVAテストを使用しているため、実際には非常によく似ていると思いますが、表面上はかなり異なっているように見えます。1つは、最初の使用で3つ以上のグループを比較し、2つ目の方法では2つのモデルのみを比較できることです。誰かがこれらの2つの使用法の関係を解明してくれませんか？

11 hypothesis-testing anova model-comparison f-test nested-models

5

（分類で行うように）0.5レベルではなく0.05レベルで帰無仮説を棄却する理由

仮説検定は分類問題に似ています。したがって、観察（サブジェクト）には2つの可能なラベルがある-ギルティ対非ギルティ。Non-Guiltyを帰無仮説とします。問題を分類の観点から見た場合、データが与えられると、2つのクラスのそれぞれに属する主題の確率を予測する分類子をトレーニングします。次に、確率が最も高いクラスを選択します。その場合、0.5の確率が自然なしきい値になります。誤検知エラーと誤検知エラーに異なるコストを割り当てた場合、しきい値を変更する可能性があります。ただし、しきい値を0.05に設定するほど極端になることはほとんどありません。つまり、確率が0.95以上の場合にのみ、サブジェクトをクラス「ギルティ」に割り当てます。でもよくわかったらこれは、仮説検定の問題と同じ問題を見るときに標準的な方法として行っていることです。後者の場合、「非ギルティ」である確率が5％未満の場合にのみ、「非ギルティ」というラベルは割り当てません。そして、もし私たちが無実の人々に有罪判決を下すことを本当に避けたいのであれば、これはおそらく理にかなっているでしょう。しかし、なぜこのルールがすべてのドメインとすべてのケースで適用されるのでしょうか？どの仮説を採用するかを決定することは、データを与えられた真実の推定者を定義することと同じです。最尤推定では、データが与えられる可能性が高いという仮説を受け入れます。ただし、圧倒的に可能性が高いとは限りません。以下のグラフをご覧ください。最尤法を使用すると、この例では予測子の値が3を超える場合（4など）、対立仮説が優先されますが、この値が帰無仮説から導出される確率は0.05よりも大きくなります。そして、私が投稿を始めた例はおそらく感情的に訴えられますが、技術的な改善など、他のケースを考えることができます。新しいソリューションが改善である確率が改善ではない確率よりも高いことがデータから示されたときに、なぜステータスクオにそのような利点を与える必要があるのですか？

11 probability hypothesis-testing classification p-value

3

ベイジアンパラメータ推定またはベイジアン仮説検定？

ベイジアンコミュニティ内では、ベイジアンパラメータの推定とベイジアン仮説の検定のどちらを行うべきかについて議論が続いているようです。これについて意見を募集することに興味があります。これらのアプローチの相対的な長所と短所は何ですか？どちらが適切なのでしょうか？パラメータ推定と仮説検定の両方を行うべきですか、それとも1つだけですか？

11 hypothesis-testing bayesian

1

相互共分散行列がゼロでないかどうかをテストするにはどうすればよいですか？

私の研究の背景：ギブスサンプリングでは、（対象の変数）とをそれぞれとからサンプリングします。ここで、とは次元のランダムベクトルです。通常、プロセスは2つの段階に分かれています。XXXP （X | Y ）P （Y | X ）X Y kYYYP(X|Y)P(X|Y)P(X|Y)P(Y|X)P(Y|X)P(Y|X)XXXYYYkkk すべてのサンプルを破棄するバーンイン期間。サンプルをおよびます。Y 1〜Y トンX1∼XtX1∼XtX_1\sim X_tY1∼YtY1∼YtY_1\sim Y_t 「バーンイン後」の期間。サンプルを平均化し、最終的な望ましい結果としてをします。X¯=1k∑ki=1Xt+iX¯=1k∑i=1kXt+i\bar{X} = \frac{1}{k}\sum_{i=1}^k X_{t+i} ただし、「アフターバーンイン」シーケンスのサンプルは独立して配布されません。したがって、最終結果の分散を調べたい場合は、バツt + 1〜Xt + kXt+1∼Xt+kX_{t+1}\sim X_{t+k} Var[ X¯] = Var[ ∑i = 1kバツt + i] = 1k2（Σi = 1kVar[ Xt + i] + ∑i = 1k − 1Σj = …

11 hypothesis-testing covariance covariance-matrix gibbs

2

p値の2つの定義：それらの等価性をどのように証明するか？

私はLarry Wassermanの本、All of Statisticsを読んでいますが、現在はp値（187ページ）について読んでいます。最初にいくつかの定義を紹介しましょう（引用します）：定義1拒絶領域を有する試験のパワー関数によって定義される試験のサイズがあると定義されるテストのサイズが\ alpha以下の場合、テストはレベル\ alphaであると言います。RRRβ(θ)=Pθ(X∈R)β(θ)=Pθ(X∈R)\beta(\theta)=P_{\theta}(X\in R)α=supθ∈Θ0β(θ)α=supθ∈Θ0β(θ)\alpha = \sup_{\theta\in\Theta_0}\beta(\theta)αα\alphaαα\alpha これは基本的にαα\alphaであり、サイズはタイプIのエラーの「最大の」確率であることを示しますppp値は（I quote）によって定義されます定義2すべてのα∈(0,1)α∈(0,1)\alpha\in(0,1)に対して、棄却領域R_ \ alphaを持つサイズαα\alphaテストがあると仮定します。次に、 p \ text {-value} = \ inf \ {\ alpha：T（X ^ n）\ in R_ \ alpha \} where X ^ n =（X_1、\ dots、X_n）です。RαRαR_\alphap-value=inf{α:T(Xn)∈Rα}p-value=inf{α:T(Xn)∈Rα}p\text{-value}=\inf\{\alpha:T(X^n)\in R_\alpha\}Xn=(X1,…,Xn)Xn=(X1,…,Xn)X^n=(X_1,\dots,X_n) 私にとってこれは意味します：特定のαα\alphaが与えられると、テストとリジェクション領域RαRαR_\alphaがあり、α=supθ∈Θ0(α)Pθ(T(Xn)∈Rα)α=supθ∈Θ0(α)Pθ(T(Xn)∈Rα)\alpha=\sup_{\theta\in\Theta_{0}(\alpha)}P_\theta(T(X^n)\in R_\alpha)。ppp値については、これらすべての\ alphaの最小値をとりαα\alphaます。質問1これが当てはまる場合、任意に小さい\ epsilonに対してα=ϵα=ϵ\alpha = \epsilonを明確に選択できます。定義2の誤った解釈とは何ですか。つまり、正確にはどういう意味ですかϵϵ\epsilon 現在、Wassermanは連続的であり、私がよく知っているppp値の「同等の」定義を持つ定理を述べています（引用します）。定理サイズがという形式で …

11 hypothesis-testing mathematical-statistics p-value

1

尤度比検定の「望ましい」統計的特性は何ですか？

その方法が完全に尤度比検定に基づいている記事を読んでいます。著者は、一方的な代替案に対するLRテストはUMPであると述べています。彼はそれを主張することによって進みます「... [LRテスト]が一律で最も強力であると示すことができない場合でも、LRテストは望ましい統計的特性を備えていることがよくあります。」ここでどのような統計的特性が意味されているのでしょうか。筆者がこれらを言及していることを考えると、それらは統計学者の間の共通の知識であると思います。私がこれまでに見つけるために管理している唯一の望ましい特性はの漸近カイ二乗分布である（いくつかの規則性の条件の下で）、λは LR比です。− 2 ログλ−2log⁡λ-2 \log \lambdaλλ\lambda 私は、それらの望ましい特性について読むことができる古典的なテキストへの参照にも感謝します。

11 hypothesis-testing power-analysis power likelihood-ratio neyman-pearson-lemma

2

家族ごとのエラー境界：独立した質問のさまざまな研究でデータセットを再利用すると、複数のテスト問題が発生しますか

研究者のチームが特定のデータセットに対して複数の（仮説）テストを実行する場合、テストが独立していても、複数のテスト（Bonferroniなど）に対して何らかの修正を使用する必要があると主張する大量の文献があります。私の質問はこれです：この同じロジックは、同じデータセットで仮説をテストする複数のチームに適用されますか？別の言い方をすると、家族ごとの誤差計算の障壁は何ですか？研究者は探査のためだけにデータセットを再利用することに制限されるべきですか？

11 hypothesis-testing multiple-comparisons

1

全体的なp値とペアワイズp値？

私は、一般的な線形モデル取り付けられたその対数尤度であるL U。y=β0+β1x1+β2x2+β3x3,y=β0+β1x1+β2x2+β3x3,y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,LuLuL_u ここで、係数が同じかどうかをテストしたいと思います。まず、全体的なテスト：縮小モデルの対数尤度であり、LがR。尤度比検定により、完全なモデルは、p = 0.02の縮小モデルよりもはるかに優れています。y=β0+β1⋅(x1+x2+x3)y=β0+β1⋅(x1+x2+x3)y=\beta_0+\beta_1\cdot(x_1+x_2+x_3)LrLrL_rp=0.02p=0.02p=0.02 次に、？縮小モデルは、Y = β 0 + β 1 ⋅ （X 1 + X 2）+ β 2 X 3。結果は、あるβ 1は変わらないβ 2とP = 0.15。β1=β2β1=β2\beta_1=\beta_2y=β0+β1⋅(x1+x2)+β2x3y=β0+β1⋅(x1+x2)+β2x3y=\beta_0+\beta_1\cdot(x_1+x_2)+\beta_2x_3β1β1\beta_1β2β2\beta_2p=0.15p=0.15p=0.15 同様に、？それらはp = 0.007で異なります。β1=β3β1=β3\beta_1=\beta_3p=0.007p=0.007p=0.007 最後に、？これらは、p = 0.12の場合と同じです。β2=β3β2=β3\beta_2=\beta_3p=0.12p=0.12p=0.12 私は全体的に期待するので、これはかなり、私に混乱さより小さくなるように0.007明らかにするので、β 1 = β 2 = β 3がよりはるかに厳しい基準であるβ 1 = β 3（生成したp = 0.007）。ppp0.0070.0070.007β1=β2=β3β1=β2=β3\beta_1=\beta_2=\beta_3β1=β3β1=β3\beta_1=\beta_3p=0.007p=0.007p=0.007 それは私がすでに「午前いるので、あると確信し、」β 1 …

11 hypothesis-testing

1

カイ二乗検定はどのような特徴選択に使用できますか？

ここで私は、教師あり学習での結果選択に関する特徴選択にカイ二乗検定を使用するために他の人が一般的に何をするかについて尋ねています。私が正しく理解している場合、彼らは各機能と結果の間の独立性をテストし、各機能のテスト間のp値を比較しますか？ではhttp://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test、ピアソンのカイ2乗検定は、カテゴリデータのセットに適用される統計的検定であり、セット間に観測された差が偶然に生じた可能性を評価します。 ... 独立性のテストでは、分割表で表された2つの変数のペアの観測値が互いに独立しているかどうかを評価します（たとえば、国籍が異なる応答をポーリングして、国籍が応答に関連しているかどうかを確認します）。では、独立性がテストによってテストされる2つの変数は、カテゴリカルまたは離散（カテゴリカル以外の順序付けを許可）でなければならないが、連続ではないのでしょうか。 http://scikit-learn.org/stable/modules/feature_selection.html、彼らアイリスデータセットに対してテストを実行して、2つの最良の特徴のみを取得します。χ2χ2\chi^2 虹彩データセットは、すべての機能が大切数値と連続しており、そして結果は、クラスラベル（カテゴリ）です。カイ二乗独立性検定は、連続特徴にどのように適用されますか？データセットにカイ二乗独立検定を適用するには、最初にビニング（つまり、最初に特徴の連続ドメインをビンに離散化し、次に特徴をビン内の特徴の値の出現で置き換える）により、連続特徴を離散特徴に変換しますか？）？いくつかのビンでの発生は多項式の特徴（各ビンで発生するかしないかのどちらか）を形成するため、カイ2乗独立検定をそれらに適用できます。ところで、私はカイ二乗独立検定をあらゆる種類の機能と結果に適用できますか？結果の部分では、分類だけでなく、カイ二乗独立検定、連続結果をビニングすることにより、回帰の機能も選択できます。 scikit学習サイトにも書いてあります各非負の特徴とクラスの間のカイ2乗統計を計算します。このスコアが含まれている必要がありますXからテストカイ二乗統計値の最高値は、とn_features機能を選択するために使用することができる唯一の非負のようにブール値や周波数などの機能（文書分類では例えば、用語カウント）、に対するクラス。テストで非負の機能が必要なのはなぜですか？特徴に兆候はないが、カテゴリー的または離散的である場合、テストをそれらに適用できますか？（私のパート1を参照）特徴が否定的である場合、それらのドメインを常にビニングし、それらをその出現に置き換えることができます（虹彩データセットにテストを適用するために私が推測するのと同じように、パート2を参照）。注：Scikit Learnは一般的な原則に従っていると思います。それが私がここで求めていることです。そうでない場合は、それでも大丈夫です。

11 hypothesis-testing chi-squared feature-selection independence scikit-learn

3

「反転」シャピロ・ウィルク

ウィキペディアによれば、シャリポウィルク検定は、帰無仮説（）「母集団は正規分布である」を検定します。H0H0H_0 「人口は正規分布していない」を使用した同様の正規性検定を探しています。H0H0H_0 そのようなテストがある、有意水準 iffを棄却する値を計算したいと思います。私の人口が正規分布していることを証明します。H 0 α P < αpppH0H0H_0αα\alphap<αp<αp < \alpha してくださいノートSharipo・ウィルク検定を使用して受け入れていることを IFFある間違ったアプローチ、それは文字通り「我々はH0が保持していないことを証明する十分な証拠を持っている」を意味するから。 p > αH0H0H_0p>αp>αp > \alpha 関連スレッド- の意味 -値はppp、正常では役に立たないテストしていますか？、しかし私は私の問題の解決策を見ることができません。質問：どのテストを使用する必要がありますか？Rで実装されていますか？

11 hypothesis-testing goodness-of-fit normality-assumption equivalence

2

MANOVAの帰無仮説とは何ですか？

バックグラウンド（カテゴリー変数によって与えられる）異なるグループ間のいくつかの連続変数の違いを分析するために、一元配置分散分析を実行できます。複数の説明的（カテゴリカル）変数がある場合、階乗ANOVAを実行できます。複数の連続変数（つまり、複数の応答変数）のグループ間の差異を分析する場合は、多変量分散分析（MANOVA）を実行する必要があります。質問いくつかの応答変数に対してANOVAのようなテストを実行する方法をほとんど理解していません。さらに重要なことに、帰無仮説が何であるかを理解していません。帰無仮説です： "各応答変数について、すべてのグループの平均は等しい"、またはそれは "少なくとも1つの応答変数について、すべてのグループの平均は等しい"、またはは何かありますか？H0H0H_0

11 hypothesis-testing anova manova

3

タイプIおよびIIのエラーの確率は負の相関関係がありますか？

私がTAだった初等統計クラスで、教授は、タイプIエラーの確率が増加するにつれて、タイプIIエラー確率が減少し、その逆も真であると述べました。したがって、これはことを私に示唆してい。β ρ α 、β < 0αα\alphaββ\betaρα 、β< 0ρα,β<0\rho_{\alpha, \beta} < 0 しかし、一般的な仮説検定でこれをどのように証明しますか？声明は一般的にも真実ですか？特定のケース（たとえば、および）を試すこともできますが、明らかに、この質問を処理するには一般的ではありません。H 1：μ < μ 0H0：μ = μ0H0:μ=μ0H_0: \mu = \mu_0H1：μ < μ0H1:μ<μ0H_1: \mu < \mu_0

11 probability hypothesis-testing type-i-and-ii-errors

タグ付けされた質問 「hypothesis-testing」

タグ付けされた質問「hypothesis-testing」