タグ付けされた質問 「p-value」

頻度主義仮説検定では、 p-valueは、帰無仮説が真であるという仮定の下で、観測された結果よりも極端な(またはそれ以上の)結果の確率です。

3
ベイズ係数とp値に使用されるカットオフがなぜそれほど異なるのですか?
ベイズファクター(BF)を理解しようとしています。2つの仮説の尤度比のようなものだと思います。したがって、BFが5の場合、これはH1がH0の5倍可能性が高いことを意味します。また、3〜10の値は中程度の証拠を示し、10を超える値は強い証拠を示します。 ただし、P値の場合、伝統的に0.05がカットオフとして使用されます。このP値では、H1 / H0の尤度比は約95/5または19になります。 それでは、BFに対して3を超えるカットオフが採用され、P値に対して19を超えるカットオフが採用されるのはなぜですか?これらの値もどこにも近くありません。

5
(分類で行うように)0.5レベルではなく0.05レベルで帰無仮説を棄却する理由
仮説検定は分類問題に似ています。したがって、観察(サブジェクト)には2つの可能なラベルがある-ギルティ対非ギルティ。Non-Guiltyを帰無仮説とします。問題を分類の観点から見た場合、データが与えられると、2つのクラスのそれぞれに属する主題の確率を予測する分類子をトレーニングします。次に、確率が最も高いクラスを選択します。その場合、0.5の確率が自然なしきい値になります。誤検知エラーと誤検知エラーに異なるコストを割り当てた場合、しきい値を変更する可能性があります。ただし、しきい値を0.05に設定するほど極端になることはほとんどありません。つまり、確率が0.95以上の場合にのみ、サブジェクトをクラス「ギルティ」に割り当てます。でもよくわかったら これは、仮説検定の問題と同じ問題を見るときに標準的な方法として行っていることです。後者の場合、「非ギルティ」である確率が5%未満の場合にのみ、「非ギルティ」というラベルは割り当てません。そして、もし私たちが無実の人々に有罪判決を下すことを本当に避けたいのであれば、これはおそらく理にかなっているでしょう。しかし、なぜこのルールがすべてのドメインとすべてのケースで適用されるのでしょうか? どの仮説を採用するかを決定することは、データを与えられた真実の推定者を定義することと同じです。最尤推定では、データが与えられる可能性が高いという仮説を受け入れます。ただし、圧倒的に可能性が高いとは限りません。以下のグラフをご覧ください。 最尤法を使用すると、この例では予測子の値が3を超える場合(4など)、対立仮説が優先されますが、この値が帰無仮説から導出される確率は0.05よりも大きくなります。 そして、私が投稿を始めた例はおそらく感情的に訴えられますが、技術的な改善など、他のケースを考えることができます。新しいソリューションが改善である確率が改善ではない確率よりも高いことがデータから示されたときに、なぜステータスクオにそのような利点を与える必要があるのですか?

2
p値の2つの定義:それらの等価性をどのように証明するか?
私はLarry Wassermanの本、All of Statisticsを読んでいますが、現在はp値(187ページ)について読んでいます。最初にいくつかの定義を紹介しましょう(引用します): 定義1拒絶領域を有する試験のパワー関数によって定義される 試験のサイズがあると定義される テストのサイズが\ alpha以下の場合、テストはレベル\ alphaであると言います。RRRβ(θ)=Pθ(X∈R)β(θ)=Pθ(X∈R)\beta(\theta)=P_{\theta}(X\in R)α=supθ∈Θ0β(θ)α=supθ∈Θ0β(θ)\alpha = \sup_{\theta\in\Theta_0}\beta(\theta)αα\alphaαα\alpha これは基本的にαα\alphaであり、サイズはタイプIのエラーの「最大の」確率であることを示しますppp値は(I quote)によって定義されます 定義2すべてのα∈(0,1)α∈(0,1)\alpha\in(0,1)に対して、棄却領域R_ \ alphaを持つサイズαα\alphaテストがあると仮定します。次に、 p \ text {-value} = \ inf \ {\ alpha:T(X ^ n)\ in R_ \ alpha \} where X ^ n =(X_1、\ dots、X_n)です。RαRαR_\alphap-value=inf{α:T(Xn)∈Rα}p-value=inf{α:T(Xn)∈Rα}p\text{-value}=\inf\{\alpha:T(X^n)\in R_\alpha\}Xn=(X1,…,Xn)Xn=(X1,…,Xn)X^n=(X_1,\dots,X_n) 私にとってこれは意味します:特定のαα\alphaが与えられると、テストとリジェクション領域RαRαR_\alphaがあり、α=supθ∈Θ0(α)Pθ(T(Xn)∈Rα)α=supθ∈Θ0(α)Pθ(T(Xn)∈Rα)\alpha=\sup_{\theta\in\Theta_{0}(\alpha)}P_\theta(T(X^n)\in R_\alpha)。ppp値については、これらすべての\ alphaの最小値をとりαα\alphaます。 質問1これが当てはまる場合、任意に小さい\ epsilonに対してα=ϵα=ϵ\alpha = \epsilonを明確に選択できます。定義2の誤った解釈とは何ですか。つまり、正確にはどういう意味ですかϵϵ\epsilon 現在、Wassermanは連続的であり、私がよく知っているppp値の「同等の」定義を持つ定理を述べています(引用します)。 定理サイズがという形式で …

1
ノンパラメトリックブートストラップのp値と信頼区間
環境 これはこの質問にいくぶん似ていますが、完全に重複しているとは思いません。 ブートストラップ仮説検定の実行方法に関する指示を探すとき、通常、信頼区間には経験分布を使用しても問題はないが、p-値。例として、この質問に対する承認済みの回答をご覧ください。インターネットでの一般的な検索では、ほとんど同じような答えが見つかるようです。 経験分布に基づくp値を使用しない理由は、ほとんどの場合、変換不変性がないためです。 例 短い例を挙げましょう。コインがあり、片側テストを実行して、ヘッドの頻度が0.5より大きいかどうかを確認します 試行を実行し、頭を取得します。この検定の真のp値は、です。n = 20n=20n = 20k = 14k=14k = 14p = 0.058p=0.058p = 0.058 一方、20ヘッドのうち14ヘッドをブートストラップする場合、およびの二項分布から効果的にサンプリングします。0.2を差し引いてこの分布をシフトすると、得られた経験的分布に対して0.7の観測値をテストすると、かろうじて有意な結果が得られます。n = 20n=20n = 20p = 1420= 0.7p=1420=0.7p = \frac{14}{20}=0.7 この場合、差異は非常に小さくなりますが、テストした成功率が1に近づくと大きくなります。 質問 さて、私の質問の真のポイントに行きましょう。まったく同じ欠陥が信頼区間にも当てはまります。実際、信頼区間が指定された信頼水準持つ場合、帰無仮説のもとでパラメーターを含まない信頼区間は、有意水準で帰無仮説を棄却することと同等です。αα\alpha1 - α1−α1- \alpha 経験的分布に基づく信頼区間が広く受け入れられ、p値が受け入れられないのはなぜですか? より深い理由はありますか、それとも人々は信頼区間でそれほど保守的ではありませんか? この答えでピーター・ダルガードは私の議論に同意するように見える答えを出します。彼は言う: この推論の行については特に問題はなく、少なくともCIの計算ほど悪くはありません。 どこから来たのですか?その方法でp値を生成することは少し悪いことを意味しますが、要点については詳しく説明しません。 最終的な考え また、EfronとTibshiraniによるブートストラップの概要では、適切な帰無仮説分布の下で生成されない限り、p値ではなく、信頼区間に多くのスペースを費やしています。ただし、順列検定に関する章の信頼区間とp値。 リンクした最初の質問にも戻りましょう。Michael Chernickの答えには同意しますが、経験的ブートストラップ分布に基づく信頼区間とp値の両方は、いくつかのシナリオでは等しく信頼できないと彼は主張しています。間隔が適切であると多くの人が言う理由を説明していませんが、p値はそうではありません。

2
複数の帰属データセットで行われたテストでプールされたp値を取得するにはどうすればよいですか?
Rでアメリアを使用して、複数の帰属データセットを取得しました。その後、SPSSで繰り返し測定テストを行いました。ここで、テスト結果をプールします。Rubinのルール(Rの複数の代入パッケージを通じて実装)を使用して平均値と標準誤差をプールできることはわかっていますが、p値をプールするにはどうすればよいですか?出来ますか?Rにそうする関数はありますか?前もって感謝します。



2
p値の微妙さ:大きいか大きいか
Wassermannの本「All of Statistics」を読んでいると、p値の定義に微妙な違いがあることに気づきました。非公式には、Wassermannはp値を次のように定義します。 [..] 実際に観測されたものと同じかそれより極端な検定統計量の値を観測する確率(下)。H0H0H_0 強調が追加されました。同じことをより正式に(定理10.12): サイズテストが次の形式であるとします。αα\alpha リジェクト場合にのみT (X N)≥ C α。H0H0H_0T(Xn)≥cαT(Xn)≥cαT(X^n) \ge c_\alpha そして、 p-value=supθ∈Θ0Pθ0[T(Xn)≥T(xn)]p-value=supθ∈Θ0Pθ0[T(Xn)≥T(xn)]\text{$p$-value} = \sup_{\theta\in\Theta_0} P_{\theta_0}[T(X^n) \ge T (x^n)] ここで、はX nの観測値です。もしΘ 0 = { θ 0 }次に 、P -値 = P θ 0 [ T (X N)≥ T (X N)]xnxnx^nXnXnX^nΘ0={θ0}Θ0={θ0}\Theta_0=\{\theta_0\}p-value=Pθ0[T(Xn)≥T(xn)]p-value=Pθ0[T(Xn)≥T(xn)]\text{$p$-value} = P_{\theta_0}[T(X^n) \ge T (x^n)] さらに、ワッセルマンはピアソンのp値を定義として試験(及び同様に他のテスト)。χ2χ2\chi^2 p-value=P[χ2k−1>T].p-value=P[χk−12>T].\text{$p$-value} …

1
別のテストの結果に基づいて仮説テストを実行することに関する論文
p値を解釈するのが困難または不可能であるため、別の統計的検定の結果に基づいて統計的検定を選択することが問題になることはよく知られています(たとえば、別の結果(たとえば、正規性)に基づいて統計的検定を選択する) 。ただし、これは依然として多くのアプリケーションで標準的な方法であり、通常、適用された論文では気づかれず、議論もされていないようです。文献を調べたところ、この現象について実際に説明している論文は見つかりませんでした。 別の統計的検定の結果に基づいて統計的検定を選択することに関連する出版物、特に応用科学者がアクセスできる出版物へのリンクをいただければ幸いです。

3
Zスコアとp値の違いは何ですか?
ネットワークモチーフアルゴリズムでは、統計に対してp値とZスコアの両方を返すことはよくあるようです。「入力ネットワークにはサブグラフGのXコピーが含まれています」。サブグラフは、それが満たされる場合、モチーフと見なされます p値<A、 Zスコア> Bおよび X> C、一部のユーザー定義(またはコミュニティー定義)A、B、およびC。 これが質問の動機です。 質問:p値とZスコアの違いは何ですか? そしてサブ質問: 質問:同じ統計のp値とZスコアが反対の仮説を示唆する状況はありますか?上記の1番目と2番目の条件は基本的に同じですか?

2
コルモゴロフ–スミルノフ検定:サンプルサイズが大きくなると、p値とks検定の統計量は減少します
サンプルサイズの増加に伴い、p値とks検定の統計が減少するのはなぜですか?例としてこのPythonコードを見てみましょう: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n) print ks_2samp(x, y) 結果は次のとおりです。 Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508) Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247) Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662) Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896) Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855) Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19) 直観的に私は、nが大きくなるにつれて、2つの分布が異なることを「より確実」にテストすることを理解しています。しかし、サンプルサイズが非常に大きい場合、これなどの類似性テストのポイントは何であり、アンダーソンダーリングテストまたはt検定と言えます。このような場合、nが非常に大きい場合、分布は常に「大幅に」違う!?現在、p値のポイントは一体何なのかと思っています。これはサンプルサイズに大きく依存します... p> 0.05でそれを小さくしたい場合は、より多くのデータを取得します。そして、p <0.05でより高くしたい場合は、一部のデータを削除します。 また、2つの分布が同一である場合、ks-test統計は0で、p値は1になります。ただし、私の例では、nが増加するにつれて、ks-test統計は、分布が時間とともにますます類似する(減少する)ことを示唆しています。 、しかしp値に従って、それらは時間とともにより大きくなり、(また減少し)ます。

5
ノンパラメトリック検定(例:順列検定)で相互作用効果をテストする方法は?
私は2つのカテゴリ変数/名義変数を持っています。それぞれが2つの異なる値のみを取ることができます(したがって、合計で4つの組み合わせがあります)。 値の各組み合わせには、数値のセットが付属しています。だから、私は4セットの数字を持っています。より具体的にするために、私は名目変数として、および従属数値「出力」として持っているmale / femaleとyoung / oldしましょうweight。 からmaleへの移行femaleによって平均体重が変化し、これらの変化が統計的に有意であることを知っています。だから、gender因子を計算することができます。同じことがage変数にも当てはまります。からyoungへの移行oldによって平均重量が変わることは知っていますage。対応する係数を計算できます。 さて、若い女性から古い男性への移行が、性別と年齢の要因の組み合わせよりも多いことがデータで証明されているかどうか、私が本当に確認したいのは、つまり、「2Dの影響」があること、つまり年齢と性別の影響が独立していないことをデータが証明しているかどうかを知りたいのです。たとえば、男性の場合は年齢が上がると体重が1.3増加し、女性の場合は対応する係数が1.1になる可能性があります。 もちろん、私は2つの言及された要因(男性の年齢係数と女性の年齢係数)を計算でき、それらは異なります。しかし、私はこの違いの統計的有意性を計算したいと思います。この違いはどれほど本物ですか。 できれば、ノンパラメトリック検定をしたいのですが。4つのセットを混合し、シャッフルし、再分割して計算することで、やりたいことを実行できますか?

3
G検定とピアソンのカイ2乗検定
分割表で独立性をテストしています。G検定とピアソンのカイ2乗検定のどちらが良いかわかりません。サンプルサイズは数百ですが、いくつかの低い細胞数があります。ウィキペディアのページで述べたように、カイ二乗分布の近似は、ピアソンのカイ二乗検定よりもG検定の方が優れています。しかし、モンテカルロシミュレーションを使用してp値を計算しているので、これら2つのテストの間に違いはありますか?N× MN×MN \times M

3
glm in R-どのpvalueがモデル全体の適合度を表すか?
私はG(一般化線形モデル)でglmsを実行しています。私はpvalueを知っていると思いました-glmの要約を呼び出しても、モデル全体を表すオーバーライドpvalueが得られないことがわかるまでは、少なくとも線形モデルの場合はそうではありません。 これは、係数の表の一番上にある切片のp値として指定されているかどうか疑問に思っています。したがって、次の例では、Wind.speed..knotsとcanopy_densityはモデルにとって重要である可能性がありますが、モデル自体が重要であるかどうかをどのように知ることができますか?これらの値を信頼するかどうかはどうすればわかりますか?(切片)のPr(> | z |)がモデルの重要性を表していると思いますか?このモデルは重要な人々ですか??? ありがとう! 2項式族でF検定を実行することは不適切であるというエラーメッセージが表示されるため、F検定を実行してもp値は得られないことに注意してください。 Call: glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, family = binomial, data = CAIRNGORM) Deviance Residuals: Min 1Q Median 3Q Max -1.2327 -0.7167 -0.4302 -0.1855 2.3194 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.8226 1.2030 1.515 0.1298 Wind.speed..knots. -0.5791 0.2628 -2.203 0.0276 …

2
サンプル外予測を改善しない「重要な変数」-解釈方法は?
多くのユーザーにとって非常に基本的なことだと思います。 線形回帰モデルを使用して、(i)いくつかの説明変数と私の応答変数の関係を調査し、(ii)説明変数を使用して私の応答変数を予測します。 特定の説明変数Xが、私の応答変数に大きな影響を与えているようです。私の応答変数のサンプル外予測の目的でこの説明変数Xの追加値をテストするために、2つのモデルを使用しました:すべての説明変数を使用するモデル(a)とすべての変数を使用するモデル(b)変数Xを除きます。両方のモデルで、サンプル外のパフォーマンスのみを報告します。どちらのモデルもほぼ同じように良好に機能するようです。つまり、説明変数Xを追加しても、サンプル外の予測は改善されません。モデル(a)、つまりすべての説明変数を持つモデルも使用して、説明変数Xが応答変数に大きな影響を与えることを確認しました。 私の質問は今です:この発見をどう解釈するか?直接的な結論は、変数Xは推論モデルを使用して私の応答変数に大きな影響を与えるように見えても、サンプル外の予測を改善しないということです。しかし、私はこの発見をさらに説明するのに苦労しています。これはどのようにして可能であり、この発見の説明は何ですか? 前もって感謝します! 追加情報:「有意に影響する」とは、パラメーター推定の最高95%事後密度間隔に0が含まれないことを意味します(ベイズアプローチを使用したIM)。頻度論的には、これはおおよそ0.05未満のp値を持つことに相当します。私はすべてのモデルパラメーターに拡散(情報のない)事前分布のみを使用しています。私のデータは縦方向の構造を持ち、合計で約7000の観測が含まれています。サンプル外予測では、90%のデータを使用してモデルを適合させ、10%のデータを使用して複数の複製を使用するモデルを評価しました。つまり、トレーニングテストの分割を複数回実行し、最終的に平均パフォーマンスメトリックを報告しました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.