タグ付けされた質問 「p-value」

頻度主義仮説検定では、 p-valueは、帰無仮説が真であるという仮定の下で、観測された結果よりも極端な(またはそれ以上の)結果の確率です。

2
p値と信頼区間の不一致
これはSPSSのt検定に関する質問です。 2つのグループがあり、2つの平均が等しいかどうかをテストしたいと思います。ブートストラップでt検定を使用しています。最終的に、p値<0.005が得られました。これにより、2つの母集団の平均は等しいという帰無仮説が却下されますが、私の場合、ゼロは1000サンプルに基づく95%BCaブートストラップ信頼区間内にあります。 。 平等な平均の仮説はまだ却下されますか?

3
仮説検定のType-IIエラーがエラーと見なされるのはなぜですか?
仮説検定の決定エラーについて読んでいます。私の質問は、「タイプIIエラー」がなぜエラーと見なされるのかということです。私が理解していることから、それは私たちが偽の帰無仮説を拒否することに失敗したときに発生します。帰無仮説を棄却できない場合、それは単にそれを棄却する強力な証拠がないことを意味します。2つの仮説のどちらが真(または偽)であるかについてはコメントしていません。どちらも真である可能性があります。帰無仮説が正しいと言っているのではありません。したがって、そのような結論がエラーと呼ばれるのはなぜですか?

2
タイプIのエラー率は、アルファまたは最大でアルファですか?
ウィキペディアのp値のページによると: p値が正しく計算されると、このテストにより、タイプIのエラー率が最大でことが保証されます。αα\alpha ただし、ページのさらに下には、この式が示されています。 Pr(RejectH|H)=Pr(p≤α|H)=αPr(RejectH|H)=Pr(p≤α|H)=α\Pr(\mathrm{Reject}\; H|H) = \Pr(p \leq \alpha|H) = \alpha 「タイプ1エラーレート」= Pr(RejectH|H)Pr(RejectH|H)\Pr(\mathrm{Reject}\; H|H)すると、タイプ1エラーレートはαα\alphaあり、「多くてもαα\alpha」ではないことがわかります。そうでない場合、式は次のようになります。 Pr(RejectH|H)≤αPr(RejectH|H)≤α\Pr(\mathrm{Reject}\; H|H) \leq \alpha 私の誤解はどこにありますか?

1
この質問を統計的に言い換える方法
ゲームのプレイヤーによるn回の試行からの観測を含むデータセットを分析しています。各プレーヤーの試行に関して1つ以上の記述子を指定して各試行の結果を予測する回帰モデルを構築している場合、データセットが与えられた特定の記述子が「意味のある」または「重要な」になる前にプレーヤーが何回試行する必要があるかを測定するにはどうすればよいですか? 良い例はダーツをする人々のグループでしょう。絶対的な初心者は目を閉じ、ダーツを投げ、雄牛の目を打つかもしれません。明らかに、それは純粋なチャンスであり、彼はこれまでにプレーしたことがなく、酔っ払っている可能性さえあることがわかっています。しかし、彼がさらに5本の投げ矢を投げ、その中からさらに3回ブルズアイに当たったとしましょう。彼は6本の投げ矢を投げて、50%の確率でブルズアイに当たりました。今、物事は疑わしくなっています... この真の初心者はどの時点で十分なブルズアイダーツを投げますか、そして彼が他のより経験豊富なプレーヤーよりも真面目な才能を持っていると言えるまでに何回の試行が必要ですか?統計でこの用語は何ですか、それについてどこでもっと知ることができますか? 免責事項:「有意性」や「観察」などの読み込まれた統計用語をできるだけ使用しないようにしましたが、ここでは特定の場所で適切であると感じました。 誰かが私を正しい方向に向けることができれば、それは素晴らしいことです。ありがとう!!

4
なぜストファーの方法が機能するのですか?
かなり簡単な質問のように思えますが、実際に考えると、ストファーの方法は私には意味がありません。これが理由です: 両側仮説を仮定します。最初に、値からを計算します。それでは、かなり単純な例を見てみましょう。 2つの値を取ってみましょう。つまり、とはどちらもです。Stoufferの方法によれば、とは次のように結合されます。 P P 0.05 、Z 1 、Z 2 ≈ 1.96 Z 1 、Z 2z私ziz_ipppppp0.050.050.05z1z1z_1z2z2z_2≈ 1.96≈1.96\approx1.96z1z1z_1z2z2z_2 Z= ∑i = 1kZ私k−−√=1.96+1.962–√=2.77Z=∑i=1kZik=1.96+1.962=2.77 Z = \frac{\sum\limits_{i=1}^kZ_i}{\sqrt{k}} = \frac{1.96 + 1.96}{\sqrt{2}} = 2.77 このスコアは値に再度変換され、値はになりますが、各からの値は個別に約ます。p p 0.005 p z i 0.05zzzpppppp0.0050.0050.005pppziziz_i0.050.050.05 この意味で、Stoufferのテストは結果の値を各値とは異なる値に人工的に変更するように見えますが、私にとっては意味がありません。p z ippppppz私ziz_i 私はこのテストを誤解していますか、それともどのように/なぜそれが機能するのかを理解するのを手伝ってくれますか?

1
Rの異なるロバスト回帰の間の選択
私は不動産を評価するためのプログラムを書いており、いくつかの堅牢な回帰モデルの違いを本当に理解していません。そのため、どちらを選択するかわかりません。 私が試したlmrob、ltsRegとrlm。同じデータセットの場合、3つの方法すべてで係数の値が異なります。 私はそれが使用するのが最善であると考えltsReg、ためsummary(ltsReg())の情報を提供R-squaredしてp-values、これは私がモデルを受け入れるか却下するとどうかを判断するのに役立ちます。 それltsRegは良い選択だと思いますか? 編集:私はちょうど適合 R 統計を読んだところですが、調整されたR二乗は一般的に品質適合の最良の指標です

2
ウィルコクソンの順位和検定は、寄付の合計が異なるかどうかを確認する正しい検定ですか?
バックグラウンド: 私のソフトウェアは、ユーザーに任意の金額の寄付を求めています。ユーザーにテスト寄付のリクエストを分割して、尋ねる最良の方法を見つけました:50%がリクエストバージョン1を取得し、50%がリクエストバージョン2を取得し、どちらがより良いかを確認します。 ほとんどすべてのユーザーが0ドルを寄付しますが、一部は寄付します。結果は次のようになります。 Number of users Number of donations Dollar amounts donated GROUP A 10,000 10 40,20,20,20,15,10,10,5,5,5 GROUP B 10,000 15 50,20,10,10,10,10,10,10,5,5,5,5,5,5,5 1つのグループが勝者であるか、それとも同点であるか、または確実にするためにより大きなサンプルが必要かどうかを知りたい。(この例は、議論を簡単にするために残されていますが、重要な結果を得るためには、ほぼ確実に大きなサンプルが必要です。) 私がすでに測定しているもの: 1つのグループで寄付の数が大幅に増えましたか?どれくらい大きい? 私はこのp値と信頼区間をABBA Thumbtackツールを使用して測定し、寄付の数とユーザーの数のみを使用して、金額は無視しています。その方法論については、「基礎となる統計とは」に説明されています。そのリンクのセクション。(それは私の頭の上にありますが、寄付率の差をアグレスティクーリ間隔の通常の確率変数としてとることによって信頼区間を計算すると思います。) 1つのグループが寄付した金額は大きく異なりますか? 順列テストを実行してこのp値を測定します。すべての2N被験者を2つのN被験者グループに繰り返しシャッフルし、グループ間の合計金額の差を毎回測定し、差が> =観察されたシャッフルの割合を見つけます。差。(これは、ドルの代わりにクラッカーに対して同じことを行うこのカーンアカデミーのビデオに基づいて有効だと思います。) Rのwilcox.test: wilcox.test()R についてのいくつかの質問: wilcox.test(paired=FALSE)上記のデータの表を入力した場合、上記のツールでまだ回答されていない新しい質問に答えて、テストの実行を継続するか、勝者を宣言するか、ネクタイを宣言するかを判断するためのより多くの洞察を与えますか? もしそうなら、それはどんな正確な質問に答えますか?

2
t検定のp値を手動で計算する:
p値を計算するこれらの2つの方法は同等である必要があります。 t.test(rats.drug,mu=1.2)$p.value 2*pt((mean(rats.drug)-1.2)*sqrt(n)/sd(rats.drug),df=n-1) 2番目の方法の問題は、より大きい値(実際には)を取得するリスクがあることです。2111222 2*pt((1.5-1.2)*sqrt(100)/.5,df=100-1) [1] 2 これはもちろん修正できます 2*pt((1.5-1.2)*sqrt(100)/.5,df=100-1,lower=F) [1] 3.245916e-08 私の質問 明らかに、t検定関数のアルゴリズムは、これらの2つのケースを区別するのに十分にインテリジェントです(サンプルの平均が与えられた平均より大きいか小さいか)。t検定関数によって行われる、p値の計算を手動で複製する簡単な方法はありますか? 現在の私の解決策は、結果の値がより大きいかどうかをチェックするifステートメントであり、この場合、lower = Fオプションを使用して同じ計算を再度実行しますが、おそらくより良い方法があります。111
8 r  t-test  p-value 

2
p値も偽の発見率ですか?
でhttp://surveyanalysis.org/wiki/Multiple_Comparisons_(Post_Hoc_Testing)それは述べて たとえば、p値が0.05であり、それが有意であると結論付けた場合、誤った発見の確率は、定義により、0.05です。 私の質問:私は常に、誤った発見はタイプIのエラーであると常に考えていました。これは、ほとんどのテストで選択された有意水準と同じです。P値は、サンプルから計算された値です。確かに、ウィキペディアは述べています p値は、ネイマンピアソンアプローチの有意水準またはタイプIエラー率[誤検知率] と混同しないでください。 "αα\alpha では、なぜリンクされた記事はタイプIのエラー率がp値によって与えられると主張しているのですか?

1
順列ベースのp値に必要な順列の数
有意水準順列ベースの値を計算する必要がある場合pppαα\alpha、いくつの順列が必要ですか? 5ページの記事「分類子のパフォーマンスを研究するための順列テスト」から: 実際には、上限は通常、テストの望ましい精度を達成するために必要なサンプル数を決定するために使用されます。1/(2k−−√)1/(2k)1/(2\sqrt{k}) ...ここで、は順列の数です。kkk この式から必要な順列の数を計算するにはどうすればよいですか?

2
ボンフェローニ修正は、いくつかの依存する仮説に対しては保守的すぎませんか?
ボンフェローニ修正は従属仮説にも有効であることをよく読みます。しかし、私はそれが真実だとは思わず、反例があります。誰かが私に(a)私の間違いがどこにあるか、または(b)私がこれについて正しいかどうかを教えてもらえますか? カウンターサンプルの設定 2つの仮説をテストするとします。LET最初の仮説が偽とであるそうでありません。同様に定義します。ましょう二つの仮説に関連したp値であるとしましょう表す括弧の中指定されたセットの指標関数。H1=0H1=0H_{1}=0H1=1H1=1H_{1}=1H2H2H_{2}p1,p2p1,p2p_{1},p_{2}[[⋅]][[⋅]][\![\cdot]\!] 固定されたように定義します これは明らかに確率密度ですオーバー。これは2つの密度のプロットですθ∈[0,1]θ∈[0,1]\theta\in [0,1]P(p1,p2|H1=0,H2=0)P(p1,p2|H1=0,H2=1)===12θ[[0≤p1≤θ]]+12θ[[0≤p2≤θ]]P(p1,p2|H1=1,H2=0)1(1−θ)2[[θ≤p1≤1]]⋅[[θ≤p2≤1]]P(p1,p2|H1=0,H2=0)=12θ[[0≤p1≤θ]]+12θ[[0≤p2≤θ]]P(p1,p2|H1=0,H2=1)=P(p1,p2|H1=1,H2=0)=1(1−θ)2[[θ≤p1≤1]]⋅[[θ≤p2≤1]]\begin{eqnarray*} P\left(p_{1},p_{2}|H_{1}=0,H_{2}=0\right) & = & \frac{1}{2\theta}[\![0\le p_{1}\le\theta]\!]+\frac{1}{2\theta}[\![0\le p_{2}\le\theta]\!]\\ P\left(p_{1},p_{2}|H_{1}=0,H_{2}=1\right) & = & P\left(p_{1},p_{2}|H_{1}=1,H_{2}=0\right)\\ & = & \frac{1}{\left(1-\theta\right)^{2}}[\![\theta\le p_{1}\le1]\!]\cdot[\![\theta\le p_{2}\le1]\!] \end{eqnarray*}[0,1]2[0,1]2[0,1]^{2} により、 と同様に。P(p1|H1=0,H2=0)P(p1|H1=0,H2=1)==12θ[[0≤p1≤θ]]+121(1−θ)[[θ≤p1≤1]]P(p1|H1=0,H2=0)=12θ[[0≤p1≤θ]]+12P(p1|H1=0,H2=1)=1(1−θ)[[θ≤p1≤1]]\begin{eqnarray*} P\left(p_{1}|H_{1}=0,H_{2}=0\right) & = & \frac{1}{2\theta}[\![0\le p_{1}\le\theta]\!]+\frac{1}{2}\\ P\left(p_{1}|H_{1}=0,H_{2}=1\right) & = & \frac{1}{\left(1-\theta\right)}[\![\theta\le p_{1}\le1]\!] \end{eqnarray*}p2p2p_{2} さらに、 これは、 P(H2=0|H1=0)P(H2=1|H1=0)==P(H1=0|H2=0)=2θ1+θP(H1=1|H2=0)=1−θ1+θ.P(H2=0|H1=0)=P(H1=0|H2=0)=2θ1+θP(H2=1|H1=0)=P(H1=1|H2=0)=1−θ1+θ.\begin{eqnarray*} P\left(H_{2}=0|H_{1}=0\right) & = & P\left(H_{1}=0|H_{2}=0\right)=\frac{2\theta}{1+\theta}\\ P\left(H_{2}=1|H_{1}=0\right) & …

2
同じデータに適用された異なる統計的検定からのp値を組み合わせる
質問のタイトルは取るに足らないように見えますが、同様のデータセットで同じ統計的検定を適用して、完全帰無仮説(メタ分析)に対して検定するという問題とは異なるという意味では、それほど簡単ではないことを説明したいと思います。たとえば、p値を組み合わせるためにフィッシャーの方法を使用します)。私が探しているのは、2つの異なる統計検定(t検定とu検定など)のp値を組み合わせる方法(存在する場合、および質問が統計的に有効である場合)です。 2つの母集団からの2つのサンプリングの中心を比較するために適用されます。これまでのところ、明確な答えがなくても、ウェブで多くの検索を行ってきました。私が見つけた最良の答えは、David Bickel(http://arxiv.org/pdf/1111.6174.pdf)によるゲーム理論の概念に基づいていました。 非常に単純な解決策は、投票方式です。観測の2つのベクトルとあり、いくつかのtのような統計(t検定、 u-test、one-way ANOVA)は、2つの過酷な分布の中心(平均、中央値など)が有意水準0.05で等しくないという仮説に対して等しいという仮説を検定します。5つのテストを実行するとします。5つのテストのうち3つでp値が0.05未満の場合、null分布を拒否する十分な証拠があると言うのは正当でしょうか?B = [ B 1、B 2、。。。、b n ]A=[a1,a2,...,an]A=[a1,a2,...,an]A=[a_1, a_2, ..., a_n]B=[b1,b2,...,bn]B=[b1,b2,...,bn]B=[b_1, b_2, ..., b_n] 別の解決策は、全確率の法則を使用することでしょうか、これは完全に間違っていますか?たとえば、がnull分布が拒否されるイベントであるとします。次に、3つのテスト、、(つまり、、可能な値はなります、ここでは、null分布がテストし。T 1 T 2 T 3 P (T 1)= P (T 2)= P (T 3)= 1 / 3 P (A )P (A )= P (A | T 1)P (T 1)+ P …

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

4
距離としてのp値?
複数のペアワイズテスト間のp値を類似性/距離の測定と見なすことができ、多次元スケーリングをp値のペアワイズマトリックスに適用して次元を削減できますか?これはソフトな質問ですが、ここで最大の問題は何でしょうか、それをどのようにして克服するのが最善でしょうか?(例:三角不等式?)

1
ペアのブートストラップでp値を計算する
私は、バークレーNLPグループからの統計的テストに関する新しい論文「NLP における統計的有意性の実証的調査」に出くわしました。 論文にはp値を計算するための疑似コードがあり、基本的には、のサンプルセットは、データからの置換でサンプリングされます。その後 xバツ1、x2、。。。、xNバツ1、バツ2、。。。、バツNx_1,x_2,...,x_Nバツバツx p値= カウント(δ(x私)&gt; 2 δ(x))/Np-value=count(δ(xi)&gt;2δ(x))/N\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N、ここではメトリックゲインです。δ(xi)δ(xi)\delta(x_i) ケーンの論文「機械翻訳評価のための統計的有意性検定」のp値を計算する式を理解できました。 p-value=count(δa(xi)&lt;δb(xi))/Np-value=count(δa(xi)&lt;δb(xi))/N\text{p-value} = \text{count}(\delta_a(x_i) < \delta_b(x_i))/N、ここでとはそれぞれシステムとシステムメトリックゲインです。δをbは Bδaδa\delta_aδbδb\delta_baaabbb 式のための任意の説明または参照ある。著者は、の平均があり、が対称である場合、上記の両方の式は同等であることにも言及しました。δ (X I)δ (X )δ (X Ip値= カウント(δ(x私)&gt; 2δ(x ))/ Np-value=カウント(δ(バツ私)&gt;2δ(バツ))/N\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/Nδ(x私)δ(バツ私)\delta(x_i)δ(x )δ(バツ)\delta(x)δ(x私)δ(バツ私)\delta(x_i)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.