タグ付けされた質問 「statistical-significance」

統計的有意性とは、このサンプルが引き出された母集団において、真の効果が0(またはいくつかの仮説値)であった場合、サンプルで得られたものよりも極端または極端なテスト統計が発生した確率を指します。

2
大きなデータセットの有意水準を選択する方法は?
Nが約200,000のデータセットを使用しています。回帰では、r = 0.028などの非常に小さな効果サイズに関連する非常に小さな有意値<< 0.001が見られます。私が知りたいのは、サンプルサイズに関連して適切な有意性閾値を決定する原則的な方法がありますか?このような大きなサンプルを使用してエフェクトサイズを解釈する際に、他に重要な考慮事項はありますか?

1
2つのカウント間の差の有意性
時間1での交通事故の件数と時間2での件数との差が大幅に異なるかどうかを判断する方法はありますか? 異なる時点での観測グループ間の差を決定する方法(ポアソン平均の比較など)を見つけましたが、2つのカウントのみを比較する方法は見つけませんでした。それとも試してみても無効ですか?アドバイスや指示をいただければ幸いです。私は自分自身をフォローアップすることを嬉しく思います。

5
線形回帰に既知の理論線と統計的に有意な差があるかどうかを計算するにはどうすればよいですか?
ほぼ直線に沿ったデータがいくつかあります。 これらの値の線形回帰を行うと、線形方程式が得られます。 y=0.997x−0.0136y=0.997x−0.0136y = 0.997x-0.0136 理想的な世界では、方程式はなければなりません。y=xy=xy = x 明らかに、私の線形値は理想に近いが、正確ではありません。私の質問は、この結果が統計的に有意であるかどうかをどのように判断できますか? 0.997の値は1と大きく異なりますか?-0.01 は0と大きく異なりますか?または、それらは統計的に同じであり、私はいくつかの合理的な信頼レベルでと結論付けることができますか?y=xy=xy=x 使用できる良い統計的検定とは何ですか? ありがとう

2
堅牢な統計検定とは何ですか?強力な統計検定とは何ですか?
堅牢な統計テストとそうでない統計テストがあります。堅牢性とはどういう意味ですか?驚いたことに、私はこのサイトでそのような質問を見つけることができませんでした。 さらに、テストの堅牢性と強力性が一緒に議論されることもあります。直感的には、2つの概念を区別できませんでした。強力なテストとは何ですか?堅牢な統計的検定とはどう違いますか?

4
審査員選考のバイアス?
友人は、ju審員の選択が人種的に偏っているように見える刑事裁判の後、控訴でクライアントを代表しています。 ju審員プールは、4人種グループの30人で構成されていました。検察は、これらの人々のうち10人をプールから排除するために、強引な挑戦を使用しました。各人種グループの人数と実際の課題の数は、それぞれ次のとおりです。 A: 10, 1 B: 10, 4 C: 6, 4 D: 4, 1 total: 30 in pool, 10 challenges 被告は人種グループCからであり、被害者は人種グループAおよびDからでした。したがって、先験的な懸念は、グループCが過負荷で、グループAおよびDが過負荷であるかどうかです。法的には(IIUC; IANAL)、弁護側は人種的偏見を証明する必要はなく、単にデータが偏見を示しているように見えることを示すだけで、検察に各人種的問題を非人種的に説明する負担をかけるだけです。 次の分析はそのアプローチにおいて正しいですか?(計算は問題ないと思います。): nCr(30,10)= 30,045,015個の10個のプールメンバーの個別のセットがあります。これらの明確なセットのうち、433,377セットには(グループAとDの2つ以下のメンバーを合わせた)と(グループCの4つ以上のメンバー)の両方が含まれるとカウントします。 したがって、グループCよりもグループAとDを優先する見かけのバイアスの観測レベルに達する可能性(10のチャレンジのセットに含まれない優先手段)は、これらの比率、433/30045 = 1.44%になります。 したがって、帰無仮説(そのようなバイアスはありません)は5%の有意水準で拒否されます。 この分析が方法論的に正しい場合、学術的/専門的な参考文献(ウィキペディアではない)を含めて、裁判所に説明する最も簡潔な方法は何でしょうか?議論は単純に思えますが、どうしてそれが正しいのであって、シェナンガンではないことを法廷に最も明確かつ簡潔に証明できるでしょうか? 更新:この質問は、控訴ブリーフの第三の議論として検討中だった。ここでの議論の技術的な複雑さ(弁護士の観点から)と法的な先例の明らかな欠如を考えると、弁護士はそれを提起しないことを選択したので、この時点で問題はほとんど理論的/教育的です。 1つの詳細に答えるには、課題の数である10は事前に設定されていると思います。 思慮深く、やりがいのある答えとコメント(ありがとう、すべて!)を研究した後、ここには4つの別個の問題があるようです。少なくとも、私にとっては、それらを個別に検討すること(または分離できない理由についての議論を聞くこと)が最も役立ちます。 1)ジュリープールの課題における、被告人と被害者の両方の人種の考慮は、法的な懸念であるか?上訴の議論の目的は、合理的な懸念を提起することだけであり、これにより、検察が個々の異議申し立ての理由を述べるという司法命令につながる可能性がある。これは私には統計的な問題ではなく、社会的/法的問題であるように思われます。これは弁護士の裁量によるものです。 2)(1)を仮定して、対立仮説(定​​性的には、被告の人種を共有するju審員に対するバイアス、犠牲者の人種を共有する人を支持する)の選択はもっともらしいか、それは容認できない事後ですか?私の平凡な観点から、これは最も困惑する質問です-はい、もちろん、それを観察しなければ、それを提起しません!私が理解しているように、問題は選択バイアスです:テストでは、このju審員プールだけでなく、そのようなすべてのall審員プールの宇宙を考慮する必要があります。これには、防衛が矛盾を観察せず、したがって問題を提起しようとしないすべてのもの。これにどのように対処しますか?(たとえば、Andyのテストはどのようにこれに対処しますか?)これについては間違っているかもしれませんが、ほとんどの回答者は潜在的に事後的に悩まされていないようです被告のグループのみに対するバイアスの片側検定。(1)を仮定して、被害者グループのバイアスを同時にテストすることは、方法論的にどのように異なりますか? 3)(2)で述べた定性的対立仮説の選択を規定する場合、それをテストするための適切な統計量は何ですか?私が提案する比率は、より単純な「Cに対するバイアス」代替仮説に対するAndyの検定の控えめな類似であるように見えるため、ここで私は応答に最も困惑しています(私の検定もすべてのケースをさらにカウントするため、より保守的です)正確に観察されたカウントだけでなく、テールでも) 両方のテストは、同じ分母(サンプルの同じ宇宙)を持ち、分子がそれぞれの対立仮説に対応するサンプルの頻度に正確に対応する単純なカウントテストです。だから@whuber、なぜアンディのように「規定のヌル[同じ]および代替[記述]仮説に基づいて、Neyman-Pearsonの補題を使用して正当化できる」という私のカウントテストと同じではないのですか? 4)(2)と(3)を規定する場合、懐疑的な控訴裁判所を納得させる判例法の参照はありますか?証拠から現在まで、おそらくそうではありません。また、このアピールの段階では、「専門家証人」の機会はないので、参照がすべてです。

3
p = 5.0%は有意ですか?
今日、p値0.05(正確に)が有意である(アルファ= 5%である)と見なされるかどうかを尋ねられました。私は答えを知りませんでしたが、Googleは両方の答えを出しました。(a)pが5%未満の場合、結果は重要です。(b)pが5%未満または5%の場合、結果は有意です。 もちろん、これらのウェブサイトは誰も引用していません。なぜそうすべきなのか-それは常識であり、5%はとにかくarbitrary意的です。しかし、それは生徒に覚えておくべきことを伝えるのに役立ちません。 それで、ここに仮説のテストに関する私の必死の質問があります:p値が正確にアルファである場合-結果を有意とみなすかどうか?この場合の正式な引用とは何ですか? どうもありがとうございました

4
RのARIMA残差のLjung-Box統計:混乱したテスト結果
予測しようとしている時系列があり、そのために季節のARIMA(0,0,0)(0,1,0)[12]モデル(= fit2)を使用しました。Rがauto.arimaで提案したものとは異なります(Rで計算されたARIMA(0,1,1)(0,1,0)[12]の方がより適切であるため、fit1と名付けました)。ただし、時系列の最後の12か月では、モデル(fit2)を調整するとよりよくフィットするようです(慢性的に偏っていたため、残差平均を追加し、新しいフィットは元の時系列の周囲によりぴったりと収まるようです)過去12か月の例と、両方の近似の最近12か月のMAPEは次のとおりです。 時系列は次のようになります。 ここまでは順調ですね。私は両方のモデルの残差分析を実行しましたが、これが混乱です。 acf(resid(fit1))は素晴らしく、非常にホワイトノイズが多い: ただし、Ljung-Boxテストは、たとえば20のラグに対しては見栄えがよくありません。 Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1) 次の結果が得られます。 X-squared = 26.8511, df = 19, p-value = 0.1082 私の理解では、これは残差が独立していないことの確認です(p値が大きすぎて独立仮説を維持できない)。 ただし、ラグ1では、すべてが素晴らしいです。 Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1) 私に結果を与えます: X-squared = 0.3512, df = 0, p-value < 2.2e-16 テストを理解していないか、またはacfプロットで見たものとわずかに矛盾しています。自己相関は非常に低いです。 次に、fit2をチェックしました。自己相関関数は次のようになります。 いくつかの最初のラグでのこのような明らかな自己相関にもかかわらず、Ljung-Boxテストでは、fit1よりも20ラグではるかに良い結果が得られました。 Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0) 結果: X-squared = 147.4062, df = 20, p-value < 2.2e-16 一方、lag1で自己相関をチェックするだけで、帰無仮説の確認もできます。 Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0) X-squared = 30.8958, df …

3
2つの勾配値の有意差をテストする
私が持っているデータは、2つの異なる地域の特定の種について、y〜timeの回帰勾配値、標準誤差、n値、およびp値です。あるエリアの回帰スロープが他のエリアの回帰スロープと有意に異なるかどうかを確認したいのですが、これはそのようなデータで可能ですか?誰も私がこれについてどうすればいいか提案がありますか?残念ながら、生データにアクセスできません... これはとても簡単な質問です!

2
統計的に有意なピークの確認
データセットとxがあります。次の仮説をテストしたいと思いますピークがあります。つまり、が増加すると、最初に増加してから減少します。yyyxxxx yyyyxxxyyy 私の最初のアイデアは、とをSLR に収めることでした。つまり、前の係数が有意に正であり、前の係数が有意に負であることがわかった場合、仮説を支持します。ただし、これは1つのタイプの関係(2次)のみをチェックし、必ずしもピークの存在をキャプチャするとは限りません。x 2 x x 2xxxx2x2x^2xxxx2x2x^2 その後、私は発見考え、このような領域(の値ソート)、その間にあると、の二つの他の領域のような多くの点として少なくとも含むB、及びその ¯ Y B > ¯ Y Aそして¯ Y B > ¯ Y C大幅。仮説が当てはまる場合、そのような領域bの多くを期待する必要があります。したがって、bの数が十分に大きい場合、仮説を支持する必要があります。x b a c xbbbxxxbbbaaacccxxxbbbyb¯>ya¯yb¯>ya¯\bar{y_b}>\bar{y_a}yb¯>yc¯yb¯>yc¯\bar{y_b}>\bar{y_c}bbbbbb 私の仮説に適したテストを見つけるために私は正しい道を進んでいると思いますか?または、私は車輪を発明しており、この問題に対して確立された方法がありますか?ご意見をお待ちしております。 更新。私の従属変数はcount(非負の整数)です。yyy

3
なぜこの抜粋は、標準偏差の公平な推定は通常関係がないと言っているのですか?
私は標準偏差の偏りのない推定の計算について読んでいたと私が読んだソース (...)いくつかの重要な状況を除き、タスクは、有意性検定や信頼区間の使用などの標準手順、またはベイズ分析を使用することで必要性が回避されるため、統計の適用とはほとんど関係がありません。 たとえば、信頼区間で計算の一部として標準偏差を使用していないのではないかと、このステートメントの背後にある理由を解明できる人がいるかどうか疑問に思っていました。したがって、信頼区間はバイアス標準偏差の影響を受けませんか? 編集: これまでの回答に感謝しますが、それらの理由のいくつかに従っているのかどうか確信が持てないので、非常に簡単な例を追加します。ポイントは、ソースが正しい場合、私の結論から例に何か間違っているということです。p値が標準偏差にどのように依存しないかを誰かに指摘してもらいたいです。 研究者が、自分の都市でのテストの5年生の平均スコアが、76の全国平均と有意水準0.05で異なるかどうかをテストしたいとします。研究者は20人の学生のスコアをランダムにサンプリングしました。サンプルの平均は80.85で、サンプルの標準偏差は8.87でした。つまり、t =(80.85-76)/(8.87 / sqrt(20))= 2.44。次に、tテーブルを使用して、19 dfでの2.44の両側確率値が0.025であることを計算します。これは有意水準0.05を下回っているため、帰無仮説を棄却します。 したがって、この例では、サンプルの標準偏差をどのように推定したかに応じて、p値(およびおそらくあなたの結論)は変化しませんか?

2
または場合、帰無仮説を棄却しますか?
これは明らかに単なる定義または慣例の問題であり、実際的な重要性はほとんどありません。が従来の値0.05に設定されている場合、値0.0500000000000 ...は統計的に有意であると見なされますか?統計的有意性を定義する規則は、通常またはと見なされますか?P 、P &lt; α のp ≤ ααα\alphapppp&lt;αp&lt;αp < \alphap≤αp≤αp \leq \alpha

3
フィッシャーはこの引用で何を意味しますか?
私はこの有名な引用を随所に見ていますが、強調された部分を毎回理解するのに失敗しています。 習慣が慣例であるため、有意性が1%以上の場合、仮説を暫定的に「拒否」する人は、そのような決定の1%未満と間違います。仮説が正しいとき、彼はこれらのケースのわずか1%で間違えられ、それが間違っているとき、彼は拒絶で決して間違われません。[...]しかし、計算はとてつもなくアカデミックです。実際、科学者は毎年一定の重要性レベルを持たず、あらゆる状況で仮説を拒否します。彼はむしろ、彼の証拠と彼の考えに照らして、それぞれの特定の事件に心を向けています。テストを適用するために選択されたケースが明らかに高度に選択されたセットであり、選択条件が単一のワーカーであっても指定できないことを忘れてはなりません。また、使用された議論では、特定の試験で示された実際の重要性のレベルを、まるで彼の生涯の習慣であるかのように選択することは明らかに違法であるとは言えません。 (統計手法と科学的推論、1956、p。42-45) 具体的には、わかりません テストを適用するためにケースが「高度に選択」されているのはなぜですか?エリア内の人々の平均身長が165cm未満かどうか疑問に思って、テストを実施することにします。私が知る限り、標準的な手順は、領域からランダムなサンプルを取り出し、その高さを測定することです。これはどのように高度に選択できますか? ケースが高度に選択されていると仮定しますが、これは有意水準の選択にどのように関連していますか?もう一度上記の例を考えてみましょう。サンプリング方法(フィッシャーが選択の条件と呼んでいるものと思われるもの)が歪んでおり、背の高い人を何らかの形で好む場合、研究全体が台無しになり、有意水準の主観的な決定はそれを保存できません。 実際、「特定の試験で示された実際の有意水準」が何を指しているのかさえ、私には分かりません。それはその実験のppp値、有名な0.05のような(in)有名な値、または何か他のものですか?


1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training &lt;- twoClassSim(50, linearVars = 2) set.seed(849) testing &lt;- twoClassSim(500, linearVars = 2) trainX &lt;- training[, -ncol(training)] testX &lt;- testing[, -ncol(testing)] trainY &lt;- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

4
精度の向上が重要かどうかを確認する
物事を2つのカテゴリに分類するアルゴリズムがあるとします。たとえば、1000個のテスト項目でアルゴリズムの精度を測定できます。80%が正しく分類されていると仮定します。 どうにかしてアルゴリズムを変更して、物事の81%が正しく分類されると仮定しましょう。 統計は、アルゴリズムの改善が統計的に有意であるかどうかを教えてくれますか?この状況で統計的有意性の概念は関連していますか?関連する可能性のあるリソースの方向を教えてください。 どうもありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.