タグ付けされた質問 「statistical-significance」

統計的有意性とは、このサンプルが引き出された母集団において、真の効果が0(またはいくつかの仮説値)であった場合、サンプルで得られたものよりも極端または極端なテスト統計が発生した確率を指します。

3
データサイズが巨大な場合、回帰の統計的有意性はどうなりましたか?
私は、次のようにwhuberが興味深い点を指摘した大規模回帰(リンク)に関するこの質問を読んでいました。 「実行する統計テストのほとんどは非常に強力であるため、「重要な」効果を特定するのはほぼ確実です。重要度ではなく、効果の大きさなどの統計的重要性にもっと集中する必要があります。」 --- whuber これが証明できるものなのか、それとも実際の一般的な現象なのか疑問に思っていました。 証明/議論/シミュレーションへのポインタは本当に役立つでしょう。

7
結果を「ほぼ」または「ある程度」重要と呼ぶのは間違っていますか?
同様の質問に対する一般的なコンセンサス、結果を「非常に重要」と呼ぶのは間違っていますか?「非常に重要」は、事前に設定された重要度のしきい値をはるかに下回るp値を持つ関連付けの強度を記述するための有効な方法ですが、非特異的ではあります。ただし、しきい値をわずかに上回る p値の記述についてはどうでしょうか。私は、「ある程度重要」、「ほぼ重要」、「重要に近づく」などの用語を使用する論文を見てきました。私はこれらの用語が少し希望的でウォッシュなものであり、場合によっては否定的な結果の研究から意味のある結果を引き出す境界線の不誠実な方法だと思います。これらの用語は、p値のカットオフを「見逃す」結果を説明するのに受け入れられますか?

1
ANOVAのテストの
イントロ:この質問で、今日受け取っ注意を指摘した、「?ペアワイズt検定のいずれでもないとき缶ANOVAが重要である、」私は答えの独自のセットに値するだろう面白い方法でそれをリフレームすることができるかもしれないと思いました。 統計的有意性が単純な二分法として理解され、より高い基準に基づいて判断される場合、または場合、さまざまな不整合な結果(額面)が発生する可能性があります。上記の質問に対する @Glen_bの回答は、次の場合の有用な例を示しています。P αppα\alpha ANOVA F検定FFは、4つのレベルを持つ1つの独立変数(IV)に対してp F &lt; .05pF&lt;.05p_F<.05を生成しますが、 IVの4つのレベルの各ペアに対応する観測値間で、同じ従属変数(DV)の差を比較するpt&gt;.08p_t>.08すべての2サンプル ttt検定で p t &gt; .08。 この質問による事後のペアワイズ比較のボンフェローニ補正にもかかわらず、同様のケースが発生しました:Anovaの反復測定は重要ですが、ボンフェローニ補正とのすべての多重比較はそうではありませんか?重回帰のテストがわずかに異なる前述のケースも存在します。 有意なF統計量(p &lt;.001)であるが有意ではないリグレッサーt検定を取得できるのはなぜですか?:P F &lt; 0.001 、P β T &gt; 0.09pF&lt;.001,pβt&gt;.09p_F<.001,p_{\beta t}>.09 回帰はどのように有意であるが、すべての予測変数は有意ではないのでしょうか? @ whuberさんに答え、P F = 0.0003 、P β T &gt; 0.09pF=.0003,pβt&gt;.09p_F=.0003,p_{\beta t}>.09 私は賭けてこのような場合には、ことをいくつかの(すべてではない)ペアごとの比較(または回帰係数有意性検定)のppp値はかなり近いでなければならないαα\alpha対応オムニバステストが達成できるかどうかのp &lt; αをp&lt;αp <\alpha。私は、これがGlen_bの最初の例@における場合であり、参照F (3 、20 ) = 3.19F(3,20)=3.19F_{(3,20)}=3.19、P F = …

3
ブートストラップされた回帰スロープを比較するにはどうすればよいですか?
それぞれ独立変数xと従属変数yのデータペアのn個の観測値を持つ2つのデータセットがあるとします。さらに、観測値を(置換を使用して)N回ブートストラップし、回帰y = a + bxを計算することにより、各データセットの回帰勾配の分布を生成すると仮定します。毎回。勾配が大幅に異なると言うために、2つの分布を比較するにはどうすればよいですか?分布の中央値間の差をテストするためのUテストはNに大きく依存します。つまり、ブートストラップを繰り返す頻度が高いほど、差は大きくなります。有意差を決定するために、分布間のオーバーラップをどのように計算する必要がありますか?

2
統計的有意性検定を使用してクラスター分析結果を検証する
クラスター分析の結果を検証するために、統計的有意性検定(SST)の使用を調査しています。このトピックに関するいくつかの論文を見つけました。 「高次元、低サンプルサイズデータのクラスタリングの統計的重要性」、Liu、Yufeng et al。(2008) 「クラスター分析におけるいくつかの有意性検定について」、Bock(1985) しかし、クラスター分析の結果を検証するのにSSTは適切でないと主張する文献を見つけることに興味があります。私がこれを主張している唯一のソースは、ソフトウェアベンダーのウェブページです 明確にするために: クラスター分析の結果、重要なクラスター構造が見つかったかどうかをテストすることに興味があるので、「探索的データの結果の事後テストの可能性に関する懸念を支持または反論する論文を知りたい」クラスタを見つけるために使用される分析」。 たとえば、Milligan and Hirtleによる2003年の「クラスタリングと分類方法」という論文を見つけました。たとえば、データにはグループへのランダムな割り当てがないため、ANOVAの使用は無効な分析になります。

1
スピアマンの相関係数の差に関する有意性検定
(迅速な対応に感謝します!私は質問をするのが下手だったので、再試行させてください。) 2つのスピアマンの相関の差が統計的に有意であるかどうかを調べる方法がわかりません。私はそれを見つける方法を知りたいです。 私が見つけたかった理由は、ガブリロビッチとマルコビッチによる自然言語処理のためのウィキペディアベースの意味解釈(Journal of Artificial Intelligence Research 34(2009)443-498)です。 表2(p。457)で、著者は自分の方法(ESA-Wikipedia)が他の方法よりも高い統計的に有意なスピアマンの相関関係を達成していることを示しています。いくつかの問題の方法。 私は彼らがどのように統計的有意性を計算したのか知りません、そして私は知りたいです。この論文の著者は、スピアマンの順位相関はピアソンの相関として扱われていると述べました。それが正しい方法かどうかはわかりません。私は2つのスピアマンの相関があり、それらの差が統計的に有意であるかどうかを知りたいです。 http://faculty.vassar.edu/lowry/rdiff.htmlなどのWebサイトが、2つのピアソンの相関関係の違いを取得するためのオンライン計算機を提供していることを認識しています。2つのスピアマンの相関関係の違いについて、同様のオンライン計算機を見つけることができません。 Peter Flomが提供するリンクのソリューション 注:手順では、0.6未満のスピアマンの相関関係のみがサポートされています。 ましょ =フィッシャー組の観察された相関の変換A、 Z B =フィッシャー組の観察された相関の変換B。zAzAz_AAAAzBzBz_BBBB 以下のための、聞かせて、Y Aは、I = N 、Z A - (N - 1 )Z A '、I、Z A ' iはフィッシャーセットの変換であるAにより得られた一左アウト相関の(x i、y i)の削除 、再ランキング、および相関の再計算。(各Z A ' iが に基づいて、N -i = 1 、… 、n私=1、…、ni = 1,\dots,nyA私= n …

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

3
(平均)ROC AUC、感度および特異性に関して2つの分類子を比較するための統計的有意性(p値)
100のケースと2つの分類子のテストセットがあります。 両方の分類子の予測を生成し、ROC AUC、感度、特異度を計算しました。 質問1:p値を計算して、すべてのスコア(ROC AUC、感度、特異性)に関して一方が他方よりも有意に優れているかどうかを確認するにはどうすればよいですか? 今、100ケースの同じテストセットに対して、ケースごとに異なる独立した機能割り当てがあります。これは、私の機能が固定されているが主観的であり、複数の被験者によって提供されるためです。 そのため、テストセットの5つの「バージョン」について2つの分類子を再度評価し、両方の分類子について5つのROC AUC、5つの感度、5つの特異性を取得しました。次に、両方の分類子の5つの被験者(平均ROC AUC、平均感度、平均特異性)の各パフォーマンス測定値の平均を計算しました。 質問2:平均スコア(平均ROC AUC、平均感度、平均特異性)に関して、一方が他方よりも有意に優れているかどうかを確認するためにp値を計算するにはどうすればよいですか? いくつかのサンプルPython(できれば)またはMatLabコードの回答は大歓迎です。

3
仮説検定で尖度の高い尖度が問題になるのはなぜですか?
残差の高正尖度は、正確な仮説検定と信頼区間(したがって統計的推論の問題)にとって問題になる可能性があると聞きました(テキストへのリンクを提供することはできません)。これは本当ですか、もしそうなら、なぜですか?残差の高い正の尖度は、残差の大部分が残差平均0に近いことを示していないので、残差が少ないことがわかりますか (答えがある場合は、数学的にあまり傾いていないので、あまり詳しくない数学で答えてみてください)。

3
複数のランク付けリストからの総合ランク
このフォーラムを含め、オンラインで入手可能な多くの文献を調べましたが、幸運なしに、現在直面している統計上の問題を誰かが助けてくれることを望んでいます。 ランク付けされたデータの5つのリストがあり、各リストには、位置1(最高)から位置10(最悪)までの10個のアイテムが含まれています。コンテキストのために、各リストの10個の項目は同じですが、ランクを決定するために使用される手法が異なるため、ランクの順序が異なります。 サンプルデータ: List 1 List 2 List 3 ... etc Item 1 Ranked 1 Ranked 2 Ranked 1 Item 2 Ranked 3 Ranked 1 Ranked 2 Item 3 Ranked 2 Ranked 3 Ranked 3 ... etc 上記のデータを解釈および分析して、各テストとその位置に基づいて各アイテムの全体的なランクを示す最終結果を取得する方法を探しています。 Result Rank 1 = Item 1 Rank 2 = Item 3 Rank …

2
相互作用モデルで最適な機能を見つける
タンパク質のリストとその特徴値があります。サンプル表は次のようになります。 ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 行はタンパク質であり、列は機能です。 また、相互作用するタンパク質のリストもあります。例えば Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 問題:予備的な分析のために、どの機能がタンパク質相互作用に最も寄与するかを知りたい。 私の理解では、通常、決定木はエントロピーに基づいて最も重要な機能を取得するために使用できますが、タンパク質ペア(つまり、相互作用)に拡張する方法はわかりません。そのような目的のための方法はありますか?


2
最適なサンプルサイズに達する前にA / Bテストを停止するのはなぜ間違っているのですか?
私の会社では、A / Bテスト(ウェブサイトのバリエーションで実行)の結果を提示する責任があります。私たちは、私が今見つける午前何かがある、月のテストを実行し、その後、我々は有意に達し(または重要性を長時間テストを実行した後に到達されていない場合は放棄)まで定期的にp値を確認してください間違って練習。 私は今、この習慣をやめたいのですが、そうするために、なぜこれが間違っているのかを理解したいと思います。効果サイズ、サンプルサイズ(N)、アルファ有意性基準(α)および統計的検出力、または選択または暗黙のベータ(β)が数学的に関連していることを理解しています。しかし、必要なサンプルサイズに達する前にテストを停止すると、正確に何が変わるのでしょうか。 私はここでいくつかの投稿(つまりthis、this、this)を読みましたが、私の推定には偏りがあり、Type 1エラーの発生率が劇的に増加します。しかし、それはどのようにして起こりますか?数学的説明、つまり、サンプルサイズが結果に与える影響を明確に示すものを探しています。上で述べた要因間の関係に関係していると思いますが、正確な式を見つけて自分で計算することはできませんでした。 たとえば、テストを途中で停止すると、タイプ1のエラー率が高くなります。よし。しかし、なぜ?タイプ1のエラー率を上げるとどうなりますか?ここでは直感が欠けています。 助けてください。

3
統計:アルファとベータの関係
私の質問は、アルファとベータの関係と統計におけるそれらの定義に関係しています。 アルファ=タイプIエラー率= NULL仮説が正しいことを考慮した有意水準 ベータ=タイプIIエラー率 アルファが低下すると(アルファ= 1-特異度として特異度が増加)、ベータは増加します(ベータ= 1-感度/電力として感度/検出力は低下します) アルファの変更はベータにどのように影響しますか? 線形関係はありますか?alpha / betaの比率は常に同じですか。つまり、比の特異性/感度は常に同じですか。はいの場合、ボンフェローニ補正を使用することで、感度を下げて特異度を上げるだけですが、感度/特異度の比率は変更しません。そう言うのは正しいですか? 更新(ケース固有の質問): 特定の実験計画について、データに対して5つの線形モデルを実行します。真陽性率(感度/検出力)が0.8、真陰性率(特異度)が0.7です。(我々は何がポジティブであるべきで何がポジティブであるべきでないかを知っていると想像しましょう。)Bonferroniを使用して有意水準を0.05 / 5 = 0.01に修正するとします。結果の真陽性率(感度/パワー)と真陰性率(特異度)を数値で推定できますか? ご協力ありがとうございます。

3
グループ比較のための交互作用項と個別の回帰のある共同モデル
以前の質問とディスカッションから貴重なフィードバックを収集した後、次の質問を考え出しました。たとえば、男性と女性の2つのグループ間の効果の違いを検出することを目的としているとします。それには2つの方法があります。 2つのグループに対して2つの別々の回帰を実行し、Waldテストを使用して帰無仮説:を拒否します(ただし、は男性の回帰における1つのIV の係数、は同じ係数です)女性の後退におけるIV。b 1 − b 2 = 0 b 1 b 2H0H0H_0b1−b2=0b1−b2=0b_1-b_2=0b1b1b_1b2b2b_2 2つのグループを一緒にプールし、性別ダミーと交互作用項(IV * genderdummy)を含めることにより、共同モデルを実行します。次に、グループ効果の検出は、相互作用の符号と有意性のt検定に基づいて行われます。 ケース(1)でHoが拒否された場合、つまりグループの違いは有意であるが、ケース(2)での交互作用項の係数は統計的に重要ではない、つまりグループの違いが重要でない場合はどうでしょう。または逆の場合、Hoはケース(1)で拒否されず、交互作用項はケース(2)で重要になります。私は何度もこの結果に終わっており、どの結果がより信頼できるのか、そしてこの矛盾の背後にある理由は何なのかと思っていました。 どうもありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.