タグ付けされた質問 「hypothesis-testing」

仮説検定では、データがランダムな変動の影響ではなく、特定の仮説と矛盾しているかどうかを評価します。

2
データのサンプルがガンマ分布のファミリーに適合するかどうかをテストする方法は?
連続ランダム変数Xから生成されたデータのサンプルがあります。そして、Rを使用して描画したヒストグラムから、Xの分布は特定のガンマ分布に従っていると思います。しかし、私はこのガンマ分布の正確なパラメーターを知りません。 私の質問は、Xの分布がガンマ分布のファミリーに属するかどうかをテストする方法ですか?Kolmogorov-Smirnov検定、Anderson-Darling検定などの適合度検定がいくつか存在しますが、これらの検定を使用する際の制限の1つは、理論分布のパラメーターを事前に知っておく必要があることです。この問題を解決する方法を教えてください。

2
統計的有意性検定を使用してクラスター分析結果を検証する
クラスター分析の結果を検証するために、統計的有意性検定(SST)の使用を調査しています。このトピックに関するいくつかの論文を見つけました。 「高次元、低サンプルサイズデータのクラスタリングの統計的重要性」、Liu、Yufeng et al。(2008) 「クラスター分析におけるいくつかの有意性検定について」、Bock(1985) しかし、クラスター分析の結果を検証するのにSSTは適切でないと主張する文献を見つけることに興味があります。私がこれを主張している唯一のソースは、ソフトウェアベンダーのウェブページです 明確にするために: クラスター分析の結果、重要なクラスター構造が見つかったかどうかをテストすることに興味があるので、「探索的データの結果の事後テストの可能性に関する懸念を支持または反論する論文を知りたい」クラスタを見つけるために使用される分析」。 たとえば、Milligan and Hirtleによる2003年の「クラスタリングと分類方法」という論文を見つけました。たとえば、データにはグループへのランダムな割り当てがないため、ANOVAの使用は無効な分析になります。

1
スピアマンの相関係数の差に関する有意性検定
(迅速な対応に感謝します!私は質問をするのが下手だったので、再試行させてください。) 2つのスピアマンの相関の差が統計的に有意であるかどうかを調べる方法がわかりません。私はそれを見つける方法を知りたいです。 私が見つけたかった理由は、ガブリロビッチとマルコビッチによる自然言語処理のためのウィキペディアベースの意味解釈(Journal of Artificial Intelligence Research 34(2009)443-498)です。 表2(p。457)で、著者は自分の方法(ESA-Wikipedia)が他の方法よりも高い統計的に有意なスピアマンの相関関係を達成していることを示しています。いくつかの問題の方法。 私は彼らがどのように統計的有意性を計算したのか知りません、そして私は知りたいです。この論文の著者は、スピアマンの順位相関はピアソンの相関として扱われていると述べました。それが正しい方法かどうかはわかりません。私は2つのスピアマンの相関があり、それらの差が統計的に有意であるかどうかを知りたいです。 http://faculty.vassar.edu/lowry/rdiff.htmlなどのWebサイトが、2つのピアソンの相関関係の違いを取得するためのオンライン計算機を提供していることを認識しています。2つのスピアマンの相関関係の違いについて、同様のオンライン計算機を見つけることができません。 Peter Flomが提供するリンクのソリューション 注:手順では、0.6未満のスピアマンの相関関係のみがサポートされています。 ましょ =フィッシャー組の観察された相関の変換A、 Z B =フィッシャー組の観察された相関の変換B。zAzAz_AAAAzBzBz_BBBB 以下のための、聞かせて、Y Aは、I = N 、Z A - (N - 1 )Z A '、I、Z A ' iはフィッシャーセットの変換であるAにより得られた一左アウト相関の(x i、y i)の削除 、再ランキング、および相関の再計算。(各Z A ' iが に基づいて、N -i = 1 、… 、n私=1、…、ni = 1,\dots,nyA私= n …

5
カイ二乗を使用して比率を比較できますか?
カイ二乗検定は、サンプルが期待値のセットと大きく異なるかどうかを確認するのに役立ちます。 たとえば、ここに人々のお気に入りの色に関する調査の結果の表があります(n = 15 + 13 + 10 + 17 = 55回答者): red,blue,green,yellow 15,13,10,17 カイ二乗検定は、このサンプルが、各色を好む人々の等しい確率の帰無仮説と有意に異なるかどうかを教えてくれます。 質問:特定の色を好む回答者の合計の割合でテストを実行できますか?以下のように: red,blue,green,yellow 0.273,0.236,0.182,0.309 もちろん、0.273 + 0.236 + 0.182 + 0.309 = 1です。 この場合、カイ二乗検定が適切でない場合、どのような検定になりますか?ありがとう! 編集:私は以下の@RomanLuštrikの答えを試して、次の出力を得ました、なぜp値が得られないのですか?なぜRは「カイ二乗近似が間違っている可能性がある」と言うのですか? > chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)) Chi-squared test for given probabilities data: c(0, 0, 0, 8, 6, 2, 0, 0) X-squared = NaN, …

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

4
2つのサンプル分布の裾の比較
ほぼゼロを中心とした2つのデータセットがありますが、テールが異なると思われます。分布を正規分布と比較するいくつかのテストを知っていますが、2つの分布を直接比較したいと思います。 2つの分布の裾の太さを比較する簡単なテストはありますか? ありがとう fRed

1
同じスキューのヌルについて2つの独立したサンプルをテストしますか?
同じスキューを持つ母集団から派生しているという帰無仮説について、2つの独立したサンプルをテストするには、どのテストを使用できますか?スキューが固定数に等しいかどうかの古典的な1サンプルテストがあります(テストには6番目のサンプルモーメントが含まれます!)。2サンプルテストへの簡単な翻訳はありますか? データの非常に高い瞬間を含まない手法はありますか?(私は「bootstrap it」という形式の答えを期待しています:ブートストラップ技術はこの問題に適していることが知られていますか?)

2
UMPがないときに拒否領域を定義する方法は?
線形回帰モデルを考えます 、y=Xβ+uy=Xβ+u\mathbf{y}=\mathbf{X\beta}+\mathbf{u} 、u∼N(0,σ2I)u∼N(0,σ2I)\mathbf{u}\sim N(\mathbf{0},\sigma^2\mathbf{I}) 。E(u∣X)=0E(u∣X)=0E(\mathbf{u}\mid\mathbf{X})=\mathbf{0} LET 対H 1:σ 2 0 ≠ σ 2H0:σ20=σ2H0:σ02=σ2H_0: \sigma_0^2=\sigma^2H1:σ20≠σ2H1:σ02≠σ2H_1: \sigma_0^2\neq\sigma^2。 私たちは、その推測することができここで、Diは、m個(X)=N×K。そしてMXはアニヒレーターマトリックスのための典型的な表記法であるMXY= Y、 yは従属変数であるYに回帰X。yTMXyσ2∼χ2(n−k)yTMXyσ2∼χ2(n−k)\frac{\mathbf{y}^T\mathbf{M_X}\mathbf{y}}{\sigma^2}\sim \chi^2(n-k)dim(X)=n×kdim(X)=n×kdim(\mathbf{X})=n\times kMXMX\mathbf{M_X}MXy=y^MXy=y^\mathbf{M_X}\mathbf{y}=\hat{\mathbf{y}}y^y^ \hat{\mathbf{y}}yy\mathbf{y}XX\mathbf{X} 私が読んでいる本は次のように述べています: 以前に、拒否領域(RR)を定義するためにどの基準を使用する必要があるかを尋ねました。 この質問た。主なものは、テストを可能な限り強力にするRRを選択することでした。 この場合、二者間複合仮説である代替案では、通常UMPテストはありません。また、本で与えられた答えによって、著者はRRの力の研究をしたかどうかを示しません。それにもかかわらず、彼らは両側RRを選択しました。なぜ仮説は「一方的に」RRを決定しないのですか? 編集:この画像は、演習4.14の解決策として本書の解決策マニュアルに記載されています。

2
n回のトスからk個のヘッドを観察します。コインは公正ですか?
私はインタビューでこの質問をされました。「正しい」答えはありますか?(n,k)=(400,220)(n,k)=(400,220)(n, k) = (400, 220) トスがiidで、ヘッドの確率がと仮定します。その場合、400回のトスでの頭の数の分布はNormal(200、10 ^ 2)に近く、220頭は平均から2標準偏差離れています。そのような結果を観察する確率(つまり、どちらの方向でも平均から2 SD離れている)は、5%未満です。p=0.5p=0.5p=0.5 インタビュアーは、本質的に、「平均値から2 SD以上を観察した場合、何か他のことが起こっていると結論付けます。コインが公正であることに賭けます」と言った。それは理にかなっています-結局のところ、それはほとんどの仮説テストが行​​うことです。しかし、それで話は終わりですか?「正解」と思われるインタビュアーにとって。ここで質問しているのは、ニュアンスが正当化されるかどうかです。 このコイン投げの文脈では、コインが公平ではないと判断することは奇妙な結論であると指摘するしかありませんでした。私はそれを言う権利がありますか?以下で説明します。 まず第一に、私は-そして私はほとんどの人も-コインについて強い優先順位を持っていると思います:彼らは公平である可能性が非常に高いです。もちろん、それは公正という意味によって異なります。1つの可能性は、「公正」を「頭が0.5に「近い」、たとえば0.49から0.51の確率を持つ」と定義することです。 (また、完全に公正なコインは今むしろ思われる場合持つには、ヘッドの確率は正確に0.50であることを意味するものとして「公正」を定義することができ、未そう。) 事前の判断は、コインに関する一般的な信念だけでなく、コンテキストにも依存する可能性があります。自分のポケットからコインを引き出した場合、それが公正であることを事実上確信するかもしれません。あなたの魔術師の友人が彼からそれを引き出した場合、あなたの先輩は双頭コインにもっと重みを置くかもしれません。 いずれにせよ、(i)コインが公正である可能性を高くし、(ii)220の頭部を観察した後でも、後部を非常によく似たものにする合理的な優先順位を簡単に思い付きます。次に、平均から2 SDの結果を観察したにもかかわらず、コインは非常に公平である可能性が高いと結論付けます。 実際、たとえば、すべての不公平なコインがある可能性がある場合、400回のトスで220のヘッドを観察することで、後部がより公平なコインに重みを置く例を構築することもできます。{0,1}{0,1}\{0, 1\} 誰かが私のためにこれにいくらか光を当てることができますか? この質問を書いた後、私は以前にこの一般的な状況について聞いたことがあることを思い出しました-それはリンドリーの「パラドックス」ではありませんか? Whuberはコメントに非常に興味深いリンクを追加しました。ダイをロードできますが、コインをバイアスできません。3ページ目から: コインが頭の確率pを持っていると言うのは意味がありません。なぜなら、コインは投げられる方法によって完全に決定できるからです。バウンスなし。この場合、p = 1/2。 かなりクール!これは興味深い方法で私の質問と結びついています。コインが「空中に素早く回転して投げ込まれ、跳ね返ることなく空中に閉じ込められている」ことがわかっているとします。それから、コインが公正であるという仮説を絶対に拒否すべきではありません(ここで、「公正」とは、上記の方法で投げたときにp = 1/2を意味することを意味します)。コインは公平です。220のヘッドが観察された後、nullを拒否するのが不快な理由はある程度正当化されるかもしれません。


4
2つのサンプルの平均が著しく異なるが、差が問題には小さすぎると思われる場合の対処方法
私は2つのサンプル(有するn≈70n≈70n \approx 70の両方のケースでは)。平均は、プールされた標準の約2倍異なります。開発者 結果のTTT値は約10です。平均が同じでないことを最終的に示したことを知るのは素晴らしいことですが、これは大きなnによって駆動されるように思われます。データのヒストグラムを見ると、小さなp値が実際にデータを代表しているとは感じませんし、正直に言って引用するのは気にしないでください。おそらく間違った質問をしているのでしょう。私が考えているのは:わかりました、平均は異なり​​ますが、分布が重要な重複を共有しているのでそれは本当に重要ですか? これはベイジアンテストが有用な場所ですか?もしそうなら、どこから始めるのが良い場所か、ちょっとしたグーグルは何も役に立たなかったが、私は正しい質問をしてはいけないかもしれない。これが間違っている場合、誰にも提案がありますか?または、これは定量分析ではなく単に議論のポイントですか?


5
なぜ対立仮説が必要なのですか?
テストを行うと、2つの結果が生じます。 1)帰無仮説を棄却 2)帰無仮説を棄却できません。 対立仮説の受け入れについては触れません。対立仮説の受け入れについて話さない場合、なぜ対立仮説を立てる必要があるのでしょうか。 ここに更新があります: 誰かが私に2つの例を与えることができます: 1)帰無仮説を拒否することは、対立仮説を受け入れることと同じです 2)帰無仮説を拒否することは、対立仮説を受け入れることとは異なります

2
最適なサンプルサイズに達する前にA / Bテストを停止するのはなぜ間違っているのですか?
私の会社では、A / Bテスト(ウェブサイトのバリエーションで実行)の結果を提示する責任があります。私たちは、私が今見つける午前何かがある、月のテストを実行し、その後、我々は有意に達し(または重要性を長時間テストを実行した後に到達されていない場合は放棄)まで定期的にp値を確認してください間違って練習。 私は今、この習慣をやめたいのですが、そうするために、なぜこれが間違っているのかを理解したいと思います。効果サイズ、サンプルサイズ(N)、アルファ有意性基準(α)および統計的検出力、または選択または暗黙のベータ(β)が数学的に関連していることを理解しています。しかし、必要なサンプルサイズに達する前にテストを停止すると、正確に何が変わるのでしょうか。 私はここでいくつかの投稿(つまりthis、this、this)を読みましたが、私の推定には偏りがあり、Type 1エラーの発生率が劇的に増加します。しかし、それはどのようにして起こりますか?数学的説明、つまり、サンプルサイズが結果に与える影響を明確に示すものを探しています。上で述べた要因間の関係に関係していると思いますが、正確な式を見つけて自分で計算することはできませんでした。 たとえば、テストを途中で停止すると、タイプ1のエラー率が高くなります。よし。しかし、なぜ?タイプ1のエラー率を上げるとどうなりますか?ここでは直感が欠けています。 助けてください。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.