タグ付けされた質問 「hypothesis-testing」

仮説検定では、データがランダムな変動の影響ではなく、特定の仮説と矛盾しているかどうかを評価します。

2
最尤法でのテストの三位一体:矛盾する結論に直面したときに何をすべきか?
最尤推定のコンテキストでのWald、尤度比、およびラグランジュ乗数検定は、漸近的に同等です。ただし、小さなサンプルの場合、それらはかなり発散する傾向があり、場合によっては、異なる結論が得られます。 ヌルを拒否する可能性に応じて、どのようにランク付けできますか?テストに矛盾する答えがある場合はどうすればよいですか?あなたはあなたが望む答えを与えるものを選ぶことができますか、またはどのように進めるかについての「ルール」または「ガイドライン」がありますか?

2
なぜネイマン・ピアソンの補題は定理ではなく補題であるのですか?
これは、技術的な質問というよりは、歴史的な質問です。 「ネイマン・ピアソンの補題」が定理ではなく補題であるのはなぜですか? ウィキへのリンク:https : //en.wikipedia.org/wiki/Neyman%E2%80%93Pearson_lemma 注意:問題は、補題とは何か、および定理を証明するために補題がどのように使用されるかではなく、ネイマン・ピアソン補題の歴史についてです。それは定理を証明するために使用されましたか、それからそれはたまたまもっと有用でしたか?これが事実であったという疑いを超えてこれの証拠はありますか?

2
タイプIIエラーが統計文献でそれほど強調されていないのはなぜですか?
さまざまな研究記事で、タイプIのエラー(アルファ値で示される)が説明される多くのケースを見てきました。私は、研究者が力、またはタイプIIエラーを考慮することはまれであることに気づきました。 タイプIIのエラーは大きな問題になる可能性がありますか?対立仮説が実際に偽であった場合、それを誤って却下しました。なぜベータ値ではなくアルファ値がそれほど強調されるのですか? 初年度の統計をとったとき、ベータは教えられなかった-アルファのみ。私はこれら2つのエラーは同等に扱われるべきだと感じています。しかし、アルファのみが強調されているようです。

2
母集団全体のデータが利用できる場合、信頼区間を計算し、仮説をテストすることは理にかなっていますか?
母集団全体のデータが利用できる場合、信頼区間を計算し、仮説をテストすることは理にかなっていますか?私の意見では、パラメーターの真の値を正確に計算できるため、答えは「いいえ」です。しかし、それでは、前述の手法を使用できるようにする元の母集団からのデータの最大比率はどのくらいですか?

2
RにおけるWilcoxon-Mann-Whitneyの臨界値
Rを使用してマンホイットニーUの臨界値を見つけようとすると、値は常に1+臨界値であることに気づきました。たとえば、場合、(両側)臨界値は8ですが、α = .05 、n = 12 、m = 8の場合、(両側)臨界値値は22(表を確認)ですが、次のようになります。α=.05,n=10,m=5α=.05,n=10,m=5\alpha=.05, n = 10, m = 5α=.05,n=12,m=8α=.05,n=12,m=8\alpha=.05, n=12, m=8 > qwilcox(.05/2,10,5) [1] 9 > qwilcox(.05/2,12,8) [1] 23 もちろん、私は何かを考えていませんが...なぜ誰かが私に理由を説明できますか?


2
仮説検定と総変動距離対カルバック・ライブラー分岐
私の研究では、次の一般的な問題に遭遇しました。同じドメイン上に2つの分布PPPとQQQがあり、それらの分布からのサンプルが多数(ただし有限)あります。サンプル独立して同一これら二つの分布のいずれかから分配される(分布が関係してもよいが:例えば、QQQの混合物であってもよいPPP。およびいくつかの他のディストリビューション)帰無仮説は、試料から来ることであるPPP、代替仮説はことですサンプルはからのものQQQです。 分布PPPと知って、サンプルのテストでタイプIとタイプIIのエラーを特徴づけようとしていQQQます。特に、私はPPPと知識に加えて、もう1つのエラーを制限することに興味がありQQQます。 私が求めている質問の関係についてmath.SE上の全変動距離の間にPPPとQQQ仮説検定には、私は受け入れたことの答えを受けました。その答えは理にかなっていますが、問題に関連するため、総変動距離と仮説検定の関係の背後にあるより深い意味に心を包むことができませんでした。したがって、私はこのフォーラムを利用することにしました。 私の最初の質問は次のとおりです。全体の変動は、タイプIとタイプIIのエラーの確率の合計にバインドされていますか?本質的に、サンプルがいずれかの分布によって生成された可能性があるゼロ以外の確率がある限り、エラーの少なくとも1つの確率はゼロ以外でなければなりません。基本的に、仮説テスターが信号処理をどれほど行っても、間違いを犯す可能性を回避することはできません。そして、総変動はその正確な可能性を制限します。私の理解は正しいですか? タイプIとIIのエラーと基になる確率分布とQの間には、KLダイバージェンスという別の関係もあります。したがって、私の2番目の質問は次のとおりです。KLダイバージェンスバウンドは、特定の仮説検定法(対数尤度比法の周りに多く出てくるように思われる)にのみ適用できますか、それともすべての仮説検定法に一般的に適用できますか?すべての仮説検定法に適用できる場合、なぜそれが合計変動限界と非常に異なるように見えるのですか?動作は異なりますか?PPPQQQ そして私の根底にある質問は、私がどちらかのバウンドを使用する必要がある所定の一連の状況がありますか、それとも純粋に便利な問題ですか?ある拘束を使用して、他の拘束を使用して結果をいつ導出する必要がありますか? これらの質問が些細なものである場合はお詫び申し上げます。私はコンピュータサイエンティストです(つまり、これは私には空想的なパターンマッチングの問題のようです:))。しかし、私はこの仮説テストのすべてを学び始めたばかりです。必要に応じて、質問を明確にするために最善を尽くします。

4
Pythonを使用して列にカテゴリカルデータがあるかどうかを統計的に証明する方法
すべてのカテゴリー変数を見つける必要があるpythonのデータフレームがあります。int型もカテゴリ型になる可能性があるため、列の型のチェックは常に機能するとは限りません。 したがって、列がカテゴリカルであるかどうかを識別するための正しい仮説検定方法を見つけるのに助けを求めます。 私はカイ二乗検定の下で試しましたが、これで十分かどうかはわかりません import numpy as np data = np.random.randint(0,5,100) import scipy.stats as ss ss.chisquare(data) お知らせ下さい。


3
PDF推定方法を評価する最良の方法
私が見たどのアイデアよりも優れていると思う私のアイデアのいくつかをテストしたいと思います。私は間違っている可能性がありますが、自分の考えをテストして、より確実な観察によって疑問を解消したいと思います。 私がやろうとしていることは次のとおりです: 一連の分布を分析的に定義します。これらのいくつかは、ガウス、ユニフォーム、またはトップハットのような簡単なものです。しかし、シンプソンズ分布のように、これらのいくつかは困難でやりがいのあるものでなければなりません。 それらの分析分布に基づいてソフトウェアを実装し、それらを使用していくつかのサンプルを生成します。 分布は分析的に定義されているため、私は(定義により)真のPDFをすでに知っています。これは素晴らしい。 次に、上記のサンプルに対して次のPDF推定方法をテストします。 既存のPDF推定方法(さまざまなカーネルと帯域幅を備えたKDEなど)。 自分で試してみる価値はあると思います。 次に、真のPDFに対する推定の誤差を測定します。 次に、どのPDF推定方法が良いかをよりよく理解します。 私の質問は: Q1:上記の計画に対して何か改善点はありますか? Q2:多くの真のPDFを分析的に定義するのは難しいと思います。私がここで再利用できる、さまざまな困難(非常に困難なものを含む)を持つ分析的に定義された多くの真のPDFの包括的なリストはすでにありますか?

1
ある
仮説検定では、帰無仮説、多くの場合、(少なくとも本で私は、読み取りをした)の形式をとる: H 0:θ = θ 0 H 0:θ ≤ θ 0 または H 0:θ 1 ≤ θ ≤ θ 2H0H0H_0H0:H0:θ=θ0θ≤θ0H0:θ=θ0H0:θ≤θ0 \begin{align*} H_0:&\theta=\theta_0\\ H_0:&\theta\le\theta_0 \end{align*} H0:θ1≤θ≤θ2H0:θ1≤θ≤θ2 H_0:\theta_1\le\theta\le\theta_2 のセットが閉じられるのは単なる慣習ですか?それとも他の理由がありますか?H0H0H_0

2
説明変数の1つが2次および3次の項を持つ可能性がある場合、説明変数間の相互作用をどのようにモデル化すればよいですか?
私がこの質問を明確に回答できるように表現したことを心から望んでいます。もしそうでなければ、私に知らせて、もう一度やり直します!また、これらの分析にはRを使用することにも注意してください。 私がplant performance (Ys)課した4つの治療法の影響を受けたと思われるいくつかの測定値flower thinning (X1), fertilization (X2), leaf clipping (X3)がありbiased flower thinning (X4)ます- 、および。考えられるすべてのYについて、Nは少なくとも242なので、サンプルサイズが大きくなりました。すべてのプロットは間引きを行ったか、行わなかったかのいずれかですが、各プロットは他の3つの処理のうちの1つ(および1つのみ)も処理しました(または処理しませんでした-コントロールプロットもありました)。このデザインのアイデアは、他の3つの処理が、間引きの効果を「マスキング」または「強化」できるかどうかをテストすることでした。したがって、設計上、後者の3つの処理(X2〜X4)は交差しなかったため、互いに相互作用することはできませんでしたが、それぞれ花の間引きと相互作用することができます。 私の明確な仮説は、1)花が薄くなることは重要であり、2)X1*X2, X1*X3, and X1*X4,花が薄くなることと他の3つの処理の間の相互作用項も重要であることです。つまり、花の間引きは重要なはずですが、それが重要である方法は、他の3つの処理が何をしたかによって大幅に変更されるべきです。 このすべての情報を混合モデルに含めたいのですが。 Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects) しかし、ハングアップが1つあります。私は、Yの間引きの効果が非線形であることを信じる十分な理由があります。それらはおそらく2次式ですが、場合によっては3次式であることもあります。これは、間引きのパフォーマンスへの影響が、間引きのレベルが高いほど速く増加する可能性が高いためです。X1の2次および3次の項を追加することにより、上記の方程式を介してこの非線形関係をモデル化しようとすると、相互作用項をモデル化する方法がわかりません-X1の可能なすべての組み合わせ(X1)^ 2、(X1)^ 3 * X2、X3、X4?私が持っているデータポイントの数があったとしても、それは推定しようとする多くのパラメーターのようであり、得られる結果を解釈する方法がわかりません。とはいえ、これが状況をモデル化するための無作法な方法であると考える生物学的な理由はありません。 したがって、私はこの問題に対処する方法について3つの考えがあります。 たとえばY …


1
順列テストを使用する利点は何ですか?
検定統計量によって代替仮説に対するいくつかのヌルをテストする場合U(X)U(X)U(X)、ここで、X={xi,...,xn}X={xi,...,xn}X = \{ x_i, ..., x_n\}、の順列の集合を使用して順列検定を適用すると、新しい統計 X T (X ):= #{ π ∈ G :U (π X )≥ U (X )}GGGXXXT(X):=#{π∈G:U(πX)≥U(X)}|G|.T(X):=#{π∈G:U(πX)≥U(X)}|G|. T(X) := \frac{\# \{\pi \in G: U(\pi X) \geq U(X)\}}{|G|}. 順列検定を使用しない場合と比べて、順列検定を使用する利点は何ですか?つまり、順列テストが機能するときはどのようなものですか? それを実現するための条件は何ですか?検定統計量および/または帰無仮説に関するいくつかの条件など?UUU 例えば、 サンプル場合、 は基づくp値と等しい必要がありますか?はいの場合、なぜですか?(参照も高く評価されています)U (X )XT(X)T(X)T(X)U(X)U(X)U(X)XXX のp値は、。順列検定がU(X)の順列分布を推定する場合| X = x、T(X)はX = xでのU(X)の p値とどのように等しいですか?特に、ヌルHには複数の分布が存在する可能性があり、T(X)はヌル分布を1つずつ考慮せず、\ sup_ {F \ in H}と\ …

2
この単一の値はその分布と一致しますか?
これは非常に素朴な質問のように感じますが、私は答えを見るのに苦労しています。 30個の値のセットが1つあります。独立して私は31番目の値を得ました。帰無仮説は、31番目の値が同じ分布の一部であるというものです。代替案は、その違いです。ある種のp値または尤度の尺度が必要です。 私が持っていたいくつかの考え: これは、2つのサンプルのt検定を実行するのに似ています。ただし、2番目のサンプルの場合、1つの値しかなく、30の値が必ずしも正規分布しているわけではありません。 30回の測定の代わりに10000回の測定をした場合、単一の測定のランクがいくつかの有用な情報を提供する可能性があります。 この尤度またはp値を計算するにはどうすればよいですか? ありがとう!ヤニック

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.