タグ付けされた質問 「hypothesis-testing」

仮説検定では、データがランダムな変動の影響ではなく、特定の仮説と矛盾しているかどうかを評価します。

1
2つの回帰係数が有意に異なるかどうかのテスト(Rが理想的)
これが重複する質問である場合は、正しい方法を指摘してください。ただし、ここで見つけた同様の質問は十分に類似していません。私はモデルを推定したとY= α + βバツ+ uY=α+βバツ+あなたY=\alpha + \beta X + u そして、ことがわかります。しかし、それが判明X = X 1 + X 2、及びIが疑わしい∂ Yを/ ∂ X 1 ≠ ∂ Y / ∂ X 2、特に、その∂ Y / ∂ X 1 > ∂ Y / ∂ X 2。私はモデルを推定してY = α + β 1 X 1 + β 2 …

2
実験を再実行してWeb A / Bテストを検証します-これは有効ですか?
先日、A / Bテスト会社によるウェビナーで、居住者の「データサイエンティスト」に、実験を再実行して結果を検証する必要があることを説明してもらいました。前提として、95%の信頼度を選択した場合、誤検知の可能性は5%(1/20)です。同じ制約で実験を再実行すると、1/400になります(これは0.05 ^ 2 = 1/400と決定したと仮定しています) これは有効な発言ですか?(つまり、「2回実行すると、2つの統計的有意性の勝利=偽陽性の1/400の確率」)?それはあなたの有意水準を上げるためのより良いアプローチだったでしょうか? ビジネスの観点から、私が懸念しているのは、実験を再実行することです。つまり、より多くのユーザーを劣ったページ(処理)にさらし、潜在的な売り上げを失うことになります。

1
フリードマン検定とウィルコクソン検定
教師あり機械学習分類アルゴリズムのパフォーマンスを評価しようとしています。観察は99の被験者の母集団から抽出された名義クラスに分類されます(当面は2ですが、これをマルチクラス問題に一般化したいと思います)。 アルゴリズムが入力クラス間で分類精度に有意差を示すかどうかは、私が回答したい質問の1つです。バイナリ分類のケースでは、対応するウィルコクソン検定を使用して、被験者間のクラス間の平均精度を比較しています(基礎となる分布が正規でないため)。この手順をマルチクラス問題に一般化するために、私はフリードマン検定を使用することを意図しました。 しかし、バイナリIVの場合には、これら二つの手順により得られたp値を得たウィルコクソン検定を用いて、激しく変わるp < .001一方p = .25フリードマンテスト用。これは私がフリードマン検定の構造について根本的な誤解を持っていると私を信じさせます。 この場合、フリードマン検定を使用して、すべての被験者にわたって精度の繰り返し測定の結果を比較することは適切ではありませんか? これらの結果を取得するための私のRコード(subjectは、サブジェクトID、acc精度DV、およびexpected観測クラスIVです): > head(subject.accuracy, n=10) subject expected acc 1 10 none 0.97826087 2 10 high 0.55319149 3 101 none 1.00000000 4 101 high 0.68085106 5 103 none 0.97826087 6 103 high 1.00000000 7 104 none 1.00000000 8 104 high 0.08510638 9 105 none …

1
同等性の帰無仮説
仮定ノーマルから単純無作為サンプルです分布。X1,X2,...,XnX1,X2,...,XnX_1, X_2, \, ... \, , X_n(μ,σ2)(μ,σ2)(\mu,\sigma^2) 次の仮説検定に興味があります 与えられた定数。H0:|μ|≤cH1:|μ|>c,H0:|μ|≤cH1:|μ|>c, H_0: | \mu| \le c \\ H_1: |\mu| > c, c>0c>0c > 0 2つの片側検定(TOST)を、nullとある通常の生物学的同等性試験の状況に類似した方法で実行することを考えていましたですが、これが理にかなっているのか、正しいのかわかりません。ttt|μ|≥c|μ|≥c|\mu| \ge c 私のアイデアは、片側テストを実行することです および およびの1つがグローバル帰無仮説を棄却 -値が有意水準よりも小さい。H01:μ≤cH11:μ>cH01:μ≤cH11:μ>c H_{01} : \mu \le c \\ H_{11} : \mu > c H02:μ≥−cH12:μ<−c,H02:μ≥−cH12:μ<−c, H_{02} : \mu \ge -c \\ H_{12} : \mu …

1
ウェルチ検定の自由度は常にプールされた検定のDFよりも小さいですか?
私は基礎統計学のコースを教えており、私たちは、分散が等しくない2つの独立したサンプルのt検定(ウェルチ検定)を行っています。私が見た例では、ウェルチテストで使用される調整された自由度は常にです。 ん1+ n2− 2ん1+ん2−2n_1+n_2-2 これは常にそうですか?ウェルチ検定は、プールされた(等分散)t検定の自由度を常に低減(または変更せずに)しますか? 同じ主題で、サンプルの標準偏差が等しい場合、ウェルチ検定のDFは減少しますか?数式を見ましたが、代数が乱雑になりました。ん1+ n2− 2ん1+ん2−2n_1+n_2-2

2
ブートストラップ仮説検定で帰無仮説の下でデータを再サンプリングする必要があるのはなぜですか?
ブートストラップ法を仮説検定に直接適用することは、ブートストラップされたサンプルで繰り返し計算することにより、検定統計量の信頼区間を推定 することです(ブートストラップからサンプリングされた統計量)。仮説パラメーター(通常は0に等しい)がの信頼区間の外にある場合、を拒否します。 θ ^ θ * H0θ0 ^ θ *θ^θ^\hat{\theta}θ^θ^\hat{\theta}θ∗^θ∗^\hat{\theta^*}H0H0H_0θ0θ0\theta_0θ∗^θ∗^\hat{\theta^*} 私は読んだことがあるが、この方法にはある程度の力がない。Hall P.とWilson SRによる記事「ブートストラップ仮説テストの2つのガイドライン」(1992)は、最初のガイドラインとして書かれており、ではなく、。そして、これは私が理解していない部分です。^ θ * -θ0θ∗^−θ^θ∗^−θ^\hat{\theta^*} - \hat{\theta}θ∗^−θ0θ∗^−θ0\hat{\theta^*} - \theta_0 されていないことを措置推定量のバイアスだけ?不偏推定量の場合、この式の信頼区間は常により小さくなければなりませんが、テストと何が関係しているのかません。に関する情報を置く場所はどこにもありません。^ θ * ^ θ * -θ0 θ =θ0θ0θ∗^−θ^θ∗^−θ^\hat{\theta^*} - \hat{\theta}θ∗^θ∗^\hat{\theta^*}θ∗^−θ0θ∗^−θ0\hat{\theta^*} - \theta_0θ^=θ0θ^=θ0\hat{\theta}=\theta_0θ0θ0\theta_0 この記事にアクセスできないあなたのために、これは論文の直後に来る関連する段落の引用です: これが重要な理由を理解するために、場合、を拒否するテストが含まれることにして 「大きすぎる」です。もしの真の値から長い道のりです (すなわち、場合エラーはなはだしくである)、その後違い ノンパラメトリックブートストラップ分布と比較して、非常に大きく見えることはありません。より意味のある比較は、分布です。実際には、もし真の値 IS| θ - θ 0 | θ 0 θ H 0 | …

3
コンピュータシミュレーションを使用して、大学院レベルでの統計的概念をよりよく理解する
こんにちは私は統計学の大学院コースを受講しており、テスト統計学およびその他の概念をカバーしてきました。 しかし、私はしばしば公式を適用して、物事がどのように機能するかについて一種の直感を開発することができますが、シミュレーションの実験で私の研究をバックアップした場合、私は目の前の問題により優れた直感を開発するだろうと感じることがよくあります。 したがって、私はクラスで議論するいくつかの概念をよりよく理解するために、簡単なシミュレーションを書くことを考えてきました。今私は言うJavaを使用することができます: 正規平均と標準偏差でランダムな母集団を作成します。 次に、小さなサンプルを取り、Type-IおよびType-IIエラーを経験的に計算してみます。 今私が持っている質問は: これは直感を養うための正当なアプローチですか? これを行うソフトウェアはありますSASか(?、R?) これは、このようなプログラミングを扱う統計学の分野ですか?シミュレーション?

5
スキュー正常データの仮説検定はできますか?
もともとは通常配布されていると思っていたデータのコレクションがあります。次に、実際にそれを見て、そうではないことに気づきました。ほとんどの場合、データが歪んでいるためです。また、shapiro-wilksテストも行いました。 それでも統計的手法を使用して分析したいので、スキュー正規性の仮説検定を行いたいと思います。 したがって、スキューの正常性をテストする方法があるかどうか、また可能であれば、テストを行うためのライブラリがあるかどうかを知りたいのです。

2
ウィルクスの定理との有限混合でガウシアンの数を見つけますか?
一連の独立した同一分布の単変量観測と、生成方法に関する2つの仮説があるとします。xxxxxx H0H0H_0: は、平均と分散が不明な単一のガウス分布から描画されます。xxx HAHAH_A: は、平均、分散、混合係数が不明な2つのガウス分布の混合物から描画されます。xxx 私が正しく理解している場合、これらはネストされたモデルです表すモデルは、2つのガウスのパラメーターが同一になるように制約するか、2つのガウスの1つについて混合係数がゼロになるように制約する場合、記述できるためです。 H0H0H_0HAHAH_A したがって、EMアルゴリズムを使用してのパラメーターを推定し、ウィルクスの定理を使用してのデータの可能性がのデータの可能性よりも大幅に高いかどうかを判断できるように思われ。EMアルゴリズムがここで最大の可能性に収束するという仮定には多少の信頼がありますが、それは私が喜んで作成するものです。HAHAH_AHAHAH_AH0H0H_0 モンテカルロシミュレーションでこれを試しましたは(2番目のガウス分布と混合パラメーターの平均と分散)よりも3自由度が高いと仮定しています。からのデータをシミュレートすると、実質的に不均一で小さなP値に富んだP値の分布が得られました。(EMが真の最大尤度に収束していなかった場合、正反対が予想されます。)このバイアスを生み出しているウィルクスの定理の私の適用の何が問題になっていますか?HAHAH_AH0H0H_0H0H0H_0

2
ウィルコクソン符号順位検定の妥当性
Cross Validatedのアーカイブを少し調べてみましたが、質問に対する回答が見つかりませんでした。私の質問は次のとおりです。ウィキペディアは、ウィルコクソンの符号付き順位検定(私の質問では少し変更されています)を維持するために必要な3つの仮定を示しています。 i = 1、...、nに対してZi = Xi-Yiとします。 差Ziは独立していると想定されます。 (a。)各Ziは同じ連続母集団に由来し、(b。)各Ziは共通の中央値について対称です。 XiとYiが表す値は順序付けされています。したがって、「より大きい」、「より小さい」、および「等しい」の比較が役立ちます。 ただし、Rの?wilcox.testのドキュメントには、(2.b)が実際には手順でテストされるものであることが示されているようです。 「... xとyの両方が指定され、ペアがTRUEの場合、x-yの分布(ペアの2つのサンプルの場合)がmuについて対称であるというヌルのウィルコクソン符号順位検定が実行されます。」 これは、「Zが中央値mu = SomeMuの周りに対称的に分布している」という帰無仮説に対してテストが実行されているかのように聞こえます。つまり、null の棄却は、対称性の棄却か、その周りのmuの棄却のどちらかです。 Zは対称ですSomeMuです。 これはwilcox.testのRドキュメントの正しい理解ですか?もちろん、これが重要な理由は、いくつかの前後のデータ(上記の「X」と「Y」)でいくつかの対応のある差分テストを行っているためです。「前」と「後」のデータは個別に大きく歪んでいますが、その差はほとんど歪んでいません(まだ多少歪んでいますが)。つまり、単独で考慮された「前」または「後」のデータには歪度〜7〜21(見ているサンプルによって異なります)があり、一方「差異」のデータには歪度〜= 0.5〜5があります。しかし、それほど多くはありません。 私の「差異」データに歪度があると、ウィルコクソン検定が誤った/偏った結果をもたらす(Wikipediaの記事に示されているように)場合、歪度は大きな問題になる可能性があります。ただし、ウィルコクソン検定が実際に差分分布が「mu = SomeMuの周りで対称」であるかどうかを検定している場合(?wilcox.testが示すように)、これはそれほど問題ではありません。 したがって、私の質問は次のとおりです。 上記のどの解釈が正しいですか?「差異」分布の歪度は、ウィルコクソン検定にバイアスをかけますか? 歪度が懸念事項である場合:「どの程度の歪度が懸念事項ですか?」 ウィルコクソンの符号付き順位検定がここでは著しく不適切と思われる場合、何を使用すればよいかについての提案はありますか? 本当にありがとう。私がこの分析をどのように行うかについてさらに提案があれば、私はそれらを聞いてとても嬉しく思います(ただし、その目的のために別のスレッドを開くこともできます)。また、これはCross Validatedに関する最初の質問です。私がこの質問にどのように質問したかについての提案/コメントがあれば、私もそれを受け入れます! 少し背景:私は「会社の生産におけるエラー」と呼ぶものについての観察を含むデータセットを分析しています。サプライズインスペクションの前後で製造プロセスで発生するエラーについて観察しました。分析の目的の1つは、「検査によって、観測されたエラーの数に違いがあるか」という質問に答えることです。 データセットは次のようになります。 ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD 0123,1,1,1,0,1,1,1,0 2345,1,0,0,0,0,1,1,0 6789,2,1,0,1,0,1,0,0 1234,8,8,0,0,1,0,0,0 約4000の観測があります。その他の変数は、企業の特性を説明する分類的観測です。サイズは、小、中、大のいずれかであり、各企業はそれらの1つだけです。会社は「タイプ」のいずれかまたはすべてです。 すべての企業とさまざまなサブグループ(サイズとタイプに基づく)の検査の前後で、観測されたエラー率に統計的に有意な差があるかどうかを確認するために、いくつかの簡単なテストを実行するように依頼されました。たとえば、Rでデータが次のように見える前と後の両方でデータが大幅に歪んでいたため、T検定は失敗しました。 summary(errorsBefore) # Min. 1st …

2
回帰F検定の能力は何ですか?
多重線形回帰における変数のサブセットの古典的なF検定は、 ここで、は、「縮小」モデルの下での二乗誤差の合計であり、「大きな」モデル内にネストし、は、 2つのモデル。'big'モデルの追加の変数には線形の説明力がないという帰無仮説では、統計量はおよびの自由度を持つFとして分布されます。SSE(R)BdfdfR−dfBdfBF= (SSE(R )− SSE(B ))/(dfR− dfB)SSE(B) / dfB、F=(SSE(R)−SSE(B))/(dfR−dfB)SSE(B)/dfB, F = \frac{(\mbox{SSE}(R) - \mbox{SSE}(B))/(df_R - df_B)}{\mbox{SSE}(B)/df_B}, SSE(R)SSE(R)\mbox{SSE}(R)BBBdfdfdfdfR− dfBdfR−dfBdf_R - df_BdfBdfBdf_B しかし、代替案の下での分布はどうですか?私はそれが非中心Fであると思います(二重非中心ではないことを願っています)が、非中心パラメーターが正確に何であるかについての参照は見つかりません。私はそれが真の回帰係数、おそらくは計画行列に依存すると推測しますが、それを超えると私はよくわかりません。Xββ\betaバツXX


1
片側信頼区間は95%のカバレッジを持つことができますか
アルファレベルがの片側(片側)仮説が与えられたとしたら.05、95%の 信頼区間について話し合えるのでしょうか。 たとえば、片側Zまたはt検定に対して「片側」および「両側」の信頼区間を別々に構築できますか?片側検定が与えられた場合、これらの各信頼区間の「解釈」は何でしょうか? これについて少し混乱していますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
対立仮説を受け入れることは可能ですか?
私はここにいくつかの関連質問の承知している(例えば、ヌルを取り巻く仮説テストの用語、それは帰無仮説を証明することは可能ですか?)私は以下の私の質問に対する明確な答えを知りません。 コインが公正であるかどうかをテストする仮説テストを想定します。2つの仮説があります。 H0:p (h e a d)= 0.5H0:p(head)=0.5H_0: p(head)=0.5 H1:p (h e a d)≠ 0.5H1:p(head)≠0.5H_1: p(head)\neq0.5 5%の有意水準を使用すると仮定すると、2つのケースが考えられます。 データを取得してp値が0.05未満であることがわかった場合、「有意水準5%の場合、を拒否します」とます。H0H0H_0 p値が0.05より大きい場合、「有意水準5%の場合、拒否することはできません。」とます。H0H0H_0 私の質問は: ケース1の場合、「を受け入れる」というのは正しいことですか?H1H1H_1 直感的に、そして私が過去に学んだことから、仮説テストの結果として何かを「受け入れる」ことは常に正しくないと感じています。一方、この場合、は「空間」全体をカバーするため、「reject」と「accepting」はまったく同じに見えます。別の考えとして、「私たちはを受け入れる」と言うのは間違っているという次のアイデアも考えられます。H 1 H 0 H 1 H 1H0H0H_0H1H1H_1H0H0H_0H1H1H_1H1H1H_1 が真でないと信じるほど強い証拠がありますが、が正しいと信じるほど強い証拠はないかもしれません。したがって、「拒否」が自動的に「受け入れ」を意味するわけではありません。H 1 H 0 H 1H0H0H_0H1H1H_1H0H0H_0H1H1H_1 それで、正しい答えは何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.