タグ付けされた質問 「t-test」

2つのサンプルの平均、または1つのサンプルの平均(またはパラメーター推定値)を指定された値と比較するためのテスト。発明者の仮名にちなんで「学生t検定」としても知られています。

4
病院ベースのRCTでの滞在期間データの分析に最適な方法は?
RCTからの入院期間(LOS)データを分析する最適な方法についてコンセンサスがあるかどうか知りたいです。これは通常、非常に右に歪んだ分布であり、ほとんどの患者は数日から1週間以内に退院しますが、残りの患者は非常に予測できない(時にはかなり長い)滞在をしていて、分布の右端を形成します。 分析のオプションは次のとおりです。 t検定(存在しない可能性が高い正常性を想定) マンホイットニーUテスト ログランク検定 グループ割り当てに関する条件付きCox比例ハザードモデル これらの方法のどれかが明らかに高い力を持っていますか?

1
一連の広告のうち、クリック率が最も高いものを特定するために必要なサンプルサイズ
私は貿易のソフトウェアデザイナーであり、クライアントのプロジェクトに取り組んでいます。私の分析が統計的に正しいことを確認したいと思います。 次のことを考えてみましょう: 私たちは持っているのn広告(N <10)、そして私たちは、単に最高を実行する広告を知りたいです。 広告サーバーはこれらの広告の1つをランダムに配信します。ユーザーが広告をクリックすると成功します-私たちのサーバーはそれを追跡します。 前提:信頼区間:95% 質問:推定サンプルサイズはどのくらいですか?(配信する必要がある広告の合計数)、なぜですか?(私はダミーです) ありがとう

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
巨大なサンプルでt検定を実行する方法は?
私には2つの母集団があり、1つはN = 38,704(観測数)、もう1つはN = 1,313,662です。これらのデータセットには、25個までの変数があり、すべて連続しています。各データセットのそれぞれの平均を取り、式を使用して検定統計量を計算しました t =平均差/標準誤差 問題は自由度です。df = N1 + N2-2の式により、テーブルが処理できる以上の自由度が得られます。これについて何か提案はありますか?ここでt統計を確認する方法。t検定がサンプルの処理に使用されることは知っていますが、これを大きなサンプルに適用するとどうなるでしょうか。
11 t-test 

2
2つの平均を比較するためにt検定の代わりに分散分析を使用することは間違っていますか?
給与の分布があるので、男性と女性の平均の違いを比較したいと思います。2つの平均を比較するための学生のT検定があることは知っていますが、分散分析を提案した後、分散分析は3つ以上の平均を比較するためのものであるという批判を受けました。 2つだけの手段を比較するためにそれを使用することで何が(もしあれば)間違っていますか?

2
分散が等しくない2標本のt検定に対応するベイジアンとは何ですか?
私は、分散が等しくない2標本t検定(ウェルチ検定)の対応するベイズ法を探しています。ホテリングのT統計のような多変量検定も探しています。参考に感謝します。 多変量の場合、と(z 1、⋯ 、z N)があり、y i(resp z i)は標本平均、標本標準偏差と数のショートカットですポイントの。我々は、点の数は、すべてのために同じデータセット全体にわたって一定、標準偏差であると仮定することができ、Y I(それぞれのZ I)のサンプル手段は、Y I(それぞれのZはI(y1,⋯,yN)(y1,⋯,yN)(y_1,\cdots,y_N)(z1,⋯,zN)(z1,⋯,zN)(z_1,\cdots,z_N)yiyiy_iziziz_iyiyiy_iziziz_iyiyiy_iziziz_i)は相関しています。標本平均をプロットすると、それらは互いに続き、それらを接続することにより、滑らかに変化する関数が得られます。現在、いくつかの部分に機能がと一致するZ機能、しかしため他人にそれはないmは電子N (Y Iを)- M eはnは(Z I)yyyzzzが大きくなります。このことを定量化したいと思います。 mean(yi)−mean(zi)std(yi)+std(zi)mean(yi)−mean(zi)std(yi)+std(zi)\frac{mean(y_i)-mean(z_i)}{std(y_i)+std(z_i)}

4
独立した2つのサンプルのt検定を視覚化する方法は?
独立した2つのサンプルのt検定の結果を視覚化する最も一般的な方法は何ですか?数値表はより頻繁に使用されますか、それとも何らかのプロットですか?目標は、何気ない観察者がこの図を見て、おそらく2つの異なる集団からのものであることをすぐに確認することです。

2
多重線形回帰の最小観測数
多重線形回帰を行っています。21の観測値と5つの変数があります。私の目的は、変数間の関係を見つけることです データセットは重回帰を実行するのに十分ですか? t検定の結果、3つの変数が有意ではないことが明らかになりました。重要な変数を使用して回帰を再度実行する必要がありますか(または、最初の回帰で結論を得るには十分ですか)?私の相関行列は次のとおりです var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var 4 -0.1 0.3 0.7 1.0 -0.7 -0.9 var 5 -0.3 -0.4 …

1
Wilcoxonの符号付き順位検定は、t検定または符号検定のどちらよりも望ましい状況ですか?
いくつかの議論(下記)の後、焦点の合った質問のより明確な画像が得られたので、ここに改訂された質問がありますが、コメントの一部は元の質問と関係がないように見えるかもしれません。 と思われるt検定は、対称分布のために迅速に収束することを、符号付き順位検定は、対称性を仮定し、そしてそれは、対称的な分布のために、手段/ pseudomedians /中央値の間に違いはありません。もしそうなら、どのような状況下で、比較的経験の浅い統計学者は、t検定と符号検定の両方を利用できるときに、符号付き順位検定が役立つと思いますか?私の(例えば社会科学)生徒の1人が、ある治療が別の治療よりも優れているかどうかをテストしようとしている場合(比較的簡単に解釈される測定、たとえば、「平均」差の概念によって)、署名する場所を見つけるのに苦労しています-私の大学では、一般的に教えられているように見えますが、ランクテストは無視されています。


3
従属標本t検定のコーエンd
簡単な質問:コーエンのdが従属サンプルのt検定に対して2つの異なる方法を計算するのを見てきました(たとえば、前/後の時点で薬物の有効性をテストするサンプル内設計)。 コーエンdの方程式の分母に変更スコアの標準偏差を使用します。 コーエンdの方程式の分母に事前テストスコアの標準偏差を使用します。 どちらを使用するか、および/またはどちらのオプションをいつ使用するかを実際に説明する文献はほとんど見つかりませんでした。 簡単な考えはありますか?

4
平均差がほぼ0の場合、t検定はどのように統計的に有意ですか?
2つの母集団のデータを比較して、処理間の差が統計的に有意であるかどうかを確認しようとしています。データセットは、2つのセットの違いがほとんどない正規分布のように見えます。平均差は0.00017です。平均値に差がないという帰無仮説を棄却できないと予想して、対応のあるt検定を実行しましたが、計算したt値は臨界t値よりもはるかに高くなっています。

2
1つの標本t検定では、何が分散している場合が起こる推定標本平均がで置き換えられる
帰無仮説は1標本t検定、想定。統計値は、その後で、T = ¯ X - μ 0μ=μ0μ=μ0\mu=\mu_0サンプル標準偏差sを使用。推定では、Sを、1サンプルに観測値を比較した平均¯X:t=x¯¯¯−μ0s/n√t=x¯−μ0s/nt=\frac{\overline{x}-\mu_0}{s/\sqrt{n}}ssssssx¯¯¯x¯\overline{x} 。s=1n−1∑ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2} 我々が想定した場合しかし、与えられた真であることが、一つは、標準偏差を推定でき、S *を使用して、μ 0の代わりに、サンプルの平均¯ X:μ0μ0\mu_0s∗s∗s^*μ0μ0\mu_0x¯¯¯x¯\overline{x} 。s∗=1n−1∑ni=1(xi−μ0)2−−−−−−−−−−−−−−−−√s∗=1n−1∑i=1n(xi−μ0)2s^*=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\mu_0)^2} 結果的に、帰無仮説をSDの推定にも使用するため、このアプローチはより自然に見えます。結果として得られる統計がテストで使用されるかどうか知っている人はいますか?

2
負けが繰り返された後、人々が脱落したりベットを減らしたりするかどうかをテストする
私は、各ラウンドの後に5ラウンド以上の賭けで損耗を伴う一連の勝ち負けの賭けに関するデータを持っています。次のようなディシジョンツリーを使用してデータを表示しています。 ツリーの上部にあるノードは、勝ちの賭けをしているノードであり、ツリーの下部にあるノードは、負けの賭けの実行を持っています。(a)各ノードでの消耗(b)各ノードでの平均ベットサイズの変化を確認したいと思います。前のノードからの各ノードの消耗率と生存率(確率が50%の場合に各ノードで予想される人数を使用)を調べています。たとえば、確率が各ノードで50%の場合、開始された1000のうち、約500人が2番目のノードWとLにいるはずです。仮説は(a)損耗率賭け(b)は、賭けのサイズが敗者の後に減少し、勝者の後に引き上げられることを意味します。 最初に、これを非常に単純な一変量設定で実行したいだけです。50人が脱落した場合、ノードWWからノードWWWへの平均ベットサイズの変化が統計的に有意であることを示すために、どのようにt検定を実行できますか?これが正しいアプローチであるかどうかはわかりません。後続の各ベットは独立していますが、敗者の後に人々は脱落しているため、サンプルは一致しません。同じクラスが一連の試験を次々と受験し、誰も脱落することのない場合であれば、適切なt検定の実行方法は理解できますが、これは少し異なると思います。 これどうやってするの?また、結果が少数の顧客によって歪められている場合、どうすれば上位5%と下位5%を取り除くことができますか?累積賭け金が最も高い顧客をベット1-3から削除するだけですか? 図が生成された元のデータがあるので、各ノードに平均値、標準誤差、標準誤差などがあります。

1
ウェルチ(1947)のおおよその自由度またはサッタースウェイト(1946)を使用する必要がありますか?
ウェルチのt検定に使用する自由度のおおよその正しい式について混乱しています。Satterthwaite(1946)の公式は最も一般的に引用されている公式ですが、Welchは1947年に代替案を提供しました。 サッタースウェイトの公式: (s2バツ/ nバツ+ s2y/ ny)2(s2バツ/ nバツ)2/( nバツ− 1 )+ (s2y/ ny)2/( ny− 1 )(sx2/nx+sy2/ny)2(sx2/nx)2/(nx−1)+(sy2/ny)2/(ny−1)\frac{\left(s_x^2/n_x +s_y^2/n_y\right)^2}{(s_x^2/n_x )^2/(n_x-1)+(s_y^2/n_y )^2/(n_y-1)} ウェルチの公式: − 2 + (s2バツ/ nバツ+ s2y/ ny)2(s2バツ/ nバツ)2/( nバツ+ 1 )+ (s2y/ ny)2/( ny+ 1 )−2+(sx2/nx+sy2/ny)2(sx2/nx)2/(nx+1)+(sy2/ny)2/(ny+1)-2+ \frac{\left(s_x^2/n_x +s_y^2/n_y\right)^2}{(s_x^2/n_x )^2/(n_x+1)+(s_y^2/n_y )^2/(n_y+1)} 参照: Satterthwaite、FE(1946)。「分散成分の推定値の近似分布」。Biometrics Bulletin、2、6、110-114ページ。 ウェルチ、BL(1947)。「いくつかの異なる母集団分散が関与する場合の「学生」問題の一般化」。Biometrika、34、1 / 2、28-35ページ。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.