タグ付けされた質問 「t-test」

2つのサンプルの平均、または1つのサンプルの平均(またはパラメーター推定値)を指定された値と比較するためのテスト。発明者の仮名にちなんで「学生t検定」としても知られています。

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

1
単一のサンプルを平均と比較する順列検定
人々が単一のサンプルを平均と比較するために順列テストを実装する場合(たとえば、順列t検定で行うように)、平均はどのように処理されますか?順列テストの平均とサンプルを取る実装を見てきましたが、それらが実際に内部で何をしているのかは不明です。仮定された平均に対して1つのサンプルの順列検定(たとえば、t検定)を行う意味のある方法さえありますか?または、代わりに、それらはデフォルトで非置換テストにデフォルトで設定されていますか?(たとえば、順列関数を呼び出すか、順列テストフラグを設定しても、デフォルトで標準のt検定または同様の関数に設定されます) 標準の2サンプル順列検定では、2つのグループがあり、ラベルの割り当てをランダム化します。しかし、1つの「グループ」が想定されている場合、これはどのように処理されますか?当然のことながら、仮定された平均自体にはサンプルサイズがありません。それでは、平均を順列形式に変換する典型的な方法は何ですか?「平均」サンプルは単一点と見なされますか?サンプルグループと同じサイズのサンプルですか?無限サイズのサンプル? 仮定された平均が仮定されていることを考えると、それは技術的には無限のサポート、または仮定したいサポートが技術的にあると言えます。ただし、どちらも実際の計算にはあまり役立ちません。値がすべて平均に等しい、同じサイズのサンプルは、いくつかのテストで時々行われるもののようです(たとえば、ペアの残りの半分に想定される位置を入力するだけです)。これは、仮定された平均が分散なしで正しかったかどうかを確認できる長さの等しいサンプルであるため、少し意味があります。 だから私の質問はこれです:実際には、2番目のセットが平均(または同様の抽象的な仮定値)である場合、人々は実際に置換テストスタイルのラベルのランダム化をエミュレートしますか?もしそうなら、人々はこれを行うときにラベルのランダム化をどのように処理しますか?

2
この単一の値はその分布と一致しますか?
これは非常に素朴な質問のように感じますが、私は答えを見るのに苦労しています。 30個の値のセットが1つあります。独立して私は31番目の値を得ました。帰無仮説は、31番目の値が同じ分布の一部であるというものです。代替案は、その違いです。ある種のp値または尤度の尺度が必要です。 私が持っていたいくつかの考え: これは、2つのサンプルのt検定を実行するのに似ています。ただし、2番目のサンプルの場合、1つの値しかなく、30の値が必ずしも正規分布しているわけではありません。 30回の測定の代わりに10000回の測定をした場合、単一の測定のランクがいくつかの有用な情報を提供する可能性があります。 この尤度またはp値を計算するにはどうすればよいですか? ありがとう!ヤニック

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
2つのグループのサンプルサイズが小さく、バランスが悪い-どうすればよいですか?
比較したい2つのグループ(つまり、サンプル)のデータがありますが、サンプルの合計サイズは小さく(n = 29)、非常に不均衡です(n = 22 vs n = 7)。 これらのデータはロジスティックに収集するのが困難でコストがかかるため、明らかな解決策としての「より多くのデータの収集」はこの場合は役に立ちません。 いくつかの異なる変数(出発日、到着日、移行期間など)が測定されたため、複数のテストがあり、その一部は分散が大きく異なります(小さいサンプルほど分散が大きくなります)。 最初に同僚がこれらのデータに対してt検定を実行しましたが、一部はP <0.001で統計的に有意であり、別の者はP = 0.069で有意ではありませんでした。一部のサンプルは正規分布していましたが、その他は分布していませんでした。一部のテストでは、「等しい」分散からの大きな逸脱が含まれていました。 いくつか質問があります。 ここでt検定は適切ですか?そうでない場合、なぜですか?これは、分散の正規性と平等性の仮定が満たされているテストにのみ適用されますか? 適切な代替案は何ですか?おそらく順列検定ですか? 不等分散はタイプIのエラーを膨らませますが、どうやって?そして、小さな不均衡なサンプルサイズはタイプIエラーにどのような影響を与えますか?

2
テストでのマンホイットニーテストの能力
したがって、Mann Whitney U検定は、正規性と均一分散のt検定の仮定が満たされている場合、t検定と比較して約95%強力です。これらの仮定が満たされていない場合、Mann Whitney U検定はt検定よりも強力であることも知っています。私の質問は、仮定が満たされていないデータでのマンホイットニー検定は、仮定が満たされているデータでのt検定と同じくらい、またはほとんど強力ですか? テストで実行するという仮定に基づいて電力計算をしている人をよく目にするので、私は尋ねています。彼らはデータを収集した後、データを探索し、代わりにマンホイットニー検定を使用することを決定します。テストの変更が電力にどのように影響するかを再訪しません。 ありがとう!

2
一致したペアの自由度がでペアの数から1を引いた理由は何ですか?
Iは、以下のように"自由度"を知ることに慣れあなたは線形モデル有し、\ mathbf {Y} = \ mathbf {X} \ boldsymbol {\ベータ} + \ boldsymbol {\イプシロン} とmathbf {Yを\ } \ in \ mathbb {R} ^ n、\ mathbf {X} \ in M_ {n \ times p}(\ mathbb {R})ランクrの設計行列、\ boldsymbol {\ beta} \ in \ mathbb { R} ^ p、\ boldsymbol {\ epsilon} \ …

1
t検定の正規性の仮定に関する質問
t検定の場合、ほとんどのテキストによれば、母集団データは正規分布しているという仮定があります。なぜだかわかりません。t検定は、標本平均の標本分布が母集団ではなく正規分布であることのみを要求しませんか? t検定が最終的にサンプリング分布の正規性のみを必要とする場合は、母集団は任意の分布のように見えますか?適切なサンプルサイズがある限り。それは中心極限定理が述べていることではありませんか? (ここでは1標本または独立標本のt検定を参照しています)

1
t検定の定式化における学生(ゴセット)の貢献は何ですか?
最近の質問、関連する質問、およびソースを引用したが、最近になっていることを私は認識して作られた母分散のサンプルの推定値の補正は次のように呼ばれているベッセルの補正。ベッセルは1846年までに亡くなり(wikipediaの引用)、t検定は1908年に公開されました(Wikipediaの引用)。何らかの理由で、t検定の定式化におけるGosset(別名Student)の寄与は計算における使用であると常に想定していました。現在、この貢献は明らかにベッセルに属しているようです。この脈絡で、t検定の公式化におけるGossetの貢献は何でしたか?N− 1N−1N-1N− 1N−1N-1s2s2s^2


1
Tukey HSDテストは、t.testの未補正のP値よりもどのように重要ですか?
私は、「二元配置分散分析の事後的なペアワイズ比較」という投稿(この投稿に対応する)を見つけました。 dataTwoWayComparisons <- read.csv("http://www.dailyi.org/blogFiles/RTutorialSeries/dataset_ANOVA_TwoWayComparisons.csv") model1 <- aov(StressReduction~Treatment+Age, data =dataTwoWayComparisons) summary(model1) # Treatment is signif pairwise.t.test(dataTwoWayComparisons$StressReduction, dataTwoWayComparisons$Treatment, p.adj = "none") # no signif pair TukeyHSD(model1, "Treatment") # mental-medical is the signif pair. (出力はジャバラ付属) ペアになっている(調整されていないp値)t検定が失敗したときに、Tukey HSDが有意なペアを見つけることができる理由を誰かが説明できますか? ありがとう。 これがコード出力です > model1 <- aov(StressReduction~Treatment+Age, data =dataTwoWayComparisons) > summary(model1) # Treatment is signif Df Sum …

2
2つの異なる最小nを生成する不等サイズグループのt検定電力分析を実行できますか?
通常、Power Analysisを計算するためにaを実行するのは簡単ですminimum sample size。特に、私のお気に入りの統計計算環境であるRでは、簡単です。 ただし、私が行ったものやオンラインで参照できるものとは少し異なる電力分析を実施するように求められています。私が求められていることがさらに可能/有効かどうか疑問に思っています。 プロジェクトには基本的に2つunequal groupsの状態があり、これらの2つのグループは結果変数(顧客への電話の継続時間)に関して大幅に異なるという仮説があります。「コントロール」グループは40の州で構成され、約2,500の観測を生成しました。「テスト」グループには、約10の州と500の観測があります。 最初に、を計算するために使用したグループmeans+ を見つけましpooled standard deviationたEffect Size。それから私はと呼ばれるパッケージを使用pwr中にR、私は0.05意義と0.8パワー与えられたグループごとに約135の観測の最小サンプルサイズを、必要なことがわかりました。 ただし、現在のように1つのグループを他のグループよりも大きくしたいため、グループごとに2つの異なる観測値の最小数または状態数の観点からの人口の最小%または「テスト」グループに入らなければならない観察。 2つのサンプルt検定(R関数pwr.t2n.test)のパワー分析が表示されますが、少なくとも1つのサンプルサイズを指定する必要がありますが、両方のグループの最小サンプルサイズを(数値またはパーセンテージ)とこの関数は、2つのグループの標準偏差の違いを反映していません。 これは可能ですか、それとも機能しないことを伝えますか?

2
標本がANOVAまたはt検定には大きすぎることはありますか?
100万近くのデータセットがあり、平均比較検定(ANOVAまたはt検定)を実行するたびに、SPSSで.0001未満の有意水準が得られます。私のサンプルが非常に大きいので、もちろん、平均を比較すると、大幅に異なるものとして表示されることを心配しています。標本がANOVAまたはt検定には大きすぎることはありますか?

2
p値と信頼区間の不一致
これはSPSSのt検定に関する質問です。 2つのグループがあり、2つの平均が等しいかどうかをテストしたいと思います。ブートストラップでt検定を使用しています。最終的に、p値<0.005が得られました。これにより、2つの母集団の平均は等しいという帰無仮説が却下されますが、私の場合、ゼロは1000サンプルに基づく95%BCaブートストラップ信頼区間内にあります。 。 平等な平均の仮説はまだ却下されますか?

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.