統計とビッグデータ t-test

5

AとBというラベルの付いた2つのデータグループ（それぞれ200個のサンプルと1つの機能を含むなど）があり、それらが異なるかどうかを知りたいとします。私はできた： a）統計的検定（t検定など）を実行して、統計的に異なるかどうかを確認します。 b）教師付き機械学習を使用します（サポートベクトル分類子またはランダムフォレスト分類子など）。データの一部でこれをトレーニングし、残りの部分で検証できます。機械学習アルゴリズムがその後残りを正しく分類する場合、サンプルが微分可能であると確信できます。 c）教師なしアルゴリズム（K-Meansなど）を使用して、すべてのデータを2つのサンプルに分割します。次に、これらの2つのサンプルがラベルAとBに一致するかどうかを確認できます。私の質問は：これら3つの異なる方法はどのように重複/排他的ですか？ b）とc）は科学的な議論に役立ちますか？方法b）とc）のサンプルAとBの違いの「有意性」を取得するにはどうすればよいですか？データに1つの機能ではなく複数の機能がある場合、何が変わりますか？サンプル数が異なる場合、たとえば100対300の場合はどうなりますか？

29 machine-learning hypothesis-testing t-test unsupervised-learning supervised-learning

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

ペアワイズt検定のいずれも重要でない場合、ANOVAは重要ですか？

一方向（グループ、または「レベル」）ANOVAは、ペアワイズt検定のいずれも実行しない場合に有意差を報告することは可能ですか？N （N − 1 ）/ 2N> 2N>2N>2N（N− 1 ）/ 2N(N−1)/2N(N-1)/2 で、この答え @whuberは書きました：グローバルANOVA F検定は、平均のペアのいずれの個々の[未調整ペアワイズ] t検定も有意な結果をもたらさない場合でも、平均の差を検出できることはよく知られています。どうやらそれは可能ですが、方法はわかりません。それはいつ起こり、そのようなケースの背後にある直感は何でしょうか？たぶん誰かがそのような状況の簡単なおもちゃの例を提供できますか？さらなるコメント：明らかに反対の可能性があります：全体的なANOVAは有意ではない場合がありますが、ペアワイズt検定のいくつかは誤って有意差を報告します（つまり、それらは偽陽性です）。私の質問は、多重比較t検定の非調整標準に関するものです。調整されたテスト（たとえば、TukeyのHSD手順）が使用される場合、全体のANOVAが重要であっても、それらのどれも重要でないことが判明する可能性があります。ここでは、いくつかの質問で説明します。たとえば、全体的な有意なANOVAを得ることができますが、Tukeyの手順との有意なペアワイズ差はありません。および有意なANOVA相互作用、ただし有意でないペアワイズ比較。更新。私の質問はもともと、通常の2標本ペアワイズt検定に言及していました。ただし、@ whuberがコメントで指摘したように、ANOVAのコンテキストでは、t検定は通常、グループ内分散のANOVA推定値を使用して、すべてのグループにプールされた事後の対比として理解されます（2 -サンプルt検定）。したがって、実際には私の質問には2つの異なるバージョンがあり、両方の答えは肯定的であることがわかりました。下記参照。

29 statistical-significance anova t-test post-hoc

2

機械学習分類器のパフォーマンスを統計的に比較する方法は？

推定された分類精度に基づいて、ある分類子が別の分類子よりもベースセットで統計的に優れているかどうかをテストします。各分類子について、トレーニングとテストのサンプルを基本セットからランダムに選択し、モデルをトレーニングして、モデルをテストします。これを各分類子に対して10回行います。したがって、各分類器について10個の推定分類精度測定値があります。ベースデータセットで、がよりも優れた分類器であるかどうかを統計的にテストするにはどうすればよいですか。どのt検定を使用するのが適切ですか？classifier1classifier1classifier 1classifier2classifier2classifier 2

29 machine-learning classification t-test

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

6

部分的にペアリングされたデータと部分的にペアリングされていないデータのt検定

調査員は、いくつかのデータセットの複合分析を作成したいと考えています。一部のデータセットには、治療AとBのペアの観測値があります。他のデータセットには、ペアになっていないAとBのデータがあります。このような部分的にペアになったデータのt検定の適応、または尤度比検定のリファレンスを探しています。私は（今のところ）等分散の正規性を仮定し、Aの母平均は各研究（およびB）でも同じであると仮定します。

28 hypothesis-testing t-test paired-data change-scores

4

サンプルサイズ、サンプル平均、母平均のみがわかっているスチューデントのt検定を実行する方法は？

スチューデントのは、サンプルの標準偏差sが必要です。ただし、サンプルサイズとサンプル平均のみがわかっている場合、sの計算方法は？tttssssss たとえば、サンプルサイズがでサンプル平均が112の場合、それぞれ112の値を持つ49個の同一サンプルのリストを作成しようとします。予想どおり、サンプルの標準偏差は0です。これにより、t検定でゼロ除算の問題が発生します。494949112112112494949112112112000ttt 追加データ： ACME North Factoryの労働者の平均収入は200 です。ACMEサウスファクトリーの49人の労働者のランダムサンプルの年間収入は112 ドルでした。この違いは統計的に有意ですか？$200$200\$200494949$112$112\$112 人口平均が200 だと言ってもいいですか？$200$200\$200

28 t-test standard-deviation small-sample

2

対応のないt検定の代わりにウィルコクソンのランクサム検定を使用する場合

これは、フランク・ハレルがここに書いたことのフォローアップの質問です。私の経験では、t分布が正確であるために必要なサンプルサイズは、多くの場合、手元のサンプルサイズよりも大きくなります。ウィルコクソンの符号付きランク検定は、あなたが言ったように非常に効率的であり、堅牢であるため、ほとんどの場合、t検定よりもそれを好む私がそれを正しく理解している場合-一致しない2つのサンプルの位置を比較する場合、サンプルサイズが小さい場合、対応のないt検定よりもウィルコクソンのランクサム検定を使用することをお勧めします。 2つのグループのサンプルサイズが比較的大きい場合でも、対応のないt検定よりもウィルコクソンのランクサム検定を好む理論的な状況はありますか？この質問に対する私の動機は、単一サンプルのt検定で、歪んだ分布のそれほど小さくないサンプルにそれを使用すると、誤ったタイプIエラーが生じるという観察から生じています。 n1 <- 100 mean1 <- 50 R <- 100000 P_y1 <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) P_y1[i] <- t.test(y1 , mu = mean1)$p.value } sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error

26 t-test wilcoxon-mann-whitney

1

t検定の死亡の報告は非常に誇張されていますか？

CVの昔からの古典を読んで、はっきりさせたいと思う声明に出くわしました。これが投稿であり、私の質問は最後の発言に言及しています。「私が伝えた知識はすべて時代遅れであることに注意する必要があります。おそらく、t検定を実行するように教えられた場所であればどこでもWilcoxonテストを使用したいでしょう。」サンプル平均の分布がt検定を実行するのに十分に正常であると仮定するのが妥当かどうかについての心配がないことは、明らかに大きな利点です。そして、コンピューターは、2つのデータベクトル間の差の長いリストを簡単にランク付けできることを確認します。それで、t検定は本当に過去のものですか？順列テストはどうですか？通常、数行のコードを書くという意味で、あまりにもアドホックですか？

25 hypothesis-testing t-test permutation-test wilcoxon-mann-whitney

5

サンプルの分布が非正規の場合、独立したサンプルのt検定はどの程度堅牢ですか？

サンプルの分布が正規性から外れている場合、t検定は「合理的に堅牢」であると読みました。もちろん、重要なのは差異のサンプリング分布です。2つのグループのデータがあります。グループの1つは、従属変数に大きく偏っています。サンプルサイズは両方のグループで非常に小さくなっています（一方のグループではn = 33、もう一方のグループでは45）。これらの条件下で、t検定は正規性の仮定の違反に対してロバストになると仮定する必要がありますか？

24 t-test assumptions normality-assumption robust

6

5ポイントのリッカートアイテムのグループの違い

この質問に続いて：5ポイントのリッカート項目（例：人生に対する満足度：不満に満足）で、2つのグループ（例：男性と女性）の中心傾向の違いをテストしたいと想像してください。t検定はほとんどの目的に対して十分に正確であると思いますが、グループ平均間の差のブートストラップ検定は多くの場合、信頼区間のより正確な推定値を提供します。どの統計検定を使用しますか？

22 t-test ordinal-data likert scales

1

線形モデルとしての一般的な統計検定

（更新：私はこれをより深く掘り下げ、結果をここに投稿しました）名前付き統計検定のリストは膨大です。一般的なテストの多くは、1標本t検定はただである例えば、単純な線形モデルから推論に頼る=β+εyのヌルモデルに対してテストされ、Y =μ+εことすなわちβ=μ μは、いくつかのヌルです値-通常はμ= 0。これは、名前付きモデルのローテート学習、それらを使用するタイミング、およびそれらが互いに関係がないかのように仮定することよりも、教育目的にとってかなり有益であることがわかりました。そのアプローチは促進しますが、理解を促進しません。ただし、これを収集する優れたリソースが見つかりません。私は、モデルからの推論の方法よりも、基礎となるモデル間の同等性にもっと興味があります。私が見る限り、これらすべての線形モデルの尤度比検定は、「古典的な」推論と同じ結果をもたらします。エラー項を無視し、すべての帰無仮説が効果の欠如であると仮定して、これまでに学んだ同等性を次に示します。ε 〜N（0 、σ2）ε〜N（0、σ2）\varepsilon \sim \mathcal N(0, \sigma^2) 1標本t検定：。y=β0H0：β0= 0y=β0H0：β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 対応のある標本のt検定： y2− y1= β0H0：β0= 0y2−y1=β0H0：β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 これは、ペアワイズ差分の1サンプルt検定と同じです。 2標本t検定： y= β1∗ x私+ β0H0：β1= 0y=β1∗バツ私+β0H0：β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: …

22 regression correlation anova t-test linear-model

1

F比ではなく分散の等性のレーベン検定を行う理由

SPSSは、Levene検定を使用して、独立グループt検定手順の分散の均一性を評価します。 2つのグループの分散比の単純なF比よりも、レーベン検定が優れているのはなぜですか？

21 hypothesis-testing anova variance t-test heteroscedasticity

3

ある値に対するモデル係数（回帰勾配）のテスト

Iは、（一般）線形モデルを有する場合、Rは、（、lm、、glm 、...）、どのように0以外の値に対して係数（回帰勾配）をテストすることができますか？モデルの要約では、係数のt検定結果が自動的に報告されますが、これは0との比較のみです。別の値と比較したいと思います。glsglmm ここでテストされた値であるreparametrizing y ~ xasを使用してトリックを使用し、この再パラメーター化されたモデルを実行できることを知っていますが、元のモデルで動作する可能性のある単純なソリューションを探します。y - T*x ~ xT

20 r regression t-test

5

対応のあるt検定と非対応のt検定

20匹のマウスがあると仮定します。何らかの方法でマウスをペアリングし、10ペアを取得します。この質問の目的のために、それはランダムなペアリングであるかもしれません、または、同じ性別、同じ性別、同じ体重のマウスをペアリングしようとするような賢明なペアリングであるかもしれません、または、それは可能な限り等しくない重量のマウスをペアにしようとしています。次に、乱数を使用して、各ペアの1匹のマウスをコントロールグループに割り当て、もう1匹のマウスを治療対象グループに割り当てます。私は今、実験を行い、治療対象のマウスのみを治療しますが、それ以外の点では、今行った準備にはまったく注意を払いません。結果を分析する場合、ペアになっていないt検定またはペアになったt検定を使用できます。もしあれば、どのように答えは異なりますか？（私は基本的に、推定する必要のある統計的パラメーターの体系的な違いに興味があります。）私がこれを尋ねる理由は、最近私が関与した論文が、ペアになっていないt検定ではなくペアになったt検定を使用しているとして生物学者によって批判されたためです。もちろん、実際の実験では、状況は私がスケッチした状況ほど極端ではなく、私の意見では、ペアリングの正当な理由がありました。しかし、生物学者は同意しませんでした。私がスケッチした状況では、ペアリングが不適切であっても、ペアリングされていないテストではなくペアリングされたt検定を使用して、統計的有意性を誤って改善する（p値を下げる）ことは不可能だと思われます。ただし、マウスのペアが不適切な場合、統計的有意性が悪化する可能性があります。これは正解？

20 t-test paired-data

タグ付けされた質問 「t-test」

タグ付けされた質問「t-test」