タグ付けされた質問 「paired-data」

ペアになったデータは、実験的または観察的研究デザインが2つのユニットを2つ組として意図的にサンプリングし、比較の基礎を形成するときに発生します。ペアになったデータまたはその分析に関する質問には、このタグを使用してください。

6
部分的にペアリングされたデータと部分的にペアリングされていないデータのt検定
調査員は、いくつかのデータセットの複合分析を作成したいと考えています。一部のデータセットには、治療AとBのペアの観測値があります。他のデータセットには、ペアになっていないAとBのデータがあります。このような部分的にペアになったデータのt検定の適応、または尤度比検定のリファレンスを探しています。私は(今のところ)等分散の正規性を仮定し、Aの母平均は各研究(およびB)でも同じであると仮定します。

2
ウィルコクソンの順位和検定とウィルコクソンの符号付き順位検定の違い
Wilcoxon Rank-Sum Testと、ペアの観測値を使用したWilcoxon Signed-Rank Testの理論的な違いは何かと思っていました。Wilcoxon Rank-Sum Testは2つの異なるサンプルで異なる量の観測値を許可するのに対し、ペアのサンプルのSigned-Rankテストはそれを許可しませんが、どちらも同じようにテストするようです。Wilcoxon Rank-Sum Testを使用する必要がある場合と、ペアの観測値を使用してWilcoxon Signed-Rank Testを使用する必要がある場合、誰かがさらに背景/理論的な情報を提供できますか?

5
対応のあるt検定と非対応のt検定
20匹のマウスがあると仮定します。何らかの方法でマウスをペアリングし、10ペアを取得します。この質問の目的のために、それはランダムなペアリングであるかもしれません、または、同じ性別、同じ性別、同じ体重のマウスをペアリングしようとするような賢明なペアリングであるかもしれません、または、それは可能な限り等しくない重量のマウスをペアにしようとしています。次に、乱数を使用して、各ペアの1匹のマウスをコントロールグループに割り当て、もう1匹のマウスを治療対象グループに割り当てます。私は今、実験を行い、治療対象のマウスのみを治療しますが、それ以外の点では、今行った準備にはまったく注意を払いません。 結果を分析する場合、ペアになっていないt検定またはペアになったt検定を使用できます。もしあれば、どのように答えは異なりますか?(私は基本的に、推定する必要のある統計的パラメーターの体系的な違いに興味があります。) 私がこれを尋ねる理由は、最近私が関与した論文が、ペアになっていないt検定ではなくペアになったt検定を使用しているとして生物学者によって批判されたためです。もちろん、実際の実験では、状況は私がスケッチした状況ほど極端ではなく、私の意見では、ペアリングの正当な理由がありました。しかし、生物学者は同意しませんでした。 私がスケッチした状況では、ペアリングが不適切であっても、ペアリングされていないテストではなくペアリングされたt検定を使用して、統計的有意性を誤って改善する(p値を下げる)ことは不可能だと思われます。ただし、マウスのペアが不適切な場合、統計的有意性が悪化する可能性があります。これは正解?

5
クロスオーバー(ペア)実験のエラーバーを表示する方法
次のシナリオは、調査担当者(I)、校閲者/編集者(R、CRANとは無関係)、およびプロット作成者としての私(M)のトリオで最もよくある質問になりました。(R)は、各プロットがエラーバーを持たなければならないことだけを知っている典型的な医療大ボスレビューアであると仮定できます。そうでなければ、それは間違っています。統計レビューアが関与している場合、問題はそれほど重大ではありません。 シナリオ 典型的な薬理学的クロスオーバー研究では、2つの薬物AとBがグルコースレベルへの影響についてテストされます。各患者は、キャリーオーバーがないという仮定の下で、ランダムな順序で2回テストされます。主要エンドポイントはグルコース(BA)の違いであり、対応のあるt検定が適切であると想定しています。 (I)両方の場合の絶対グルコースレベルを示すプロットが必要です。彼は(R)のエラーバーに対する欲求を恐れ、棒グラフの標準エラーを求めます。ここで棒グラフ戦争を始めないでください。 (I):それは真実ではない。バーは重なり、p = 0.03?それは私が高校で学んだことではありません。 (M):ここにはペアのデザインがあります。要求されたエラーバーは完全に無関係です。重要なのは、プロットに示されていないペアの差のSE / CIです。選択肢があり、データが多すぎない場合は、次のプロットを選択します 追加1:これは、いくつかの応答で言及された平行座標プロットです (M):線はペアリングを示し、ほとんどの線が上昇します。勾配が重要なので正しい印象です(わかりました、これはカテゴリですが、それでもなお)。 (I):その写真は紛らわしいです。誰もそれを理解しておらず、エラーバーもありません(Rは潜んでいます)。 (M):差の関連する信頼区間を示す別のプロットを追加することもできます。ゼロラインからの距離は、効果の大きさの印象を与えます。 (I):誰もやらない (R):そして貴重な木を無駄にします (M):(良いドイツ人として):はい、木の上のポイントが取られます。ただし、複数の治療法と複数のコントラストがある場合は、これを使用します(公開することはありません)。 提案はありますか?プロットを作成する場合、Rコードは以下のとおりです。 # Graphics for Crossover experiments library(ggplot2) library(plyr) theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines"))) n = 20 effect = 5 set.seed(4711) glu0 = rnorm(n,120,30) glu1 = glu0 + rnorm(n,effect,7) dt = data.frame(patient = rep(paste0("P",10:(9+n))), treatment = rep(c("A","B"), each=n),glucose …

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
ペアのデータの2つの生存曲線を比較する
生存分析で状態変化を検出する2つの異なる方法を比較したいと思います。被験者のグループはより長い期間(数年)追跡されており、状態の変化が起こったかどうかを調べるために2つの検査方法が使用されています。1つの方法は年に2回、各被験者を調べるために使用され、2番目の方法は年に1回各被験者を調べるために使用されました。問題は、これら2つの方法がステータスの変化を検出する能力が体系的に異なるかどうかです。 私が考えるようになったテストは、2つのメソッドのKaplan-Meier曲線が異なるかどうかを確認するためのログランクテストです。ログランク検定を実行するときに、生存曲線が「ペア」になっている(つまり、同じ被験者に対して2つの方法が使用されている)ことは問題なのでしょうか。それはログランク検定の仮定の違反ですか、それともおそらく2つの曲線が関連していることを説明していないので、おそらく非効率的な検定ですか?観測内の依存関係を説明する代替分析の提案はありますか? たぶんこれは問題ではないかもしれませんが、多分私は考えすぎです。 さて、メソッドがステータスの変化を検出した時点だけが、ステータスの変化の本当の時間を知りません。私が考えていたのは、生存時間を、状態変化が検出されなかった最後の検査と状態変化が検出された検査との間の時間間隔の中間点に設定することでした。これは、年に2回使用される方法とは対照的に、年に1回だけ被験者を検査するために使用される方法の欠点を補うことができます。そして、これらのデータから生存曲線を作成します。


1
Wilcoxonの符号付き順位検定は、t検定または符号検定のどちらよりも望ましい状況ですか?
いくつかの議論(下記)の後、焦点の合った質問のより明確な画像が得られたので、ここに改訂された質問がありますが、コメントの一部は元の質問と関係がないように見えるかもしれません。 と思われるt検定は、対称分布のために迅速に収束することを、符号付き順位検定は、対称性を仮定し、そしてそれは、対称的な分布のために、手段/ pseudomedians /中央値の間に違いはありません。もしそうなら、どのような状況下で、比較的経験の浅い統計学者は、t検定と符号検定の両方を利用できるときに、符号付き順位検定が役立つと思いますか?私の(例えば社会科学)生徒の1人が、ある治療が別の治療よりも優れているかどうかをテストしようとしている場合(比較的簡単に解釈される測定、たとえば、「平均」差の概念によって)、署名する場所を見つけるのに苦労しています-私の大学では、一般的に教えられているように見えますが、ランクテストは無視されています。

4
平均差がほぼ0の場合、t検定はどのように統計的に有意ですか?
2つの母集団のデータを比較して、処理間の差が統計的に有意であるかどうかを確認しようとしています。データセットは、2つのセットの違いがほとんどない正規分布のように見えます。平均差は0.00017です。平均値に差がないという帰無仮説を棄却できないと予想して、対応のあるt検定を実行しましたが、計算したt値は臨界t値よりもはるかに高くなっています。

1
openMxを使用した一卵性双生児と兄弟双生児のSEM概念モデルでのパスの重みの選択
SEMモデルの指定と適合の方法を学ぶために、遺伝疫学分析のためにRパッケージOpenMxをレビューしています。私はこれが初めてなので、我慢してください。OpenMxユーザーガイドの 59ページの例に従っています。ここでは、次の概念モデルを描画します。 そして、パスを指定する際に、潜在的な「1」ノードの重みを顕在化したbmiノード「T1」と「T2」に0.6に設定しました。 関心のある主なパスは、各潜在変数からそれぞれの観測変数へのパスです。これらも推定され(したがって、すべて解放されます)、0.6の開始値と適切なラベルを取得します。 # path coefficients for twin 1 mxPath( from=c("A1","C1","E1"), to="bmi1", arrows=1, free=TRUE, values=0.6, label=c("a","c","e") ), # path coefficients for twin 2 mxPath( from=c("A2","C2","E2"), to="bmi2", arrows=1, free=TRUE, values=0.6, label=c("a","c","e") ), 0.6の値は、共分散の推定から来ているbmi1とbmi2(厳密のモノ接合子双子ペア)。2つの質問があります。 パスに0.6の「開始」値が与えられると彼らが言うとき、これはGLMの推定のように、初期値で数値積分ルーチンを設定するようなものですか? この値が一卵性双生児から厳密に推定されるのはなぜですか?

2
平均の違いと平均の違い
2つの独立したサンプルの平均を研究する場合、「2つの平均の差」を見ていると言われます。この手段我々は、人口1(から平均値を取る)、人口2から、そこから平均値を引く(ˉ Y 2)。だから、私たちの"二つの手段の違いは、"ある(ˉ Y 1 - ˉ Y 2)。y¯1y¯1\bar y_1y¯2y¯2\bar y_2y¯1y¯1\bar y_1y¯2y¯2\bar y_2 対のサンプル手段を検討するとき、我々は、我々は、「平均差」を見ていると言われ。これは、各ペア間の差を取り、次にそれらすべての差の平均を取ることによって計算されます。d¯d¯\bar d 私の質問は:Doが、我々は(同じことを得る - ˉ Y 2)その対ˉ D我々は2つのデータ列から、それらを計算して、初めてそれ二つの独立したサンプルと考えられ、2回目は、それがデータをペアと考えられている場合?2列のデータをいじってみましたが、値は同じようです。その場合、非定量的な理由で異なる名前が使用されていると言えますか?y¯1y¯1\bar y_1y¯2y¯2\bar y_2d¯d¯\bar d

5
非常に多くのペアのデータポイントをグラフィカルに表す良い方法は何ですか?
私の分野では、ペアのデータをプロットする通常の方法は、2つのグループの中央値と中央値のCIでオーバーレイする一連の細い傾斜線セグメントとしてです。 ただし、この種のプロットは、データポイントの数が非常に大きくなるため(私の場合、1万ペア程度)、読みにくくなります。 アルファを減らすことは少し助けになりますが、それでもまだ素晴らしいとは言えません。解決策を探しているときに、このホワイトペーパーに出くわし、「平行線プロット」を実装することにしました。繰り返しますが、これは少数のデータポイントに対して非常にうまく機能します。 NNN たとえば、ボックスプロットやバイオリンを使用して2つのグループの分布を個別に表示し、2つの中央値/ CIを示す上部にエラーバーを付けて線をプロットすることはできると思いますが、それは伝えられないので、私は本当にその考えが好きではありません。データのペアの性質。 また、2D散布図のアイデアにあまり熱心ではありません。よりコンパクトな表現が理想的です。理想的には、2つのグループの値が同じ軸に沿ってプロットされている表現が望ましいです。完全を期すために、データは2D散布図のようになります。 非常に大きなサンプルサイズでペアのデータを表すより良い方法を誰かが知っていますか?いくつかの例にリンクしていただけませんか? 編集する すみません、私が探しているものを説明するのに十分な仕事をしていないのは明らかです。はい、2D散布図は機能します。ポイントの密度をよりよく伝えるために、2D散布図を改善する方法はたくさんあります-カーネル密度推定に従ってドットを色分けして、2Dヒストグラムを作成できます、等高線をドットの上などにプロットできます... しかし、これは私が伝えようとしているメッセージに対してはやり過ぎだと思います。ポイント自体の 2D密度を表示することについては特に気にしません-必要なのは、「棒」の値が「点」の値よりも一般的に大きいことを、できるだけ単純かつ明確な方法で示すことだけです。 、そしてデータの本質的なペアの性質を失うことなく。理想的には、2つのグループのペアの値を直交軸ではなく同じ軸に沿ってプロットしたいのです。これにより、視覚的に比較することが容易になります。 多分散布図より良い選択肢はありませんが、うまくいく可能性のある代替案があるかどうか知りたいのですが。

4
対応のあるデータに対するフィッシャーの正確検定
肺がんのケースと一致したコントロール(肺がんなし)を考えます(年齢、性別などに基づく一致)。肺がんに対する喫煙の影響の証拠を見つけるために、分割表でフィッシャーの正確確率検定を使用しました。ただし、これは、コントロールとケースが一致したことを考慮していません。 40404040404040 それで、2つのグループ間の一致を考慮に入れるフィッシャーの正確検定を使用する方法があるかどうか疑問に思いましたか?

1
複雑な式なしで、Rにブラッドリー–テリー–ルースモデルを適合させる方法は?
Bradley–Terry–Luce(BTL)モデルは、であると述べていますここで、はオブジェクトが「より良い」と判断される確率です。重い、など、オブジェクトよりも、、および、およびパラメータです。pj i= l o g私トン− 1(δj- δ私)pj私=log私t−1(δj−δ私)p_{ji} = logit^{-1}(\delta_j - \delta_i)p私はjp私jp_{ij}jjj私私iδ私δ私\delta_iδjδj\delta_j これは、家族=二項式のglm関数の候補のようです。ただし、式は「Success〜S1 + S2 + S3 + S4 + ...」のようになります。ここで、Snはダミー変数です。つまり、オブジェクトnが比較の最初のオブジェクトの場合は1、それが-1の場合です。 2番目、それ以外の場合は0。その場合、Snの係数は対応するます。d電子リットルのt Aんdeltaんdelta_n これは、少数のオブジェクトだけで管理するのはかなり簡単ですが、非常に長い式になり、オブジェクトごとにダミー変数を作成する必要が生じる可能性があります。もっと簡単な方法があるのか​​なと思います。比較される2つのオブジェクトの名前または数が変数(因子?)Object1およびObject2であり、オブジェクト1がより適切であると判断された場合、Successは1であり、オブジェクト2がそうである場合、0です。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.