統計とビッグデータ random-allocation

4

50歳以上の患者が誕生年までに擬似ランダム化された研究に出会いました。誕生年が偶数の場合、通常のケア、奇数の場合、介入。実装が簡単で、転覆するのが難しく（患者が受けるべき治療を簡単に確認できます）、覚えやすい（割り当ては数年間続いた）。それでも、私はそれが好きではありません。適切なランダム化の方が良かったと感じています。しかし、その理由は説明できません。私はそれを感じるのは間違っていますか、または「本当の」ランダム化を好む正当な理由がありますか？

23 experiment-design clinical-trials random-allocation

2

コインを投げることは、グループを2つのグループにランダム化する公平な方法ですか？

私と叔父は、コインフリップが本当にランダムかどうかについて議論しています。コイントッサーは常にコインを操作するため、結果は50/50ではないため、臨床試験でグループを割り当てるためのランダム化手法としては適切な選択ではないためだと思います。しかし彼は、コイン投げのわずかな欠陥がランダム性を生み出すと主張しています。それで彼は、永遠に公正なコインを投げてそれを頭に乗せることができるマシンを仮定しました、そして正直に言うと、私のためにこの議論を解決する誰かが必要です。コインを投げることは、グループを2つのグループにランダム化する公平な方法ですか？

12 random-generation randomness random-allocation

2

ランダム化は小さなサンプルで信頼できますか？

ジェローム・コーンフィールドは書いている：フィッシャー革命の最もすばらしい成果の1つはランダム化のアイデアであり、他のいくつかのことに同意する統計学者は少なくともこれに同意しています。しかし、この合意にもかかわらず、臨床やその他の実験形式でのランダム化された割り当て手順の広範な使用にもかかわらず、その論理的なステータス、つまり、それが実行する正確な機能は依然として不明です。コーンフィールド、ジェローム（1976）。「臨床試験への最近の方法論的貢献」。American Journal of Epidemiology 104（4）：408–421。このサイト全体とさまざまな文献で、私はランダム化の力について自信のある主張を一貫して見ています。「交絡変数の問題を排除する」などの強力な用語が一般的です。たとえば、こちらをご覧ください。ただし、実際的/倫理的な理由から、小さなサンプル（グループあたり3〜10サンプル）で何度も実験が行われます。これは、動物や細胞培養を使用した前臨床研究では非常に一般的であり、研究者は一般に、それらの結論を裏付けるp値を報告します。これにより、交絡のバランスをとる上でのランダム化はどの程度優れているのかと思いました。このプロットでは、50と50の確率で2つの値をとることができる1つの交絡（たとえば、type1 / type2、male / female）で処理グループとコントロールグループを比較する状況をモデル化しました。さまざまな小さなサンプルサイズの研究における「％不均衡」（処理サンプルとコントロールサンプル間のtype1の＃の差をサンプルサイズで割ったもの）の分布を示しています。赤い線と右側の軸はecdfを示します。小さいサンプルサイズのランダム化におけるさまざまな程度のバランスの確率：このプロットから2つのことは明らかです（私がどこかで失敗した場合を除きます）。 1）サンプルサイズが大きくなると、正確にバランスの取れたサンプルが得られる確率は低くなります。 2）サンプルサイズが大きくなると、非常に不均衡なサンプルが得られる確率が低くなります。 3）両方のグループでn = 3の場合、完全に不均衡なグループのセット（コントロールのすべてのタイプ1、治療のすべてのタイプ2）を取得する可能性は3％です。N = 3は分子生物学実験で一般的です（例：PCRでmRNAを測定する、またはウエスタンブロットでタンパク質を測定する）さらにn = 3の場合を調べたところ、これらの条件下でp値の奇妙な動作が観察されました。左側は、type2サブグループのさまざまな平均の条件下でt検定を使用して計算するp値の全体的な分布を示しています。type1の平均は0で、両方のグループでsd = 1でした。右側のパネルは、0.05から.0001までの名目上の「有意なカットオフ」に対応する偽陽性率を示しています。 t検定（10000モンテカルロラン）で比較した場合の2つのサブグループと2番目のサブグループの異なる平均を使用したn = 3のp値の分布：両方のグループのn = 4の結果は次のとおりです。両方のグループでn = 5の場合：両方のグループでn = 10の場合：上のグラフからわかるように、標本サイズとサブグループ間の差の間に相互作用があり、帰無仮説のもとでさまざまなp値の分布が均一にならないように見えます。それで、サンプルサイズが小さい適切にランダム化および制御された実験では、p値は信頼できないと結論付けることができますか？最初のプロットのRコード require(gtools) #pdf("sim.pdf") par(mfrow=c(4,2)) for(n in c(3,4,5,6,7,8,9,10)){ #n<-3 p<-permutations(2, …

11 small-sample random-allocation

3

制御された実験で潜んでいる変数のどのような例が出版物にありますか？

本論文で：潜む変数：いくつかの例ブライアンL.ジョイナーアメリカ統計学者Vol。35、No。4、1981年11月227-233 ブライアン・ジョイナーは、「ランダム化は万能薬ではない」と主張しています。これは、以下のような一般的なステートメントとは対照的です。適切に設計された実験には、独立変数と従属変数の間の観測された関係の説明として、研究者が無関係な変数を排除できる設計機能が含まれています。これらの無関係な変数は潜伏変数と呼ばれます。引用はこの質問から取られたものであり、出典はありませんが、私の経験では、それは一般的な態度を表しています：潜む変数と影響力のある観察の例与えられた1つの例は、70年代のげっ歯類に対する赤色＃40食用色素の安全性（特に発がん）をテストしたときに、ケージの位置の影響が研究を混乱させることがわかったということです。現在、私はげっ歯類の発がんについて研究している多くの雑誌の記事を読んだことがあり、この影響を制御していると報告している人を見たことがありません。これらの研究の詳細については、こちらをご覧ください。規制プロセスにおける統計のケーススタディ：FD＆C Red No. 40実験。ペイウォールされていないバージョンは見つかりませんでしたが、ここに抜粋があります： 1月の会議で、私たちは予備的な分析（14）を発表しました。これは、ケージ列とRE（細網内皮腫瘍）の死亡率との強い相関を示し、17％（下列）から32％（上列）（表2）。この強い関連性を性別、投与量グループ、ラックカラムまたは位置で説明することはできませんでした。その後の分析（18）では、ケージの位置（前と後）が非RE死亡率と相関している可能性があり、その位置が非RE死亡までの時間と相関していることが示されました。私は特に医学文献の複製にこのような問題があるように思われることに特に関心がありますが、あらゆる分野の例を歓迎します。観察研究ではなく、無作為化対照実験の例に興味があることに注意してください。

11 confounding random-allocation

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

ランダム化への反対

臨床試験-方法論の観点、スティーブンPiantadosiを書き込む（ch.13、P 334。）。第2章では、AbelとKoch（1997）とUrbach（1993）による無作為化への反対を指摘し、それらの懸念と起こりそうなエラーを研究する価値を示しました。彼らはランダム化を特定の統計的検定を検証すること、因果推論の根拠、マスキングの促進、および比較グループのバランスを取る方法。私によると、（1）-（4）はランダム化の利点です。では、なぜアベル、コッホ、アーバッハはこれらの議論に基づいてランダム化を拒否するのでしょうか？

10 clinical-trials random-allocation

3

非ランダムサンプルのランダム化

実験的な研究に参加する心理的な広告を見ると、いつも少し驚いています。確かに、これらの広告に反応する人々は無作為に抽出されるわけではないため、自己選択された集団です。ランダム化によって自己選択の問題が解決されることがわかっているので、非ランダムサンプルのランダム化によって実際に何かが変化したのかどうか疑問に思いました。どう思いますか？また、自分で厳選したサンプルに基づいてこれらすべての心理実験を行うにはどうすればよいでしょうか。

9 sampling psychology random-allocation

3

ランダム割り当て：なぜわざわざ？

ランダム割り当ては、治療を潜在的な結果から独立させることができるため、価値があります。それが、平均治療効果の公平な推定につながる方法です。しかし、他の割り当てスキームも、治療の潜在的な結果からの独立性を体系的に保証することができます。では、なぜランダムな割り当てが必要なのでしょうか。別の言い方をすれば、不偏推論につながる非ランダム割り当て方式よりもランダム割り当ての利点は何ですか？ましょう各要素が0（治療に割り当てられていない単位）または1（治療に割り当てられた単位）である処置の割り当てのベクトルです。JASAの記事で、Angrist、Imbens、およびRubin（1996、446-47）は、場合、処理割り当てはランダムであると述べていすべての\ mathbf {c}および\ mathbf {c'}に対して、\ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c '}である場合、\ iotaはaすべての要素が1に等しい列ベクトル。ZZ\mathbf{Z}Z私ZiZ_icPr （Z = c）= Pr （Z = c』）Pr(Z=c)=Pr(Z=c′)\Pr(\mathbf{Z} = \mathbf{c}) = \Pr(\mathbf{Z} = \mathbf{c'})cc\mathbf{c} ι T C = ι T C ' ιc』c′\mathbf{c'}ιTc = ιTc』ιTc=ιTc′\iota^T\mathbf{c} = \iota^T\mathbf{c'}ιι\iota 言い換えると、処理へのm個の割り当てを含む割り当てのベクトルが、処理へのm個の割り当てを含む他のベクトルと同じである場合、割り当てZ私ZiZ_iはランダムであるという主張です。メートルmmメートルmm ただし、治療の割り当てからの潜在的な結果の独立性を確保するには、研究の各ユニットが治療への割り当ての確率が等しいことを確認するだけで十分です。そして、ほとんどの治療割り当てベクトルが選択される確率がゼロであっても、それは簡単に起こります。つまり、ランダムでない割り当てでも発生する可能性があります。 …

9 econometrics experiment-design causality instrumental-variables random-allocation

2

実験で制御変数を使用していますか？

治療群への割り当てがランダムな状況で、ベースライン共変量をいくつも制御する必要があるのはなぜですか？私の理解では、治療をランダムに割り当てると、治療変数が厳密に外因性になり、適切に反事実と見なすことができるコントロールグループが作成されます。私が考えることができる唯一の例外は、サンプルサイズが小さい場合であり、そのランダムな割り当ては依然として不均衡なグループを生成する可能性があります。どんな考えでも大歓迎です。ありがとう！

9 experiment-design treatment-effect random-allocation

1

ランダム化にもかかわらずベースラインに有意差が存在するRCTを分析する方法は？

私は、RでANCOVAを使用して二重盲検プラセボ対照RCTを分析しています。この場合、治療が行われる前に予測される「治療効果」が示されます。研究の目的は、病気の治療が特定の行動を減らすかどうかを決定することです。病気と行動の両方を持つ人々は、50-50の治療とプラセボ対照群に無作為に割り付けられました。予測されたように、介入とベースラインの病状との間に有意な相互作用がありました（「介入」を除くすべての変数は間隔です。これは、治療と対照群を識別する2レベルの因子変数です）。 MODEL 1: Call: lm(formula = follow_up_behavior ~ baseline_behavior + baseline_disease * intervention, data = d) Estimate Std. Error t value Pr(>|t|) (Intercept) 11.28464 0.51177 22.050 <2e-16 *** baseline_behavior 0.77872 0.05112 15.234 <2e-16 *** baseline_disease 0.36726 0.23110 1.589 0.1146 interventiontreatment 0.74738 0.70254 1.064 0.2895 baseline_disease:interventiontreatment -0.64681 0.31374 -2.062 …

8 experiment-design ancova clinical-trials random-allocation

タグ付けされた質問 「random-allocation」

タグ付けされた質問「random-allocation」