ランダム化は小さなサンプルで信頼できますか?


11

ジェローム・コーンフィールドは書いている:

フィッシャー革命の最もすばらしい成果の1つはランダム化のアイデアであり、他のいくつかのことに同意する統計学者は少なくともこれに同意しています。しかし、この合意にもかかわらず、臨床やその他の実験形式でのランダム化された割り当て手順の広範な使用にもかかわらず、その論理的なステータス、つまり、それが実行する正確な機能は依然として不明です。

コーンフィールド、ジェローム(1976)。「臨床試験への最近の方法論的貢献」。American Journal of Epidemiology 104(4):408–421。

このサイト全体とさまざまな文献で、私はランダム化の力について自信のある主張を一貫して見ています。「交絡変数の問題を排除する」などの強力な用語が一般的です。たとえば、こちらをご覧ください。ただし、実際的/倫理的な理由から、小さなサンプル(グループあたり3〜10サンプル)で何度も実験が行われます。これは、動物や細胞培養を使用した前臨床研究では非常に一般的であり、研究者は一般に、それらの結論を裏付けるp値を報告します。

これにより、交絡のバランスをとる上でのランダム化はどの程度優れているのかと思いました。このプロットでは、50と50の確率で2つの値をとることができる1つの交絡(たとえば、type1 / type2、male / female)で処理グループとコントロールグループを比較する状況をモデル化しました。さまざまな小さなサンプルサイズの研究における「%不均衡」(処理サンプルとコントロールサンプル間のtype1の#の差をサンプルサイズで割ったもの)の分布を示しています。赤い線と右側の軸はecdfを示します。

小さいサンプルサイズのランダム化におけるさまざまな程度のバランスの確率: ここに画像の説明を入力してください

このプロットから2つのことは明らかです(私がどこかで失敗した場合を除きます)。

1)サンプルサイズが大きくなると、正確にバランスの取れたサンプルが得られる確率は低くなります。

2)サンプルサイズが大きくなると、非常に不均衡なサンプルが得られる確率が低くなります。

3)両方のグループでn = 3の場合、完全に不均衡なグループのセット(コントロールのすべてのタイプ1、治療のすべてのタイプ2)を取得する可能性は3%です。N = 3は分子生物学実験で一般的です(例:PCRでmRNAを測定する、またはウエスタンブロットでタンパク質を測定する)

さらにn = 3の場合を調べたところ、これらの条件下でp値の奇妙な動作が観察されました。左側は、type2サブグループのさまざまな平均の条件下でt検定を使用して計算するp値の全体的な分布を示しています。type1の平均は0で、両方のグループでsd = 1でした。右側のパネルは、0.05から.0001までの名目上の「有意なカットオフ」に対応する偽陽性率を示しています。

t検定(10000モンテカルロラン)で比較した場合の2つのサブグループと2番目のサブグループの異なる平均を使用したn = 3のp値の分布: ここに画像の説明を入力してください

両方のグループのn = 4の結果は次のとおりです。 ここに画像の説明を入力してください

両方のグループでn = 5の場合: ここに画像の説明を入力してください

両方のグループでn = 10の場合: ここに画像の説明を入力してください

上のグラフからわかるように、標本サイズとサブグループ間の差の間に相互作用があり、帰無仮説のもとでさまざまなp値の分布が均一にならないように見えます。

それで、サンプルサイズが小さい適切にランダム化および制御された実験では、p値は信頼できないと結論付けることができますか?

最初のプロットのRコード

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

プロット2〜5のRコード

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()

最初は状況や問題の説明が少しわかりづらかったです。タイプIおよびタイプIIは、タイプ1サブグループおよびタイプ2サブグループの使用方法とは異なる技術用語です。私が知る限り、平均が混合した分布からのデータにt検定を適用しています。そうですか?
マイケルルー2013年

はい、2つの正規分布の混合です。"type1"はN(0,1)を参照し、type2はN(mean2,1)を参照します。ここで、mean2 =(2、3、10、または100)。申し訳ありませんが、typeA、typeBに変更できます。
Flask 2013年

回答:


4

非常に小さなサンプルの未知の交絡変数を処理する際のランダム化の制限を指摘するのは正しいです。ただし、問題はP値が信頼できないことではなく、それらの意味がサンプルサイズと、メソッドの仮定と母集団の実際のプロパティとの関係によって変化することです。

あなたの結果に対する私の見方は、サブグループの平均の差が非常に大きくなり、賢明な実験者が実験を行う前に問題があったことを知るまで、P値は非常にうまく機能したということです。

データの性質の適切な理解を参照せずに実験を実行して分析できるという考えは誤っています。小さなデータセットを分析する前に、分析に内在する仮定を自信を持って守るために、データについて十分に理解している必要があります。このような知識は、通常、同じまたは類似のシステムを使用した以前の研究、正式に発表された作品または非公式の「予備」実験である可能性のある研究から得られます。


私はあなたが言ったことすべてに同意しますが、t検定は、Gerd Gigerenzerが言うように、「儀式的に」実行されることがよくあります。実際には、これらのテストを実行する人々は、彼らがしていることのニュアンスを理解する時間/傾向を持っていません。そのため、「信頼できない」形容詞はふさわしいと思う。分布について尋ねたときに(1つの高い分布があったのか、それとも大きなエラーバーが発生したのか)、それを見たことがない研究者を知っています。
Flask 2013年

1
まあ、どのP値が実際に「平均」であるかは、ほとんどの人が想定しているものとはかなり異なります。P値を「証拠と一致しない」などと批判する多くの論文でさえ誤解されています。昨日arXivに論文をアップロードしました。これは、P値の特性を調査し、実験者が使用できる証拠のタイプとどのように関連するかを示しています。そのタイトルは「PかPでないか:P値の証拠的性質と科学的推論におけるそれらの場所について」であり、arXiv提出番号は826269です。月曜日から入手可能です。
Michael Lew

どういうわけか愛されなくなったこの質問を見てください。。私はp値が何かであり、あなたの論文がそれを解明するのに役立つかもしれないことに同意しますが、研究者として、私は地上のブーツのブーツがそれらが私たちを失敗させたことであることを明確にしなければなりません。誤用または生来の不適切性のため、これは不明確です。私は、統計学者の見方を理解するために、ここで一連の質問をしてきました。
Flask 2013年

2

生態学的研究では、サンプルサイズが小さく、1つ以上の交絡変数の証拠がある場合、実験ユニット(被験者)への処理の非ランダムな割り当てが標準的な方法です。この非ランダムな割り当ては、混乱させる可能性のある変数のスペクトル全体にわたって被験者を「散在」させます。これは、ランダムな割り当てが行うことになっているものとまったく同じです。しかし、サンプルサイズが小さい場合、ランダム化はこれでうまく機能しない可能性が高く(上で示したように)、したがって、これに依存するのは悪い考えです。

ランダム化はほとんどの分野で非常に強く推奨されているため(当然のことながら)、厳密なランダム化に固執するのではなく、バイアスを減らすことが最終目標であることを忘れがちです。ただし、交絡変数のスイートを効果的に特徴付け、実験結果を知らず、利用可能なすべての情報とコンテキストを利用する防御可能な方法で非ランダム割り当てを実行することは、研究者の責任です。

概要については、Stuart H. 1984のHurlbertの pp。192-198を参照してください。疑似複製とフィールド実験の設計。生態学的モノグラフ54(2)pp.187-211。


私はこれを読んで楽しんでいましたが、最後から2番目の段落での「バイアス」の使用は、その言葉があなたの声明を不正確にする特定の統計的意味を持っているため、誤って読み取られるのではないかと心配しています。ランダム化は、バイアスを減らす(推定量の不正確さの尺度として)のではなく、交絡(口語的な意味での「バイアス」の形式)を防ぐことを目的としていると言っているのではありませんか?
whuber

統計的な意味でのバイアスについて言及しています。統計では、「バイアス」は、統計とそれが推定するパラメーターとの差です。ご指摘のとおり、推定量のバイアスは、推定量の期待値と推定量の真の値の差です。私の投稿では、「バイアス」によって、データから計算された統計とそれらが推定するパラメーターの違いについて言及していました。たとえば、サンプル平均(x bar)と真の平均(mu)の間です。
Darren James

私の知る限りでは、ランダム化サンプリングはバイアスを減らすために使用されていません。また、多くの状況では、バイアスを減らすことを正当に主張することもできません。
whuber

あなたは間違っています。ランダム化の主な目的は、独立の効果をシミュレートすることです。これは、対象への治療の体系的な割り当てを通じて生じるバイアスを排除することによってこれを行います。これらのバイアスは、不正確な推定(最も重要なのは、バイアス分散の推定)と、タイプIおよびIIのエラーに対する制御の喪失を引き起こします。交絡変数(実際には独立性の欠如を意味します)でさえ、変数バイアスが省略されているケースにすぎません。しかし、あなたはここに相談するいくつかの他のリソースがあり、上記Hurlburt紙で納得している場合...これは私の言葉を取る必要はありません:
ダレン・ジェームス

コクラン、WG、GMコックス。1957。実験デザイン。ニューヨーク:ワイリー。フェデラー、WT1955。実験デザイン。ニューヨーク:マクミラン。Hinkelmann、K.およびKempthorne、O.1994。実験の計画と分析。ワイリー:ニューヨーク。Kuehl、RO2000。実験計画法:研究計画と分析の統計原理。カリフォルニア州ベルモント:Brooks / Cole。
Darren James
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.