4つの繰り返しと23の処理を含むランダム化されたブロック設計からいくつかのデータが与えられたとしましょう。データを最初に検査した後、8つの処理ですべての繰り返しが同一であることがわかりますが、これは明らかに誤りです。問題を報告した後、データの「正しいバージョン」を後で送信するデータの責任者からの混乱が原因であることが通知されます。データの修正バージョンは次のようになります。
治療担当者の値 A 1 5727.000 A 2 5400.000 A 3 5800.000 A 4 5473.000 B 1 4618.000 B 2 4844.000 B 3 4966.000 B 4 4496.000 ... Z 1 4329.345 Z 2 4597.275 Z 3 4833.246 Z 4 4199.098
そのようなデータで私の注意を引く最初のことは、問題が報告された8つの処理のみに小数部がないことです(残りの処理はすべて問題ありません)。したがって、私はそれらをより詳しく見て、処理内のサンプル平均から各観測値を差し引くことを決定し、次のようなものを見つけます
治療担当者値デルタ A 1 5727.000 +127 A 2 5400.000 -200 A 3 5800.000 +200 A 4 5473.000 -127 B 1 4618.000 -113 B 2 4844.000 +113 B 3 4966.000 +235 B 4 4496.000 -235 ... Z 1 4329.345 ... Z 2 4597.275 ... Z 3 4833.246 ... Z 4 4199.098 ...
違いが平均値に関して対称的であることがわかった後、私はすぐにプロジェクトの責任者に電話し、問題を報告します。もちろん、そのプロジェクトへの取り組みも断念します。
証拠は非常に説得力がありますが、レポートに確率を付けて、データの見た目がどれほど悪いかを理解することをお勧めします。だから私は次のようなことを考えていたでしょう、そして私の推論に欠陥があるかどうか知りたいのです:
データが正当なものである場合、その種のデータの以前の分析の経験に基づいて、その種のデータの正規性を仮定することが合理的であるとしましょう。
したがって、各処理内の4つの繰り返しごとに4つの正規確率変数を定義してみましょう 上記で観察された対称性(許容誤差.5)は、イベントとして表すことができます: 他に同等のものがあります対称性を満たすようにサンプルを配置できる方法(X1 + X3-X4-X2; X1 + X4-X2-X3)したがって、対称性(S)の確率は次のようになります:
不等式は、単に交差を削除したくないためです。
確率変数Yを次のように定義すると、
それは次のようになります:
そのデータを含むモデルの残差から、を350 と推定したとしましょう。そこから、yのCDFを使用して、Yが-0.5と0.5の間になる確率を計算します。これは、P(A )= 0.0005699175
pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)
したがって、Sの確率は次のようになります。
明確なブロック効果はなく、データはランダム化された実験から得られるため、統計的独立性を仮定するのが妥当です。8つの疑わしい治療のうち、3つがこの対称性を持っていたとしましょう。次に、独立性を前提として、二項分布からそのようなイベントの確率(Dと呼ぶ)を計算できます。
D:8つの処理のうち3つは、サンプル平均の周りに観測の対称性があります。
私は統計学者ではないので、その推論に欠陥があるかどうか、またデータを詐欺的であると報告するかどうかを知りたい。