このデータに不正なフラグを立てますか?


8

4つの繰り返しと23の処理を含むランダム化されたブロック設計からいくつかのデータが与えられたとしましょう。データを最初に検査した後、8つの処理ですべての繰り返しが同一であることがわかりますが、これは明らかに誤りです。問題を報告した後、データの「正しいバージョン」を後で送信するデータの責任者からの混乱が原因であることが通知されます。データの修正バージョンは次のようになります。

治療担当者の値 
   A 1 5727.000
   A 2 5400.000
   A 3 5800.000
   A 4 5473.000
   B 1 4618.000
   B 2 4844.000
   B 3 4966.000
   B 4 4496.000 
...
   Z 1 4329.345
   Z 2 4597.275
   Z 3 4833.246
   Z 4 4199.098 

そのようなデータで私の注意を引く最初のことは、問題が報告された8つの処理のみに小数部がないことです(残りの処理はすべて問題ありません)。したがって、私はそれらをより詳しく見て、処理内のサンプル平均から各観測値を差し引くことを決定し、次のようなものを見つけます

治療担当者値デルタ
   A 1 5727.000 +127
   A 2 5400.000 -200
   A 3 5800.000 +200
   A 4 5473.000 -127
   B 1 4618.000 -113
   B 2 4844.000 +113
   B 3 4966.000 +235
   B 4 4496.000 -235
...
   Z 1 4329.345 ...
   Z 2 4597.275 ...
   Z 3 4833.246 ...
   Z 4 4199.098 ...

違いが平均値に関して対称的であることがわかった後、私はすぐにプロジェクトの責任者に電話し、問題を報告します。もちろん、そのプロジェクトへの取り組みも断念します。

証拠は非常に説得力がありますが、レポートに確率を付けて、データの見た目がどれほど悪いかを理解することをお勧めします。だから私は次のようなことを考えていたでしょう、そして私の推論に欠陥があるかどうか知りたいのです:

データが正当なものである場合、その種のデータの以前の分析の経験に基づいて、その種のデータの正規性を仮定することが合理的であるとしましょう。

したがって、各処理内の4つの繰り返しごとに4つの正規確率変数を定義してみましょう 上記で観察された対称性(許容誤差.5)は、イベントとして表すことができます: 他に同等のものがあります対称性を満たすようにサンプルを配置できる方法(X1 + X3-X4-X2; X1 + X4-X2-X3)したがって、対称性(S)の確率は次のようになります:

XiN(μX, σX);   i=1,2,3,4
A:0.5<X1+X2X3X4<0.5
P(S)3P(A)

不等式は、単に交差を削除したくないためです。

確率変数Yを次のように定義すると、

Y=X1+X2X3X4

それは次のようになります:

YN(0, 2σX)

そのデータを含むモデルの残差から、を350 と推定したとしましょう。そこから、yのCDFを使用して、Yが-0.5と0.5の間になる確率を計算します。これは、P(A )= 0.0005699175σX

pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)

したがって、Sの確率は次のようになります。

P(S)0.001709752

明確なブロック効果はなく、データはランダム化された実験から得られるため、統計的独立性を仮定するのが妥当です。8つの疑わしい治療のうち、3つがこの対称性を持っていたとしましょう。次に、独立性を前提として、二項分布からそのようなイベントの確率(Dと呼ぶ)を計算できます。

D:8つの処理のうち3つは、サンプル平均の周りに観測の対称性があります。

P(D)(83)p3(1p)5

P(D)2.7107

私は統計学者ではないので、その推論に欠陥があるかどうか、またデータを詐欺的であると報告するかどうかを知りたい。


9
ここでは倫理的な問題が最も重要です。非常に疑わしいデータと見なしてこの情報に同意し、そのように報告します。「詐欺」とは決して言わないでください。これは、調査後に他の人が判断することであり、国によっては、法的措置またはその脅威にさらされる可能性があるためです。確率の見積もりについては、それを差し控えます。ケースはそれなしでは明らかであり、ほぼすべての仮定または近似が異議を唱えます。
Nick Cox

5
ニックコックスと完全に同意します。特定のデータパターンはほとんどあり得ないことに注意してください。そのため、確率の見積もりは、使用できないデータの完全に明確で説得力のあるケースを混乱させるだけです(不正ではなく、その用語または類似のものを使用します)。
zbicyclist

2
特定のパターンがランダムに発生する可能性は非常に低いですが、すべてが人間によって意識的に生成される可能性は同じではありません。人間がそのようなデータを「作成」する方法の普遍的なモデルはないので、確率計算にはあまり意味がありません。ただし、データの対称性をグラフィカルに表現することを検討してください。デモ目的のA、この魚の臭いの程度を人々に感じさせるB。
Bernhard

1
非常に役立つ回答です。実際、私はこのデータだけから彼らの意図を理解することができませんでした。合理的な疑いを超えない唯一のことは、このデータが使用できないことです(私はその用語が好きでした)。
Teo

回答:


3

ここでは倫理的な問題が最も重要です。データが非常に疑わしいと見なしてこの情報に同意し、そのように報告します。「詐欺」とは決して言わないでください。これは、調査後に他の人が判断することであり、国によっては、法的措置またはその脅威にさらされる可能性があるためです。確率の見積もりについては、それを差し控えます。ケースはそれなしでは明らかであり、ほぼすべての仮定または近似が異議を唱える可能性があります。


1
このコメントは、多かれ少なかれ、この質問に対する回答であるため、@ NickCoxによってコミュニティWikiの回答としてこのコメントをコピーしました。答えと質問の間に劇的なギャップがあります。問題の少なくとも一部は、いくつかの質問がコメントで回答されていることです。質問に回答したコメントが代わりに回答である場合、未回答の質問が少なくなります。
mkt-モニカを
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.