打ち切りデータとは正確には何ですか?


14

打ち切りデータのさまざまな説明を読みました。

A)このスレッドで説明されているように、特定のしきい値を下回るまたは上回る数量化されていないデータは打ち切られます。数量化されていないということは、データが特定のしきい値を上回るか下回ることを意味しますが、正確な値はわかりません。データは、回帰モデルの低しきい値または高しきい値でマークされます。これは、このプレゼンテーションの説明と一致しますが、非常に明確であることがわかりました(最初のページの2番目のスライド)。つまり、は最小値、最大値、またはその両方に制限されます。これは、その範囲外の真の値がわからないためです。Y

B)友人から、未知の結果に関する少なくともいくつかの制限情報があれば、打ち切りデータモデルを部分的に未知の 観測に適用できると言われました。たとえば、いくつかの定性的基準(商品の種類、国、入札者の富など)に基づいて、サイレントオークションと公開オークションの組み合わせの最終価格を推定します。公開オークションではすべての最終価格わかりますが、サイレントオークションでは最初の入札(たとえば1,000ドル)だけがわかり、最終価格はわかりません。この場合、データは上から打ち切られ、打ち切り回帰モデルを適用する必要があると言われました。YYiYi

C)最後によって与えられた定義があるウィキペディア完全に欠けているが、予測因子が利用可能ですが。この例が切り捨てられたデータとどのように異なるかはわかりません。Y

では、打ち切られたデータとは正確には何ですか?


6
より関連性の高いウィキペディアの記事はen.wikipedia.org/wiki/Censoring_%28statistics%29にあります。包括的ではありませんが、少なくともタイプIおよびタイプIIの打ち切りについて説明し、左右打ち切りとともに間隔打ち切りを承認します。
whuber

回答:


8

結果および共変量xに関する次のデータを考えます。yバツ

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

ユーザー1には、完全なデータがあります。他のすべての人については、不完全なデータがあります。ユーザー2、3、および4はすべて打ち切られます。共変量の既知の値に対応する結果は観測されないか、正確に観測されません(左打ち、右打ち、間隔打ち切り)。これは、調査設計におけるプライバシーの考慮事項の成果物である場合があります。他の場合には、他の理由で起こります。たとえば、最低賃金を下回る賃金や、アリーナの定員を超えるコンサートチケットの実際の需要は観察されません。

ユーザー5は切り捨てられます。結果と共変量の両方が欠落しています。これは通常、何かをした人に関するデータのみを収集するために発生します。例えば、何かを買って、私たちだけの調査の人々 ()、私たちはと誰も除外ので、Y = 0を自分と一緒にX秒。サンプルの生成に使用されたルールを知っているので、このタイプのユーザーの出力データに行がない場合もあります。もう1つの例は偶発的な切り捨てです。従業員が賃金を提示しているのは、あなたが働いているときの賃金であると想定しているためです。yに依存しないため、切り捨ては偶発的です。y>0y=0xy、しかし別の変数に。

要するに、切り捨ては打ち切りよりも大きな情報損失を意味します(ポイントAおよびB)。これらのタイプの「ミッシングネス」はどちらも体系的です。

通常、このタイプのデータを扱うには、エラーについて強い分布を仮定し、これを考慮に入れる可能性を変更する必要があります。より柔軟なセミパラメトリックアプローチも可能です。これは、ポイントBで暗黙的です。


2
この答えの2つの側面は私を混乱させます。まず、純粋に欠損値は必ずしも切り捨てを反映していません。第二に、検閲の方法(「ランダム」対「情報提供」)はしばしば検閲の事実と同じくらい重要であり、区間値データの単なる記録よりも検閲の方が多いことを示します。
whuber

これは非常に良い例です。異なる「打ち切り限界」を各適用できるということですか?この場合、どのようにモデルを定式化しますか?これは、B)の私の友人の声明を検証します。y
ロバートキューブリック14年

1
等分散性の正規分布エラーを想定する場合は、このように尤度を記述し、観測固有の打ち切りしきい値でMLEを使用できます。
Dimitriy V. Masterov

3
@Peterそれは(正しい)打ち切りではないですか?そのような人々がすべて除外され、サンプルでまったくカウントされない場合、切り捨てが発生します。en.wikipedia.org/wiki/Truncation_(statistics)を参照してください。
whuber

1
@Peter紛らわしいのは、「その人のBMIが30を超えていることを知っている」と書くことです。あなたのサンプルにさえ含まれていない人(「カウントされなかった」)をどのように参照できますか?「BMI> 30」という形式の観測値は打ち切りですが、母集団に存在する可能性がある場合でも、そのような観測値をすべて分析から完全に除外するのは打ち切りです。 後者の場合、言えることは「BMIが30を超える人はサンプルから除外された」ということだけです。
whuber

9

記述的に言えば、「データサンプルは、その中のいくつかの観測値がサンプルの極値をとる、または構成するが、その真の値が観測されたサンプル範囲外の場合、打ち切られます」を提供します。しかし、これは一見簡単です。

そこで、まず、データセットが打ち切られたと結論付ける方法について説明しましょう。これにより、質問で提示されたケースを議論することになります。

離散確率変数から次のデータセットが与えられたと仮定します。これについて知っているのは、それが負でないことだけです。X

{0,1,1,2,2,2,2,2,2,2}

データセットが打ち切られていると言えますか?まあ、それはそうかもしれないと考える権利がありますが、必ずしもそうではありません:

1)範囲有していてもよい、{ 0 1 2 }と確率分布{ 0.1 0.1 0.8 }。これが実際に当てはまる場合、ここでは打ち切りは行われず、境界付きのサポートと非常に非対称な分布を持つ、このようなランダム変数からの「予測される」サンプルだけが表示されます。 X{0,1,2}{0.1,0.1,0.8}

2)しかし、その場合であってもよい範囲有する{ 0 1 9 }一様な確率分布をもつ{ 0.1 0.1 .0 .1 }、この場合、データサンプルはほとんど打ち切られます。 X{0,1,...,9}{0.1,0.1,...0.1}

どうすればわかりますか?私たちは、事前の知識や情報を持っている場合を除き、いずれかのケースに賛成して議論することはできません。質問で提示された3つのケースは、打ち切りの効果に関する事前知識を表していますか?どれどれ:

ケースA)は、「非常に大きい」、「非常に小さい」などの定性的な情報しか持たない一部の観測について、極端な値を観測に割り当てる状況を示しています。実際に実現された値を知らないだけでは、極端な値を割り当てることを正当化しないことに注意してください。だから我々は持っている必要がありますいくつかのこれらの観察のために、その値を超えたり、すべての観測されたものを下回っている旨の情報を。この場合、ランダム変数の実際の範囲は不明ですが、定性的な情報により、打ち切りサンプルを作成できます(実際の実現値を持たない観測値を単にドロップしない理由については別の議論です) )。

ケースB)は、正しく理解していれば検閲のケースではなく、汚染されたサンプルのケースです:先験的な情報は、ランダム変数の最大値が超えてはならないことを示しています(物理法則またはこの-suppose社会法則はグレーディングシステムから成績データであることを使用する唯一の値1 2 3)。しかし、値4と値5も観察しました。どうすればいいの?データの記録の間違い。しかし、そのような場合、45がすべて3である必要があることは確かではありません31,2,345453(実際、コンピューターのサイドキーボードを見ると、1で、52である可能性が高くなります!)サンプルをなんらかの方法で「修正」することにより、ランダム変数は最初に記録された範囲内にあると想定されていないため、打ち切られたものにしません(したがって、値4および5に割り当てられる真の確率はありません))。 415245

ケースC)は、従属変数と予測変数がある共同サンプルを指します。通常の例を「労働時間」、失業者が仕事をしませんではなく、彼らは:ここでは、研究対象の現象の構造に起因する従属変数の値は、一方または両方の極端に集中しているサンプルを有していてもよいだろううまくいきました(慎重に考えてください:このケースは、この回答の冒頭の記述的な「定義」に本当に該当しますか?)。したがって、記録された時間「ゼロ」で回帰にそれらを含めると、バイアスが生じます。他の極端な場合、最大労働時間数は16に到達できると主張されるかもしれません16/日、および所定の賃金で非常に多くの従業員を喜んで雇用する従業員がいるかもしれません。しかし、法的枠組みでは許可されていないため、このような「勤務時間」は観察されません。ここでは、「意図された労働供給機能」を推定しようとしています。そして、この変数に関して、サンプルが検閲されていると特徴付けられています。
しかし、「失業現象と法的枠組みを考慮した労働供給機能」を推定することを宣言した場合、サンプルはこれらの2つの側面の効果を反映するため、検閲されません。それを行う。

そのため、データサンプルを
a)検閲済みとして特徴付けるには、さまざまな状況に由来する可能性があり、
b)切り捨て
の場合と混同される可能性があるという事実だけでも注意が必要です。


6
これは計量経済学の観点のようです。生物医学研究では、応答として期間(おそらく文字通り生存)があり、観察期間の終わりまでにイベントを経験しなかったために患者を検閲することが一般的であることに注意してください。しかし、観察期間中に脱落した患者やフォローアップのために失われた患者もいます。(おそらく彼らは去り、接触は失われた。)生存期間は最後の接触よりも長いが、観察期間の終了よりも短くなる可能性があることがわかる。
GUNG -復活モニカ

ケースBは、間違ったデータや汚染されたデータではありません。いくつかの定性的基準(商品の種類、国、入札者の富など)に基づいて、サイレントオークションと公開オークションの組み合わせの最終価格を推定するとします。サイレントオークションの場合、最初の入札(たとえば、1,000ドル)のみがわかり、最終価格はわかりません。何らかの形の検閲モデリングを使用することで、サイレントオークションデータを使用できると言われました。
ロバートキューブリック14年

1
@gungこれは確かに、誰が答えを書いたかを考えると、計量経済学的アプローチです!
アレコスパパドプロ14

1
@RobertKunrickあなたが説明することはケースBに一致しません。ケースBの説明方法では、値の範囲を観察し、観察された値のいくつかは実際には不可能であると言われます。それはオークションの例とどのように一致しますか?
アレコスパパドプロ14

@AlecosPapadopoulosを批判として受け取らないでください。間違いはないと思います。分野ごとに用語が異なって使用されていることを指摘したいと思います。これはstat / biostatの慣習ではありません。
GUNG -復活モニカ

2

私にとって、打ち切りとは、観測値に関する部分情報を観測​​することを意味します。私はこれによって意味するもので、観察するのではなくZを私は = zのたちが観察をZ IA どこ私はの実現であるA Iサンプル空間のいくつかのランダムな粗大化され、。我々は最初のパーティションを選択していることを想像するかもしれませんA IサンプルスペースのZが、その後、Zが、私は、生成されたが、我々は報告A IA IようにZiZi=ziZiaiaiAiAiZZiAiAi(同等に、我々は報告 I Z IA のために、すべての A A I)。たとえば、 Z iの情報価値のない打ち切りは、 A i Z iから独立していることを意味します。ZiAiI(ZiA)AAiZiAiZi

これは少し発見的でずさんです。我々は、おそらくもの分布することを要求すべきである検討する非縮退であるZ iの検閲を。定義されるように我々はまた、これはの一般化であり、なお可能性が不足しているデータのためにZ iは = X IY Iは一つは言うかもしれないYをiがあれば不足している私は = { X } × Y Yを[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×YYのサンプル空間であり、a i = Zの場合Z iは欠落してます。「Z iは打ち切られました」と言うとき、もし彼らが私の定義に従っていれば、彼らが通常意味するのは「Z iは打ち切られているが、欠落していない」ということです。YZiai=ZZiZi


1

それは区別することが重要です検閲切り捨てと同様に不足しているデータ。

打ち切りは、特に生存分析と問題発生時間の結果の問題に適用されます。この場合、目前のイベントは、その個人の観察を停止した時点を過ぎた時点で発生したと想定されます。例としては、男性とセックスを持つ男性(MSM)と、研究コーディネーターとの接触をやめて移動する前向き研究でのHIV感染のリスクがあります。

切り捨ては、実際の値がそのポイントよりも大きいまたは小さいことがわかっている特定のポイントまで評価する連続変数に適用されます。例としては、HIVを患う被験者の監視や、本格的なAIDSの発症などがあり、CD4細胞数が300を下回ると、検出下限300まで評価されます。

最後に、欠損データとは、実際の値が何らかの意味で観察されないデータです。打ち切られたデータには、イベントまでの時間データが欠落しておらず、切り捨てられていません。


1
「切り捨て」の別の使用法があります:カットオフより上/下の観測が得られないデータ生成プロセスを記述するため。古典的な例には、特定の鳥の種の巣で見つかった卵を数えることが含まれます。種は卵からしか識別できません。空の巣はどの種のものでもかまいません。ゼロは不明です。いいえの場合。卵はポアソン分布に従い、空でない巣からの卵数は切り捨てられたポアソンに従います。したがって、特定の明確に定義されたメカニズムに従って、切り捨てにより欠落データが生成されます。
Scortchi-モニカの復職

1
...セルカウントデータは、多くの人の用語の理解に従って実際に検閲されます。これは、イベントまでの時間測定に限定されません。ここで、「切り捨て」(あるいは「ウィンザライズ」)は、300に等しいであるかのように分析、300以下の値すなわち治療の方法を記載している
Scortchi -回復モニカ

打ち切りの生存分析の概念を明確に参照:itl.nist.gov/div898/handbook/apr/section1/apr131.htm
エリックOレビゴ16

-1
  1. 検閲:これは、対象のイベントが発生する前に観測期間が中断されたことを示すために使用される用語です。したがって、「検閲データ」は、特定のイベントの期間が発生していない、または発生していないことを示します

3
サイトへようこそ。これが何らかのソースからコピーされた場合、ソースを引用してください。
GUNG -復活モニカ

3
打ち切りは、時間依存の観測よりもはるかに適用されます。たとえば、検出限界以下の化学物質濃度測定も打ち切られます。
whuber

@whuber:その所見をわかりやすく修正したいと思います。検出限界を下回る化学物質濃度は実際には打ち切られますが、おそらく負になることはないので、分析ではゼロで切り捨てられたと見なす必要があります。打ち切りと打ち切りの違いについての私自身の理解は、切り捨ては、基礎となる分布に可能なパラメーターの範囲に適用されるということです。
DWin

@DWinその思慮深い説明をありがとう。私は最初の点にのみ同意できます。しかし、私が分析したデータセットの大部分では、濃度を対数として再表現する必要がありましたが、その区別はなくなりました。バックグラウンドが差し引かれた他のデータセット(放射線測定など)では、明確な左端点もありません。あなたの2番目のポイントは、私が異常であるように感じます。ディストリビューションファミリのサブセットを作成することを指す「切り捨て」は見たことがありません。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.