記述的に言えば、「データサンプルは、その中のいくつかの観測値がサンプルの極値をとる、または構成するが、その真の値が観測されたサンプル範囲外の場合、打ち切られます」を提供します。しかし、これは一見簡単です。
そこで、まず、データセットが打ち切られたと結論付ける方法について説明しましょう。これにより、質問で提示されたケースを議論することになります。
離散確率変数から次のデータセットが与えられたと仮定します。これについて知っているのは、それが負でないことだけです。X
{0,1,1,2,2,2,2,2,2,2}
データセットが打ち切られていると言えますか?まあ、それはそうかもしれないと考える権利がありますが、必ずしもそうではありません:
1)範囲有していてもよい、{ 0 、1 、2 }と確率分布{ 0.1 、0.1 、0.8 }。これが実際に当てはまる場合、ここでは打ち切りは行われず、境界付きのサポートと非常に非対称な分布を持つ、このようなランダム変数からの「予測される」サンプルだけが表示されます。 X{0,1,2}{0.1,0.1,0.8}
2)しかし、その場合であってもよい範囲有する{ 0 、1 、。。。、9 }一様な確率分布をもつ{ 0.1 、0.1 、。。.0 .1 }、この場合、データサンプルはほとんど打ち切られます。 X{0,1,...,9}{0.1,0.1,...0.1}
どうすればわかりますか?私たちは、事前の知識や情報を持っている場合を除き、いずれかのケースに賛成して議論することはできません。質問で提示された3つのケースは、打ち切りの効果に関する事前知識を表していますか?どれどれ:
ケースA)は、「非常に大きい」、「非常に小さい」などの定性的な情報しか持たない一部の観測について、極端な値を観測に割り当てる状況を示しています。実際に実現された値を知らないだけでは、極端な値を割り当てることを正当化しないことに注意してください。だから我々は持っている必要がありますいくつかのこれらの観察のために、その値を超えたり、すべての観測されたものを下回っている旨の情報を。この場合、ランダム変数の実際の範囲は不明ですが、定性的な情報により、打ち切りサンプルを作成できます(実際の実現値を持たない観測値を単にドロップしない理由については別の議論です) )。
ケースB)は、正しく理解していれば検閲のケースではなく、汚染されたサンプルのケースです:先験的な情報は、ランダム変数の最大値が超えてはならないことを示しています(物理法則またはこの-suppose社会法則はグレーディングシステムから成績データであることを使用する唯一の値1 、2 、3)。しかし、値4と値5も観察しました。どうすればいいの?データの記録の間違い。しかし、そのような場合、4と5がすべて3である必要があることは確かではありません31,2,345453(実際、コンピューターのサイドキーボードを見ると、が1で、5が2である可能性が高くなります!)サンプルをなんらかの方法で「修正」することにより、ランダム変数は最初に記録された範囲内にあると想定されていないため、打ち切られたものにしません(したがって、値4および5に割り当てられる真の確率はありません))。 415245
ケースC)は、従属変数と予測変数がある共同サンプルを指します。通常の例を「労働時間」、失業者が仕事をしませんではなく、彼らは:ここでは、研究対象の現象の構造に起因する従属変数の値は、一方または両方の極端に集中しているサンプルを有していてもよいだろううまくいきました(慎重に考えてください:このケースは、この回答の冒頭の記述的な「定義」に本当に該当しますか?)。したがって、記録された時間「ゼロ」で回帰にそれらを含めると、バイアスが生じます。他の極端な場合、最大労働時間数は16に到達できると主張されるかもしれません16/日、および所定の賃金で非常に多くの従業員を喜んで雇用する従業員がいるかもしれません。しかし、法的枠組みでは許可されていないため、このような「勤務時間」は観察されません。ここでは、「意図された労働供給機能」を推定しようとしています。そして、この変数に関して、サンプルが検閲されていると特徴付けられています。
しかし、「失業現象と法的枠組みを考慮した労働供給機能」を推定することを宣言した場合、サンプルはこれらの2つの側面の効果を反映するため、検閲されません。それを行う。
そのため、データサンプルを
a)検閲済みとして特徴付けるには、さまざまな状況に由来する可能性があり、
b)切り捨て
の場合と混同される可能性があるという事実だけでも注意が必要です。