打ち切りと切り捨ての違いは何ですか？

生涯データの統計モデルと方法の本には、次のように書かれています。

打ち切り：何らかのランダムな原因により観測が不完全な場合。
切り捨て：観察の不完全な性質が、研究デザインに固有の体系的な選択プロセスに起因する場合。

切り捨ての定義における「研究デザインに固有の体系的な選択プロセス」とはどういう意味ですか？

打ち切りと切り捨ての違いは何ですか？

self-study censoring truncation

— ABC
ソース

ここで答えを見てください。

— Dimitriy V. Masterov

検閲：「その地域のどこかで観測が行われましたが、それが何であるかわかりません」切り捨て：「観察？何の観察？」

— Glen_b-モニカを

定義はどこから引用されていますか？

— グレン_b-モニカを復元

@Glen_b質問を編集しました。

— ABC

回答:

定義はさまざまであり、2つの用語は時々交換可能に使用されます。以下のデータセットを使用して、最も一般的な使用法を説明しようとします

1 1.25 2 4 5

$1\qquad 1.25\qquad 2\qquad 4 \qquad 5$

打ち切り：一部の観測値は打ち切られます。つまり、観測値が境界を下回っている（または上にある）ことしかわかりません。これは、たとえば、水サンプル中の化学物質の濃度を測定する場合に発生する可能性があります。濃度が低すぎる場合、実験装置は化学物質の存在を検出できません。それでも存在する可能性があるため、濃度が検査室の検出限界を下回っていることがわかっているだけです。

検出限界が1.5であるため、この限界を下回る観測値が打ち切られる場合、データセットの例は次のようになります。つまり、最初の2つの観測の実際の値。ただし、それらが1.5より小さいことのみ。

< 1.5 < 1.5 2 4 5,

$<1.5\qquad <1.5\qquad 2\qquad 4 \qquad 5,$

切り捨て：データを生成するプロセスは、切り捨て制限を超える（または下回る）結果のみを観察できるようにします。これは、たとえば、検出した信号が特定の制限を超えた場合にのみアクティブになる検出器を使用して測定を行った場合に発生する可能性があります。弱い着信信号がたくさんある可能性がありますが、この検出器を使用して伝えることはできません。

切り捨ての制限が1.5の場合、サンプルのデータセットはなり、実際には記録されていない2つの信号があることがわかりません。

2 4 5

$2\qquad 4 \qquad 5$

— マンス
ソース

したがって、この用語の使用に関して、単語の非技術的な使用の観点から考えると、「検閲された」は誤解を招くでしょうか？すなわち、この統計的な意味では、非技術的な意味のようなものではなく、「曖昧な」または「ある範囲内にあることが知られている」ようなものを意味します。その内容の。

— 火星

切り捨ての具体的な例として、自動車保険会社は、損害が控除額よりも少ない事故について聞いたことはありません。人々がそこに報告しないからです。これは左切り捨てです。これらのインシデントに関するデータはまったく表示されません。正しい検閲の例として、病気の患者が医師の診察をやめるか、別の都市に移動することを決めた場合、知られているのは彼らが去った日に生きていたということだけですが、彼らがいつ死んだかはわかりません。

— デビッドホワイト

@Mars：「検閲」がすべての痕跡を削除し、「切り捨て」が詳細を削除する現代の非技術的な使用法から逆に聞こえることに同意します。しかし統計では、「検閲」は、検閲者が何かの痕跡を削除することはできますが、削除することはできませんが、写真やビデオの不快な部分に置かれた黒いボックスや冒,、冒proをカバーする音ラジオ、または自宅への兵士の手紙または機密文書のリリース（検閲された（より現代的な用語は "編集済み"）部分は黒く塗りつぶされています）。

— ウェイン

2種類のイベントイベント間の時間経過を測定するとします。ただし、イベントを記録できるのは1年間のみです。時間は打ち切られるか、切り捨てられますか？

— スカン

別のフィールド（プログラミング）から見たように、打ち切りと切り捨ては2つの異なる操作です。

社会保障番号や電話番号などの機密データセットを使用する場合、アクセスを許可する前にそれを検閲するか、検閲することがあります。

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

これにより、アプリケーションの残りの部分は通常の動作と同様のデータ構造で動作しますが、実際の情報コンテンツや個人情報の拡散はありません。

対照的に、切り捨ては通常、特定のポイントの後に残りの値を切り捨てるだけです。アプリケーションで作業するために、数十万のレコードは必要ありません。おそらく、それぞれのレコードが50個だけあれば、データアクセスがはるかに高速になり、データセットが小さくなります。

切り捨ての同様のバリアントは、長さまたは精度が制限されている列またはデータ型に値を挿入する場合です。

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10

— エーリク
ソース

+1打ち切りと切り捨ては、統計以外ではまったく異なる意味を持つ可能性があることを知っておくことが重要です！

— MånsT