生涯データの統計モデルと方法の本には、次のように書かれています。
打ち切り:何らかのランダムな原因により観測が不完全な場合。
切り捨て:観察の不完全な性質が、研究デザインに固有の体系的な選択プロセスに起因する場合。
切り捨ての定義における「研究デザインに固有の体系的な選択プロセス」とはどういう意味ですか?
打ち切りと切り捨ての違いは何ですか?
生涯データの統計モデルと方法の本には、次のように書かれています。
打ち切り:何らかのランダムな原因により観測が不完全な場合。
切り捨て:観察の不完全な性質が、研究デザインに固有の体系的な選択プロセスに起因する場合。
切り捨ての定義における「研究デザインに固有の体系的な選択プロセス」とはどういう意味ですか?
打ち切りと切り捨ての違いは何ですか?
回答:
定義はさまざまであり、2つの用語は時々交換可能に使用されます。以下のデータセットを使用して、最も一般的な使用法を説明しようとします
打ち切り:一部の観測値は打ち切られます。つまり、観測値が境界を下回っている(または上にある)ことしかわかりません。これは、たとえば、水サンプル中の化学物質の濃度を測定する場合に発生する可能性があります。濃度が低すぎる場合、実験装置は化学物質の存在を検出できません。それでも存在する可能性があるため、濃度が検査室の検出限界を下回っていることがわかっているだけです。
検出限界が1.5であるため、この限界を下回る観測値が打ち切られる場合、データセットの例は次のようになります。 つまり、最初の2つの観測の実際の値。ただし、それらが1.5より小さいことのみ。
切り捨て:データを生成するプロセスは、切り捨て制限を超える(または下回る)結果のみを観察できるようにします。これは、たとえば、検出した信号が特定の制限を超えた場合にのみアクティブになる検出器を使用して測定を行った場合に発生する可能性があります。弱い着信信号がたくさんある可能性がありますが、この検出器を使用して伝えることはできません。
切り捨ての制限が1.5の場合、サンプルのデータセットは なり、実際には記録されていない2つの信号があることがわかりません。
別のフィールド(プログラミング)から見たように、打ち切りと切り捨ては2つの異なる操作です。
社会保障番号や電話番号などの機密データセットを使用する場合、アクセスを許可する前にそれを検閲するか、検閲することがあります。
123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000
これにより、アプリケーションの残りの部分は通常の動作と同様のデータ構造で動作しますが、実際の情報コンテンツや個人情報の拡散はありません。
対照的に、切り捨ては通常、特定のポイントの後に残りの値を切り捨てるだけです。アプリケーションで作業するために、数十万のレコードは必要ありません。おそらく、それぞれのレコードが50個だけあれば、データアクセスがはるかに高速になり、データセットが小さくなります。
切り捨ての同様のバリアントは、長さまたは精度が制限されている列またはデータ型に値を挿入する場合です。
abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10