右打ち切りと左打ち切り


10

ウィキペディアは以下の定義を提供します:

右打ち切り:データポイントは特定の値を超えていますが、その量は不明です。
左打ち切り:データポイントが特定の値を下回っていますが、その量は不明です。

これらの定義では、次のことを意味します。

  • 「データポイント」
  • 「特定の価値」、および
  • "いくら"

一般的に、右と左の打ち切りとは何ですか?

以下のステートメントは正しいですか?

「右打ち切りでは、打ち切り値の下限しかありません。」

左打ち切りの類似のステートメントは何でしょうか?


検閲の詳細については、stats.stackexchange.com / questions / 197628 /…も確認してください。
ティム

回答:


14

サバイバルタグが使用されているので、サバイバル分析のフレーバーを使用した例を提供する回答を追加します。

データポイント

データポイントとは、観察結果、つまり1つ以上の変数の結果を意味します。たとえば、データセットに次のようなものがあるとします。この調査の人物1は男性で、58歳で死亡します。データポイントと見なすことができます。しかし、あなたの例では、データポイントが58などの1つの変数の結果のみで構成されていることは明らかです。

右打ち切り

失敗するまでの時間をモデル化している場合、検閲する明らかな理由があります。つまり、必ずしもすべての被験者が失敗するのを待つ時間がないということです。子供のワクチンの効果をテストしているとしましょう。無作為化試験を実施した場合、最後の被験者は今から100年以上後に死亡します。これは当然、検閲、この場合は右検閲を導入します。ある時点で、「この人がどれくらい長く生きるかわからない、彼女がまだ生きていることしか知りません」と言わざるを得ないでしょう。右打ち切りは、無作為化試験の人々が追跡調査に負けた場合にも発生する可能性があります。たとえば、研究への参加を中止したり、離脱したりする場合などです。これらは右打ち切りの例です。基本的には 被験者の寿命に関心がありますが、実際の状況により、観測されたのは観測のみです。つまり、一部の被験者については、いつ死ぬかわからず、ある時点(打ち切り時間)でのみ生存していました。したがって、打ち切られた個人の場合、データポイント(死亡時刻)が特定の値(打ち切り時刻)よりも大きいことがわかります。

左打ち切り

バツバツ

この例は

Andersen、PK、Borgan、Ø。、Gill、RD、and Keiding、N.(1993)、Counting based on Counting Processes、Springer Series in Statistics、Springer-Verlag、New York

この本は打ち切りの数学的な定義を提供し、おそらく人が得るべき生存分析に関する最初の本ではありません。ただし、上記のように直感的な例もあります。


しかし、たとえば、その場所に到着したとき、ヒヒ1頭はまだ降下していません(午前9時、特定の値)。それで、いつ下降するかを観察し始めました。それでは、データポイント(降下時間)が特定の値(午前9時)を超えていませんか?しかし、それでも左打ち切りデータです。ウィキペディアはより一般的に定義を与えましたか?
ABC

1
私は部隊全体が一度にすべて一緒に降下すると仮定しました。しかし、それは大きな違いはありません。降下後に到着する場合、降下時間の上限(つまり、到着時間)しかわからないため、このデータポイント(特定の日の降下時間)は左打ち切りになります。降下する前に到着した場合、そのデータポイントは打ち切られません(待機に飽き飽きして降下する前に離れない限り、その場合、データが毎日降下すると仮定して、右打ち切りデータがあります)。
swmo

正しく打ち切られたデータの別の例は、それが始まっていることを知らない時間間隔データです。これは、多くの場合、右打ち切りデータと誤解されます(この誤解のあるフォーラムやメーリングリストにはいくつかの例があります)。
drevicko 2015

4

バンドが演奏できるバーを所有しているとしましょう。バーはかなり小さいので、一度にショーを見ることができるのは150人だけです(これが重要です)。私はショーのチケットを販売しているので、私の会計データは次のようになります。

date     band               price   tickets_sold
10/01/14 Texas Instruments  $20     2
10/02/14 Unkind Donuts      $30     150
...
03/02/15 The Capybaras      $15     120

データポイントは、このテーブルの単なる行です。

検討したい変数がチケットの需要であるとします。最初の番組の需要は検閲されません。Texas Instrumentsが20 ドルで見たいと思ったのはたった2人で、148枚のチケットが売れ残りました。私は20 ドルの需要を正確に知っています。

ただし、ショーが売り切れたため、2行目で需要変数は打ち切られました。少なくとも150人がチケットあたり30 ドルで Unkind Donutsを見たいと思っていたのはわかっていますが、チケットなしで却下された人の数は私にはわからないので、需要は正確にはわかりません。私が知っているのは150 の下限です。

ここで、代わりに3番目のショーへの出席を測定したいとします。ドアで人を数えることもできますが、この例では、用心棒の演算能力が低いと仮定します。一部の人々はチケットを購入し、その後来ないことを知っています。これは、チケットが販売された回数であるため、出席者は最大で120であることを意味します。それは、左検閲されているカピバラの出席の上限です。


1

左打ち切りに関する一般的な誤解は、時間間隔のデータポイントの分類であり、その始まりが分からないというものです。これは左打ち切りであると多くの人が考えていますが、間隔の長さに下限があるため、実際には右打ち切りです。

具体的な例としては、通常は非終末期の疾患である「foo-pox」の期間に関する臨床データが考えられます。私たちは、人々が回復するのにかかる時間の長さに関心があります。foo-poxの症状は簡単に観察できます(例:歯が緑色になります)。私たちの研究のほとんどの人々は、それがいつ始まり、いつ終わるのかを正確に知っています。

このタイプの研究における右打ち切りデータの古典的な例は、研究の終わりにまだfoo-poxがあったか、研究中に消えた(「失われたフォローアップ」)ときにfoo-poxがあった被験者です(これらの人々の病気の開始日を知っている)。これらの人々の場合、期間の下限があるため、データは正しく検閲されます。期間の右端が分からないため、これは直感的に「右打ち切り」になります。

問題は、期間の開始日がわからない場合です(一人暮らしで鏡を持っていない人は、歯がいつ緑になったかわからない)。これらは左または右の打ち切りですか?多くの人は、期間の左端が不明であると誤って考えているため、検閲されています。これは、この種の検閲が存在しないときに開発されたと思われる用語の残念な結果です。これらの人々の場合、私たちには期間の下限があります(少なくとも隣人が緑の歯について話してから、治るまで、または研究が終了し、彼らがまだ病気であるまで、彼らはfoo-poxを患っていたことがわかっています)。したがって、彼らのデータは右検閲


2
あなたの答えは少しわかりにくいと思います。最初に、時間間隔の打ち切りについて話し、後で期間(単一の数値)の打ち切りについて話します。最後の段落では、データがfoo-poxの発生時から死亡までの間隔であると同様に述べることができます。その場合、正確な開始時間を必ずしも知る必要はないので、例では左打ち切りの間隔があります。上限のみです。同様に、foo-poxの継続時間を確認することもできます(その場合、継続時間の下限が得られるため、右打ち切りになります)。
swmo 2015

次に、たとえばR Survオブジェクトのように、データにこれをどのようにコーディングしますか?左上に打ち切られたレコードのイベントは「寛解」または「イベント発生」であり、右に打ち切られたレコードのイベントは「右打ち切り/発生なし/寛解なし」でしょうか?また、これらは疾患の発症からの関数としてモデル化する必要があるため、2つのタイプの右端が切り捨てられたイベント間でハザード率は異なる必要があるようです。どのタイプのモデルがこれを処理しますか?
Allen Wang

@AllenWang Afraid私はR Survオブジェクトに慣れ親しんでいるわけではありませんが、用語が一貫していることを期待しているので、注意深く理解して従えば、大丈夫です。危険率については違いはありません。どちらの場合も、イベント期間の下限のみがあります。
drevicko 2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.