ポイントではなく間隔として与えられたデータの分析


7

としてなく、ペアとして与えられていないデータのセットがあります各ペア、真のx_iは区間(x ^ {(start)} _ i、x ^ {(end)} _ i)にあり、しかし、それはどこにあるかはわかりません。バツ=バツ1バツバツterval=バツ1startバツ1edバツstartバツedバツstartバツedバツバツstartバツed

これは、x _ {{start)} _ iの後でx ^ {(end)} _ iの前に発生したイベントバツ発生したことがわかる間隔があることを意味します。バツstartバツed

分析の目的は、このデータをモデル化するか、何らかの方法で分布を近似することです。最初に、間隔に含まれる情報を使用して、正規分布を監視されていないイベントの分布に適合させることから始めます 。バツ

この種の問題に関する情報を見つけるのに非常に苦労しています。これは統計的区間分析の既知の研究分野ですか?


1
これは、生存分析における両面打ち切りに少し似ています。しかし、それは時間の打ち切りではなく、間隔ごとに1つの観測のみの複数の間隔があります。各区間に未知のxの分布を配置する場合は、区間内の特定の点を他の点よりも優先する理由がないと思うので、一様分布を使用します。
Michael R. Chernick 2017年

2
このサイトには間隔検閲用のタグがあります。おそらくそこにあるいくつかの回答が役立つかもしれません。
mdewey 2017年

1
間隔の生成方法が参考になると考えられます。そのため、これらの間隔が実際に何を表しているのかをよりよく理解できるようになるまで、これらのデータの分析にオムニバスの「間隔打ち切り」手法を適用することに消極的です。詳しく説明してもらえますか?たとえば、多くのデジタルメーターは測定値を最も近い10の累乗に切り捨てますが、すべての間隔は事前定義された端点で共通の幅を持っています。他の場合では、測定自体の特性が原因で、間隔幅が測定によって異なる場合があります。
whuber

回答:


10

データは打ち切られており、特に区間打ち切りです。打ち切り、特に右打ち切り(開始は終了)は、イベント発生までの時間データの一般的な機能であり、生存分析(医学)または信頼性分析(エンジニアリング)の下で処理されます。

このようなデータのパラメトリックモデリングの重要な洞察は、打ち切られていないデータからの共同尤度への寄与が形式でに対し、打ち切られたデータからの寄与はの形式であるということですここでは密度、は分布関数です。独立した打ち切り(想定してはいけない)の仮定の下では、打ち切り時間にはパラメーターに関する追加情報が含まれていないため、これらは推論に必要な可能性の唯一の部分です。正規分布が適切であると思われる場合は、平均および分散パラメーターに対する尤度のコンタープロットから始めて、初期の最尤推定値を数値的に改善します。

fバツ
FバツedFバツstart
fF

検閲と区間検閲という用語に関連していただき、ありがとうございます。2つのCDFの違いとしての尤度の寄与は確かに私の直感でしたが、それが理にかなっていると見るのは素晴らしいことです。再度、感謝します!
Kees Mulder

5

単変量分布を調べる良い出発点は、ノンパラメトリック最尤推定量(NPMLE)を調べることです。これはカプラン・マイヤー曲線の一般化であり(それ自体は経験分布関数の一般化です)、累積分布関数のノンパラメトリック推定を提供します。興味深いことに、この推定値は(EDFやカプランマイヤー曲線とは異なり)一意ではなく、区間まで既知です。したがって、単一のステップ関数ではなく、NPMLEをバインドする2つのステップ関数を取得します。

この推定量は分布の形状を調べるのに適していますが、少し不安定になる可能性があります。つまり、推定値の分散が大きくなる可能性があります。標準のパラメトリックモデルに適合させることもできますが、少なくともモデルチェックにはNPMLEを使用することをお勧めします。

標準的な生存回帰モデルの多くが利用可能です(比例ハザード、加速故障時間、比例オッズなど)。興味深いことに、NPMLEは生存曲線の推定値に高い分散を持っていますが、ベースライン分布にNPMLEを使用するセミパラメトリックモデルの回帰パラメーターは不安定性の影響を受けません。そのため、セミパラメトリック回帰法は推論には非常に人気があります。

@Scortchiと@whuberは、観測間隔の開始と終了の生成に関する重要なポイントを提示します(バツstartバツedOPで定義されているとおり)。標準的な簡素化の前提(慎重に検討する必要があります)は、一連の検査時間があることです。C0C1Ck生成される独立して、実際のイベント時間/成果のt関心のあるもの(イベント時間を正確に観察すると平等が発生します)。次に、観察するのは間隔だけですCjCj+1 そのような tCjCj+1。ただし、イベント時間が検査時間に強く影響する可能性があると思われる場合は、分析に注意する必要があります。例として、関心のあるイベントが虫歯の発症であり、検査が歯科医の訪問であったと仮定します。かなり定期的に歯科医に通う場合、独立性の仮定は合理的であると思われます。しかし、歯が痛いときを除いて、ほとんど歯科医に通わなければ、t 間違いなく影響を与えています Cj

私のR-のパッケージにこれらのモデルを使用するための簡単なチュートリアルをicenReg見つけることができるここに

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.