2つの指数分布データセットが異なるかどうかをテストします


8

2つの指数分布データセットがあり、それらが異なる分布からのものであることを確認したいと思います。残念ながら、データの検出に必要なエラーがあるため、特定のしきい値以下のすべてのデータを破棄する必要があります。各セットには約3000のデータポイントがあり、データをプロットするとラムダ値が異なると思います。フィッティングはラムダの異なる値も生成します。

両方のデータセットが異なる分布に由来することをどのように確認できますか?

ここでは、セットがどのように見えるかのプロット(lifetime = 3secの下のすべての値を破棄する必要があることに注意してください):

更新:上記の分布はどちらの場合も、データポイントの総数Nが異なるため、グラフで比較するためだけにNで正規化されています。

UPDATE2:切り捨て後、赤のデータセットには約150、青のデータセットには350のライフタイム値があります。3000は誇張されたことがわかりました(すみません)。

UPDATE3:お付き合いいただきありがとうございます。これが生データです:

http://pastebin.com/raw.php?i=UaGZS0im

http://pastebin.com/raw.php?i=enjyW1uC

これまでのところ、両方のデータセットに指数関数を当てはめ、勾配を比較しました。正規化によってデータの勾配が変わることはないので、勾配が異なると、基になる指数分布も異なることになります(私の統計分析の経験は非常に限られています)。

測定はそのレジームで頻繁に多くのイベントを検出するため、しきい値未満の値は破棄されます。

UPDATE4:私の問題は思ったよりずっと複雑だと気づきました。私は実際に打ち切りのまま(一部のイベントの始まりがわからない)と右打ち切り(一部のイベントの終わりがわからない)データを残しており、3秒未満のすべてのライフタイムを破棄する必要があります(トランケーション)。これらすべてを1つの分析に組み込む方法はありますか?これまでのところ、打ち切りデータ(生存分析)を処理する方法についていくつかのヘルプが見つかりましたが、切り捨てをどうすればよいですか?


プロットは密度を示しているように見えるので、それらはどのように推定されますか?
Yves

これらは打ち切られたデータのように聞こえます。しきい値を下回ったものを破棄することで、情報を失い、結果にバイアスをかける可能性があります。代わりに、そのしきい値が何であるか(3秒です)を報告し、各グループ内の破棄された値の数を提供する必要があります。また、しきい値の下に表示されるすべての定量化されたデータ(左下のブラウンポイントなど)についても説明する必要があります。縦軸に「密度」というラベルを付けるのは不思議です。確かに、元のデータは単なるライフタイムであり、このプロットは狭いライフタイムクラス内のカウントを提供しますか?
whuber

あなたが@Glen_bによって記載されているように、あなたは手段の比較ですためにF検定を使用することができます(しきい値以上)2つの条件付き分布を比較したい場合はstats.stackexchange.com/a/76695/10479
イヴ・

正規化を削除して、実際のデータを確認し(正規化によって重要な情報が破壊される)、データで通常破棄する値の数を教えてください。
whuber

生データを質問に追加しました。最初のデータセットでは、50%を2番目のデータセットで約30%破棄する必要があります。
MaxJ、2015年

回答:


5

指数分布する寿命は、生存分析の特に単純なケースです。それらを分析することは、多くの場合、学生をより複雑な状況に移行する前に始めるために機能する最初の例です。さらに、生存分析は打ち切りデータに当然適しています。つまり、治療効果として2つの分布のグループ化指標を使用した生存分析を使用することをお勧めします。必要に応じて、パラメトリックモデル(たとえば、指数がWeibullの特殊なケースであるため、ワイブルモデル)を使用することも、ログランク検定などの非パラメトリックな方法を使用することもできます。


これは切り捨てられたデータにも適用されますか?私の問題は検閲とは少し違うと思いますか?
MaxJ、2015年

@ user3683367、切り捨ては打ち切りとは異なります。これらは、検出限界を超える分布の違いをテストします。
ガン-モニカの回復

切り捨て(新しい設定)を取り除き、MATLABS統計ツールボックスで左右の打ち切りデータを使用しました。左と右の打ち切りデータでワイブル関数を使用しました。当てはめられた平均は異なり​​、それらの誤差範囲は重複しません。分布が実際に同じである確率を計算するにはどうすればよいですか?
MaxJ、2015年

10

2

H0:λ1=λ2λiλ

サンプルサイズが大きいため、これをテストするために、中心極限定理に訴えると次のようになります。

X1,X2,...XnE[Xi]=μ and Var[Xi]=σ2<nn(X¯μ)N(0,σ2)

つまり、2つのグループのそれぞれの標本平均は、ほぼ正規分布です。の真の値がわからないので、平均の差についてt検定を実行できます。σ2


1
指数分布は歪んでいるため、CLTの適用を正当化するために少し分析が必要です。実際にこれらのデータが打ち切られなかった場合、は、通常の近似を適切なものにするのに十分以上であることがわかります。(証明: iid 指数の平均のcgf はであり、歪度はであることを意味します、これはは小さいです。)しかし、どちらかのデータセットのか​​なりの割合が破棄された場合、これは重大なエラーになる可能性があります。、N ψ T = T 2 /2 N + iは、tは3 /3 N 2+ O T 42 n=3000nψ(t)=t2/(2n)+it3/(3n2)+O(t4) n=30002nn=3000
whuber

質問を編集しました。N = 100-300の左打ち切りデータに本当にCLTを適用できますか?
MaxJ、2015年

私が間違っている場合は修正してください。ただし、指数分布が切り捨てられると純粋な指数分布ではなくなるというWhuberの要点は信じています。私の議論の核心は、指数分布の平均がそれを一意に識別するということです。この新しい切り捨てられた分布がもはや一意に識別されない場合は、私の主張が失敗する可能性があることを意味します。データが切り捨てられているかどうかにかかわらず、平均t検定の違いを実行できます。平均が異なる場合、分布は異なります。
TrynnaDoStat 2015年

WhuberのポイントがCLTが適用されないことである場合、私は彼に同意する必要があります。データが純粋なまたは切り捨てられた指数分布からのものであるかどうかに関係なく、いくつかの平均およびいくつかの有限分散持つ同じ分布からのiidサンプルがまだあります。σ 2μσ2
TrynnaDoStat 2015年

2
私の要点は、CLTが適用できないということではありません。それを適用するには、漸近近似が適切であること確認する必要があるということです。CLTは、特定の有限数のiid有限分散変数の平均の分布についてはまったく何も述べていません。そして、検閲と混同しないで切り捨てを行ってください:検閲により作成された問題は、データの一部が(彼らは区間である)番号さえないということである-ので、なおさら CLTは、(直接)そのような状況に適用することはできません。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.