2つの指数分布データセットがあり、それらが異なる分布からのものであることを確認したいと思います。残念ながら、データの検出に必要なエラーがあるため、特定のしきい値以下のすべてのデータを破棄する必要があります。各セットには約3000のデータポイントがあり、データをプロットするとラムダ値が異なると思います。フィッティングはラムダの異なる値も生成します。
両方のデータセットが異なる分布に由来することをどのように確認できますか?
ここでは、セットがどのように見えるかのプロット(lifetime = 3secの下のすべての値を破棄する必要があることに注意してください):
更新:上記の分布はどちらの場合も、データポイントの総数Nが異なるため、グラフで比較するためだけにNで正規化されています。
UPDATE2:切り捨て後、赤のデータセットには約150、青のデータセットには350のライフタイム値があります。3000は誇張されたことがわかりました(すみません)。
UPDATE3:お付き合いいただきありがとうございます。これが生データです:
http://pastebin.com/raw.php?i=UaGZS0im
http://pastebin.com/raw.php?i=enjyW1uC
これまでのところ、両方のデータセットに指数関数を当てはめ、勾配を比較しました。正規化によってデータの勾配が変わることはないので、勾配が異なると、基になる指数分布も異なることになります(私の統計分析の経験は非常に限られています)。
測定はそのレジームで頻繁に多くのイベントを検出するため、しきい値未満の値は破棄されます。
UPDATE4:私の問題は思ったよりずっと複雑だと気づきました。私は実際に打ち切りのまま(一部のイベントの始まりがわからない)と右打ち切り(一部のイベントの終わりがわからない)データを残しており、3秒未満のすべてのライフタイムを破棄する必要があります(トランケーション)。これらすべてを1つの分析に組み込む方法はありますか?これまでのところ、打ち切りデータ(生存分析)を処理する方法についていくつかのヘルプが見つかりましたが、切り捨てをどうすればよいですか?