特定のタイプの繰り返し測定データの最も適切な特性分布を見つけようとしています。
本質的に、私の地質学の分野では、イベント(岩石がしきい値温度以下に冷却された)が発生するまでの時間を調べるために、サンプル(岩石の塊)からの鉱物の放射年代測定をよく使用します。通常、各サンプルからいくつか(3〜10)の測定が行われます。次に、平均と標準偏差σが取得されます。サンプルの冷却年代から拡張することができますので、これは、地質学である10 5への10 9状況に応じて、年。
ただし、測定値がガウス分布ではないことを信じる理由があります。「外れ値」は、任意に宣言されるか、またはパースの基準[Ross、2003]やディクソンのQ検定[Dean and Dixon、1951]などの基準によって宣言されますよくあり(たとえば、30分の1)、これらはほとんど常に古いものであり、これらの測定値が特徴的に右に歪んでいることを示しています。これが鉱物学的不純物に関係していることには、十分に理解されている理由があります。
これを行う最善の方法は何だろうと思っています。これまでのところ、約600個のサンプルを含むデータベースがあり、サンプルごとに2〜10個程度の測定値を複製しています。それぞれを平均値または中央値で割ってサンプルを正規化し、正規化されたデータのヒストグラムを見てみました。これは妥当な結果を生成し、データが一種の対数ラプラシアンであることを示しているようです:
ただし、これが適切な方法なのか、それとも気付いていないのに結果が偏っている可能性があるという警告があるのかはわかりません。誰かがこの種のことを経験し、ベストプラクティスを知っていますか?