未知の分布のデータを正規化する方法


12

特定のタイプの繰り返し測定データの最も適切な特性分布を見つけようとしています。

本質的に、私の地質学の分野では、イベント(岩石がしきい値温度以下に冷却された)が発生するまでの時間を調べるために、サンプル(岩石の塊)からの鉱物の放射年代測定をよく使用します。通常、各サンプルからいくつか(3〜10)の測定が行われます。次に、平均と標準偏差σが取得されます。サンプルの冷却年代から拡張することができますので、これは、地質学である10 5への10 9状況に応じて、年。μσ105109

ただし、測定値がガウス分布ではないことを信じる理由があります。「外れ値」は、任意に宣言されるか、またはパースの基準[Ross、2003]やディクソンのQ検定[Dean and Dixon、1951]などの基準によって宣言されますよくあり(たとえば、30分の1)、これらはほとんど常に古いものであり、これらの測定値が特徴的に右に歪んでいることを示しています。これが鉱物学的不純物に関係していることには、十分に理解されている理由があります。

サンプル年齢の中央値と中央値。 赤い線は、平均=中央値を示します。 測定値が歪んでいることに起因する古い手段に注意してください。

μσ

これを行う最善の方法は何だろうと思っています。これまでのところ、約600個のサンプルを含むデータベースがあり、サンプルごとに2〜10個程度の測定値を複製しています。それぞれを平均値または中央値で割ってサンプルを正規化し、正規化されたデータのヒストグラムを見てみました。これは妥当な結果を生成し、データが一種の対数ラプラシアンであることを示しているようです:

ここに画像の説明を入力してください

ただし、これが適切な方法なのか、それとも気付いていないのに結果が偏っている可能性があるという警告があるのか​​はわかりません。誰かがこの種のことを経験し、ベストプラクティスを知っていますか?


4
「正規化」はこのようなコンテキストでいくつかの異なることを意味するために使用されるため、正確には「正規化」とはどういう意味ですか?データから取得しようとしている情報は何ですか?
Glen_b

1
@Glen_b:「正規化」とは、サンプルのすべての測定された年齢を中央値(または平均など)で中央値(または平均値)でスケーリングすることを意味します。サンプルの分散が年齢とともに直線的に増加するという実験的証拠があります。データから得たいのは、このタイプの測定が、正規分布、対数正規分布、ベータ分布、または分布によって最も特徴づけられているかどうかを確認することです。 L2回帰の正当化など。この投稿では、説明したデータをどのように取得して調査できるかを尋ねています。
cossatot

1
私はこの分野の専門知識はありませんが、あなたのグラフとこれにあなたが入れた考えは良いようです。既に見たことがあるかもしれませんが、Log-LaplaceのWikipediaの記事は、あなたの質問を直接扱っ
ウェイン

完全に理解したかどうかはわかりませんが、ブートストラップが役立つかもしれませんか?ブートストラップ方法を使用して分布の分散などを回復する場合、回復した情報を使用してデータを正規化できます。en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

回答:


1

各サンプルの(3-10)測定値の平均を取ることを検討しましたか?次に、結果の分布を操作できますか?これは、t分布を近似し、より大きいnの正規分布を近似しますか?


1

正規化を使用して、それが通常意味することを意味しているとは思わない。これは通常、平均や分散、または白色化などを正規化するようなものです。

あなたがやろうとしているのは、データで線形モデルを使用できるようにする非線形の再パラメータ化や機能を見つけることです。

これは簡単なことではなく、簡単な答えはありません。データ科学者に多くのお金が支払われる理由です;-)

非線形フィーチャを作成する比較的簡単な方法の1つは、フィードフォワードニューラルネットワークを使用することです。この場合、レイヤーの数とレイヤーごとのニューロンの数が、フィーチャを生成するネットワークの容量を制御します。容量が大きいほど、非線形性が高くなり、オーバーフィットが大きくなります。容量が小さい=>直線性が高く、バイアスが大きく、分散が小さい。

もう少し制御できる別の方法は、スプラインを使用することです。

最後に、手でそのような機能を作成することができますが、それはあなたがやろうとしていることだと思いますが、単純な「ブラックボックス」の答えはありません:データを慎重に分析し、パターンを探す必要があります。


ノーマライズには、数学と科学にまたがるいくつかの意味があります。個人的に最も馴染みのあるものが標準であると宣言することは、ほとんどの人がやろうとしていることですが、他の人と一緒に洗うことはありません。より深刻なことに、これは話題から始まりますが、その後は変わります。非線形モデルへの関心の表示はどこですか?ニューラルネット?スプライン?これらは、ディストリビューションまたはディストリビューションのファミリーを特定することに関係していますが、これは問題ですか?接続が表示されないので、関係のないものをカットするか、関係を示すためにそれを展開することをお勧めします。
ニックコックス

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.