「正規化」とは何を意味し、サンプルまたは分布が正規化されていることを確認する方法は何ですか?


18

一様分布()が正規化されているかどうかを確認する質問があります。Uniform(a,b)

  1. 1つは、分布が正規化されるとはどういう意味ですか?
  2. 2つ目は、分布が正規化されているかどうかを確認する方法です。

Xmeansd
を計算 することで、正規化されたデータを取得することがわかりますが、ここでは、分布が正規化れているかどうかを確認しています。

3
正規化される分布の意味はそれほど単純ではありません(通常、正規化されるのは分布自体ではなく、ランダム変数です)。たとえば、ユニフォームの場合、一部の人々は「標準ユニフォームを取得するために線形に再スケーリング」(つまり、a = a=0およびb = 1を取得するb=1)を意味するかもしれません...平均0とsd 1 "を取得します。ユニフォームの場合、通常は最初のものを想定しますが、以下の回答からわかるように、他の人がそれを別のものと解釈する場合があります。最良のオプションは、この用語を使用している人にあいまいさを少なくすることです。
Glen_b-モニカを復活

1
より一般的な用語は標準化され(平均0とSDが1になる)、正規化されます(範囲を区間[0,1]か、ベクトルノルムを1に再スケーリングし1ます)。したがって、再表現X(Xmean)/SD標準化であり、密度fに定数Cを掛けて\ int _ {-\ infty} ^ \ infty Cf(x)dx = 1とする\ int f(x)dxfL ^ 1ノルムであるためCf(x)dx=1正規化です。f(x)dxL1f
whuber

math.SEでも質問しました。
サルウェートディリップ

1
@Adaをクロスポストしないでください。それはSEポリシーに反しています。1つのサイトにQを投稿し、別のサイトにQを投稿すべきだと思う場合は、Qにフラグを立てて、モデレーターに移行を依頼してください。
GUNG -復活モニカ

回答:


33

残念ながら、用語は異なる分野で、同じ分野内の異なる人々などによって異なる方法で使用されているため、ここでどのように答えられるかわかりません。インストラクター/教科書が「正規化」に使用している定義を必ず確認してください。ただし、一般的な定義は次のとおりです。

中央揃え: 標準化:正規化:正規化この意味では、単位区間にデータを再スケール。 @Jeffが指摘しているように、標準化はデータをスコアに変換します。そして、センタリングにより、データの平均が等しくなり。 X 平均

Xmean
Xmeansd
Xmin(X)max(X)min(X)
z0

ここでは、これら3つすべてが線形変換であることを認識しておく価値があります。そのため、分布の形は変わりません。それは時々人々が呼ぶ、あるための、「正規化」-score変換をして信じるこれは、データが正規分布してきたことを、正規分布と-scores会。これはそうではありません(@Jeffも指摘しているように、またデータの前後にプロットすることでわかるように)。興味がある場合は、たとえばBox-Cox変換ファミリを使用してデータの形状を変更できます。 zz

これらの変換を検証する方法に関して、それが正確に何を意味するかに依存します。コードが適切に実行されたことを確認するだけの場合は、平均、SD、最小値、および最大値を確認できます。


1
私が見た正規化することをお勧めするために使用される標準または標準正規分布すなわち嵌示唆する、そう3の正規化された可能性が最も高い誤解されるべきです。尤度関数への正規化定数の適用に関するAdaのコメントは、さらに別の可能な解釈です。Φ1(F(X))
ヘンリー

4

サンプルの各スコアで指定した式を使用することで、それらすべてをzスコアに変換しています 。

すべてのZスコアを正しく計算したことを確認するには、サンプルの新しい平均と標準偏差を見つけます。平均がで標準偏差が場合、すべてが正しく行われています。01

これを行う目的は、サンプルの標準偏差を基準にしてすべてを単位にすることです。これは、異なる単位(センチメートルとインチなど)を使用してスコアリングされた2つの異なるデータセットを比較するなど、さまざまな目的に役立ちます。

分布が正規であるかどうか、つまりガウス分布に近似するかどうかを尋ねることと混同しないようにすることが重要です。


したがって、均一分布が正規化されているかどうかを確認するには、E(X)= 0およびVar(X)= 1(X〜Uniform(a、b))と言いますか?

2
データは均一な分布からのものである必要はなく、任意の分布からのものでもかまいません。また、これは、指定した式を使用した場合にのみ当てはまります。データは、Zスコアを使用する以外の方法で正規化できます。例えば、IQスコアは100のスコアと15の標準偏差で正規化されると言われる
ジェフ

1

TAに相談した後、質問が尋ねていたのは、

f(x)dx=1

ここで、はuniform(a、b)の密度です。f(x)


2
ここで使用する用語は、分布の確率密度関数が正規化されることです。これは、合計確率がに等しくなければならないという公理的事実を反映しているため、分布自体が(この意味で)正規化されているかどうかを尋ねると、もちろん同じ些細な答えがあります。1
whuber

これは確認を求められるものです。f(x)は実際にはpdfである必要はなく、任意の非負関数でもかまいません。上記正規化定数で、我々は常に掛けることができ、満足していない任意の非負関数の場合
エイダ

1
常にではない。たとえば、、すべての実数で定義された非負の関数とします。正規化定数はありません。しかし、質問文のように、「あれこれのディストリビューションのPDFはまあまあだ」と言われたら、検証するものは何もありません。定義により、それは単一性に統合されます。f(x)=ex
whuber

正規化定数を掛けても上記の条件を満たすことができる非負関数ではないのは事実です。
Ada
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.