分布のファミリーの定義?


14

分布のファミリーには、他の分野とは異なる統計の定義がありますか?

一般に、曲線のファミリーは一連の曲線であり、それぞれが1つ以上のパラメーターが変化する関数またはパラメーター化によって与えられます。このようなファミリは、たとえば電子部品の特性評価に使用されます

統計の場合、1つのソースに基づくファミリは、形状パラメータを変化させた結果です。ガンマ分布には形状とスケールのパラメーターがあり、一般化されたガンマ分布のみに位置パラメーターがあることに、どうして理解できるでしょうか?それは、ファミリーをロケーションパラメーターを変化させた結果になりますか?@whuberによれば、ファミリーの意味は暗黙のうちにあります。ファミリーの「パラメーター化」とは、ℝサブセットからその通常のトポロジーを持つ分布の空間への連続したマップです。n

簡単な言葉で言えば、統計分布の家族とは何ですか?

同じ家族の分布の統計的性質の関係についての質問は、別の質問についてすでにかなりの論争を引き起こしているので、意味を探求する価値があるようです。

これは必ずしも単純な質問ではないということは、指数の族というフレーズで使用することで生まれます。これは曲線の族とは関係ありませんが、パラメーターの再パラメーター化による分布のPDFの形式の変更に関連しています、独立したランダム変数の関数の置換も。


1
「ディストリビューションのファミリー」という言い方で、あなたは何か他の「ディストリビューションのファミリー」を意味しますか?指数ファミリは分布のファミリ(特定のプロパティを含む)であり、各分布のpdfを曲線として解釈し、曲線のファミリに対応しているため、最後の段落が混乱しているようです。
ジュホコッカラ

@JuhoKokkala「家族」の意味は文脈依存であるため、混乱しているようです。たとえば、未知の平均と既知の分散の正規分布は、指数族です。正規分布は、無限のサポートを有する(,+)、および指数分布は、半無限サポートしている[0,+)ので、正常の範囲をカバーする指数分布の曲線のない家族が存在しません配布、彼らは同じ形状を有していることはありません...
カール・

@JuhoKokkala ...そして指数PDFには位置パラメータさえありませんが、正規分布は位置パラメータなしではできません。必要な置換、および通常のpdfが指数関数ファミリーに含まれるコンテキストについては、上記のリンクを参照してください。
カール

1
stats.stackexchange.com/questions/129990/…が関連する場合があります。「未知の平均値と既知の分散の正規分布は指数関数族に属します」は、私の知る限り、用語の乱用です(多少一般的ですが)。正確には、指数族は特定の性質を持つ分布の族です。未知の平均と既知の分散を持つ正規分布のファミリーは指数ファミリーです。指数分布のファミリーは別の指数ファミリーなどです。
JuhoKokkala

1
@JuhoKokkala:その「家族」は、特別な場合に「家族のセット」を意味するために非常に一般的に(ab)使用されますが、おそらく別の答えを引き出す価値があります。(私は他の例を考えることはできません-何らかの理由で、それは誰の発生しやすい「と話しているようだしない場所スケールの家族を」。)
Scortchi -復活モニカ

回答:


14

統計的および数学的概念はまったく同じであり、「家族」はさまざまな状況に適応した技術的なバリエーションを含む一般的な数学用語であると理解しています。

パラメトリックファミリは、すべての分布の空間内の曲線(または表面またはその他の有限次元の一般化)です。

この投稿の残りの部分では、その意味を説明します。余談ですが、これについては、数学的にも統計的にも論争の的になるとは思いません(以下で説明する小さな問題は別として)。この意見を支持して、私は多くの参考文献(主にウィキペディアの記事)を提供しました。


この「ファミリ」という用語は、関数のクラスをセットYまたは「マップ」に学習するときに使用される傾向があります。ドメインを考えるとX家族F上のマップのXはパラメータいくつかのセットでΘ(「パラメータ」)は関数でありますCYYX FX Θ

F:X×ΘY

(1)それぞれについて、、関数Fは、 θX Yで与えられるF θX = FX θはであるC Y及び(2)F自体は、特定の"ナイス"特性を有します。θΘFθ:XYFθ(x)=F(x,θ)CYF

「スムーズ」または制御された方法でからYに関数を変更するという考え方です。プロパティ(1)手段各そのθ指定するような機能、性質の詳細(2)中の「小さな」変化センス捕捉する一方θ誘導に十分に「小さい」変化Fの θをXYθθFθ

質問で言及されたもの近い標準的な数学的例ホモトピーです。この場合、トポロジ空間Xからトポロジ空間Yへの連続マップのカテゴリです。Θ = [ 0 1 ] Rは、その通常のトポロジーを有する単位間隔である、と我々は必要Fがあること連続トポロジカル製品からマップX × ΘY。「マップFの連続的な変形」と考えることができます。CY XYΘ=[0,1]RFX×ΘY F 1。」 X = [ 0 1 ]の間隔自体は、そのようなマップは、カーブにおける Yとホモトピーは、1つの曲線から別へのスムーズな変形です。F0F1X=[0,1]Y

統計的用途のために、 上のすべてのディストリビューションの集合であるR(又は、実際には、上のR nは、いくつかのためのN、私はに焦点を当てる暴露簡単保つために、N = 1)。我々は、すべての非減少のセットでそれを識別してもよい右連続左極限の機能R[ 0 1 ]、それらの範囲の閉鎖は、両方を含む01:これらは累積分布関数、または単に分布関数。したがって、X = RおよびCYRRnnn=1R[0,1]01X=RY=[0,1]

分布のファミリーは、サブセットです。CY 家族の別名は統計モデルです。 観測を支配すると思われるすべての分布で構成されていますが、それ以外の場合は実際の分布であるかはわかりません。

  • 家族は空にすることができます。
  • 自体は家族です。CY
  • ファミリは、単一のディストリビューションで構成される場合と、有限数のディストリビューションで構成される場合があります。

これらの抽象的な集合論的特性は、比較的興味や実用性がほとんどありません。この概念が有用になるのは 、追加の(関連する)数学的構造を考慮するときだけです。しかし、C Yのどのプロパティが統計的に重要ですか?頻繁に表示されるものは次のとおりです。CYCY

  1. ある凸集合:与えられた二つの分布 F G C Y、我々は形成していてもよい混合分布1-T F +T GYの全てに対してT[01]。これはFからGまでの一種の「ホモトピー」です。CYF,GCY (1t)F+tGYt[0,1]FG

  2. 大部分は、Kullback-Leibler発散や密接に関連するFisher Informationメトリックなど、さまざまな疑似メトリックをサポートしています。CY

  3. 添加物の構造を有する任意の二つの分布に対応するFGはそれらの合計であり、 F GCYFGFG

  4. は、多くの場合「プロパティ」と呼ばれる多くの便利で自然な機能をサポートします。これらには、任意の固定分位数(中央値など)およびキュムラントが含まれます。CY

  5. 関数空間のサブセットです このように、それは、次のような多くの有用なメトリック、継承のsupノルム L によって与えられた規範を) | | FG | | = SUP のx R | FxGx | CYL

    ||FG||=supxR|F(x)G(x)|.
  6. Rに対する自然なグループアクションは、C Yに対するアクションを誘発します。最も一般的なアクションは、翻訳T μX X + μスケーリングS σX X σためのσ > 0。分布に対するこれらが持つ効果は、送信することであるFをで与えられる分布Fのμ σX = F X - μ RCY Tμ:xx+μ Sσ:xxσσ>0F。これらは、ロケーションスケールファミリとその一般化の概念につながります。(詳細なWeb検索ではさまざまな定義が見つかるため、参照は提供していません。少なくとも、ここでは少し議論の余地があるかもしれません。)Fμ,σ(x)=F((xμ)/σ)

重要なプロパティは、統計的な問題データの分析方法によって異なります。 前述の特性によって提案されたすべてのバリエーションに対処するには、この媒体にはスペースがかかりすぎます。1つの一般的な重要なアプリケーションに焦点を当てましょう。

たとえば、最尤法を考えます。 ほとんどのアプリケーションでは、Calculusを使用して推定値を取得できます。これが機能するためには、家族の中で「デリバティブを取る」ことができなければなりません。

余談技術:これが達成された通常の方法は、ドメインを選択することであるのためのD 0と指定する連続、局所的に可逆関数PからΘをC Y。(この手段をそのすべてのためのθ Θがボールが存在するB θ ε と、ε > 0に対してpは| B θ ε ΘRdd0pΘCYθΘB(θ,ϵ)ϵ>0一対一です。言い換えれば、 θを十分に小さく変更すると、常に異なる分布が得られます。)pB(θ,ϵ):B(θ,ϵ)ΘCYθ

その結果、ほとんどのMLアプリケーションでは、Θコンポーネントでが連続的であることが必要です(できれば、ほぼどこでも微分可能です)。(連続性がないと、尤度を最大化することは一般に難治性の問題になります。)これにより、パラメトリックファミリの次の尤度指向の定義が得られます。pΘ

(一変量)分布のパラメトリックファミリーは、局所的に可逆マップであるΘ R nは、そのための()各F θそれぞれに対する分布関数と、(b)は、X R、関数L Xθ [ 0 1 ]で与えられるLの Xθ = FX θ

F:R×Θ[0,1],
ΘRnFθxRLx:θ[0,1]Lx(θ)=F(x,θ) 連続的で、ほとんどどこでも微分可能です。

パラメトリック家族という注意より多くののちょうどコレクションよりもFの θ、それはまた、パラメータ値の特定の方法が含ま:θ分布に対応します。FFθθ

いくつかの実例を挙げてみましょう。

  • してみましょうすべての集合とする正規分布。 与えられているように、これはパラメトリックファミリではありません。単なるファミリです。パラメトリックにするには、パラメーター化を選択する必要があります。一つの方法は、選択することであるΘ = { μ σ R 2 | σ > 0 } とマッピングするμ σ の平均の正規分布にμ 及び分散σ 2CYΘ={(μ,σ)R2σ>0}(μ,σ)μσ2

  • 一連のポアソンの分布を(λ)有するパラメトリックファミリーであるλΘ=(0,)R1

  • 制服のセットの分布は、(多くの教科書の演習で目立つ特徴がある)とパラメトリック家族である θ R 1。この場合、F θX = 最大0 1 X - θはで微分可能であるθを除い θ { X X - 1 }(θ,θ+1)θR1Fθ(x)=max(0,min(1,xθ))θθ{x,x1}

  • ましょうGが可能任意の二つの分布。次いで、FX θ = 1 - θ F X + θ G X )のためのパラメトリックファミリーであるθ [ 0 1 ]。(証明:の画像Fは、分布の集合であり、その偏微分θは等しい- F X + G FGF(x,θ)=(1θ)F(x)+θG(x)θ[0,1]Fθこれはどこでも定義されています。)F(x)+G(x)

  • ピアソンファミリーは、四次元のファミリーであり、(とりわけ)正規分布、ベータ分布、および逆ガンマ分布を含みます。これは与えられた分布が多くの異なる分布ファミリーに属するかもしれないという事実を例証します。これは、(十分に大きい)空間内の任意のポイントが、そこで交差する多くのパスに属している可能性があることを観察することに完全に類似しています。これは、以前の構成と一緒に、どの分布もそれが属するファミリーを一意に決定ないことを示しています。ΘR4

  • すべての有限分散絶対連続分布の族はパラメトリックではありません。証明はトポロジの深い定理を必要とします。私たちは与える場合C Yをして任意のトポロジ(統計学的に有用かどうか)とP Θ C Yが連続しており、ローカル連続逆を持っている、そしてローカルC Yが同じ次元を持つ必要がありますΘ。ただし、統計的に意味のあるすべてのトポロジでは、C Y無限次元です。CYCYp:ΘCYCYΘCY


2
あなたの答えを消化するのに約1日かかります。ゆっくり噛まなければなりません。その間、ありがとう。
カール

(+1)OK、私はそれをやりました。そうであるポーランドのスペースやありませんか?簡単な答えを出して、家族という言葉を不適切に使用しないようにする方法を知ってください。@JuhoKokkalaは、たとえば、Wikipediaが指数関数ファミリーの言語を悪用したことを説明しています。F:R×Θ[0,1]
カール

1
この答えの2番目の文は、単純さを求める要求に役立たないのですか?
whuber

私見、しかし、知らされていない、いいえ、それは不完全さのためではなく、家族がそうではないことを言っていません。「すべての分布の空間で」という概念は、統計のみに関連しているようです。
カール

1
あなたの答えを受け入れました。問題の質問にそれを適用できるほど十分な情報があります。
カール

1

質問で提起された特定のポイントに対処するには、「指数関数的ファミリー」は分布のセットを意味しません。(たとえば、標準的な指数分布は、指数分布のファミリー、指数ファミリー、ガンマ分布のファミリー、指数ファミリーのメンバー、指数ファミリーではなく、ワイブル分布のファミリーのメンバー、および任意の数のメンバーですむしろ、ここでの「指数関数的」とは、分布の家族が所有する財産を指します。したがって、「指数関数族の分布」ではなく「指数関数型の分布」について話す必要があります。前者は@JuhoKokkalaが指摘するように、用語の乱用です。何らかの理由で、ロケーションスケールの家族について話すとき、誰もこの虐待を犯しません。


0

@whuberのおかげで、この投稿が出された質問に関連するより単純な形式であると期待していることを要約するのに十分な情報があります。「家族 [ Sic、統計家族]の別の名前は[a] 統計モデルです。」

Wikipediaのエントリから統計モデルは、観測を支配すると思われるすべての分布で構成されていますが、実際にはどの分布であるかはわかりません。統計モデルを他の数学モデルと区別するのは、統計モデルが非決定的であることです。したがって、数学的な方程式を介して指定された統計モデルでは、一部の変数には特定の値はありませんが、代わりに確率分布があります。つまり、いくつかの変数は確率的です。統計モデルは通常、ペアと考えられます。ここで、Sは可能な観測値のセット、つまりサンプル空間であり、P は確率分布のセットです。(S,P)SPS

我々は、統計モデルがあるとP = { P θθ Θを}Θの次元が有限の場合、モデルはパラメトリックモデルと呼ばれます。表記で、我々は、書き込みΘ R Dここで、Dは、(正の整数であり、Rが、他の組を使用することができ、原理的には実数を示します)。ここで、dはモデルの次元と呼ばれます。(S,P)P={Pθ:θΘ}ΘΘRddRd

我々はデータを一変量ガウス分布から生じると仮定すると、一例として、我々は、と仮定されている
この例では、次元dは2、end quoteに等しくなります

P={Pμ,σ(x)12πσexp((xμ)22σ2):μR,σ>0}.
d

我々は、上記の例では、割り当てることによって次元を下げる場合したがって、、我々は示すことができる家族プロットした曲線のをσ = 1 2 3 4 5、またはどのような選択肢がσμ=0σ=1,2,3,4,5σ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.