サンプルサイズ、最小値と最大値から正規分布を再構築できますか?中間点を使用して平均を代理できます


14

私はこれが統計的には少し強引かもしれないことを知っていますが、これは私の問題です。

範囲データ、つまり変数の最小、最大、サンプルサイズがたくさんあります。これらのデータの一部については平均値もありますが、多くはありません。これらの範囲を互いに比較して、各範囲の変動性を定量化し、平均を比較したいと思います。分布が平均に関して対称的であり、データがガウス分布を持っていると仮定する正当な理由があります。このため、平均値が存在しない場合、分布の中間点を平均値のプロキシとして使用することを正当化できると考えています。

私がやりたいのは、各範囲の分布を再構築し、それを使用してその分布の標準偏差または標準誤差を提供することです。私が持っている唯一の情報は、サンプルから観測された最大値と最小値、および平均値のプロキシとしての中点です。

このようにして、各グループの加重平均を計算でき、また、私が持っている範囲データと(対称および正規分布の)仮定に基づいて、各グループの変動係数も計算できるようになります。

私はこれを行うためにRを使用する予定であるため、コードのヘルプも歓迎します。


2
なぜ最小値、最大値、最大値のデータがあると言っているのだろうと思っていました。その後、予想される最小値と最大値のみに関する情報があることを確認します。どちらですか-観察されているか、予想されていますか?
Scortchi -復活モニカ

すみません、それは私の間違いです。最大および最小データが観察されます(実際のオブジェクトから測定)。投稿を修正しました。
green_thinlake

回答:


11

平均および標準偏差ガウス分布からのサンプルの最小および最大のジョイント累積分布関数は、次のです。 X N N μ σバツ1バツnnμσ

Fバツ1バツn;μσ=Prバツ1<バツ1バツn<バツn=Prバツn<バツnPrバツ1>バツ1バツn<バツn=Φバツnμσn[ΦバツnμσΦバツ1μσ]n

ここで、は標準のガウスCDFです。微分・同時確率密度関数を与えますx 1 x n Φバツ1バツn

fバツ1バツn;μσ=nn1[ΦバツnμσΦバツ1μσ]n2ϕバツnμσϕバツ1μσ1σ2

ここで、は標準のガウスPDFです。ログを取得し、パラメーターを含まない用語を削除すると、対数尤度関数が得られますϕ

μσ;バツ1バツn=n2ログ[ΦバツnμσΦバツ1μσ]+ログϕバツnμσ+ログϕバツ1μσ2ログσ

これはあまり扱いにくいようには見えませんが、設定することで、の値に関係なく最大化されていることが簡単にわかります、つまり中点-1つのCDFの引数が他のCDFの引数の負である場合、最初の項が最大化されます。2番目と3番目の項は、2つの独立した正規変量の結合尤度を表します。μ = μ = X N + X 1 σμ=μ^=バツn+バツ12

対数尤度にを代入してを 記述すると、 R=XN-X1σ;X1XN μ=N-2ログを[1-2Φ - Rμ^r=バツnバツ1

σ;バツ1バツnμ^=n2ログ[12Φr2σ]r24σ22ログσ

を見つけるには、この式を数値的に(たとえばoptimizeRのstatパッケージから)最大化する必要があります。(であることが判明しました。ここで、はのみに依存する定数です。おそらく、私が理由を示すよりも数学的に巧妙だと思われます。)σ^σ^=knrkn

推定値は、精度の測定値なしでは役に立ちません。観測されたフィッシャー情報は、数値的に評価することができ(たとえばhessian、RのnumDerivパッケージから)、近似標準誤差の計算に使用できます。

I(μ)=2(μ;σ^)(μ)2|μ=μ^
I(σ)=2(σ;μ^)(σ)2|σ=σ^

バイアス(MLEは一貫性がありますか?)、分散、および平均二乗誤差に関しての尤度とモーメント法の推定値を比較することは興味深いでしょう 。また、最小値と最大値に加えてサンプル平均がわかっているグループの推定の問題もあります。σ


1
+1。一定の追加対数尤度を最大の位置を変更しませんが、変換はの関数にとの値がそこから、を最大にいくつかあります関数。同様に、あなたが主張する。言い換えると、関連する作業量は、標準偏差と(観測された)範囲の比率、またはその逆数であり、スチューデント化された範囲と密接に関連しています2ログrσ/rnN K N σ = K N Rσ/rnknσ^=knr
whuber

@whuber:ありがとう!後知恵で明らかです。それを答えに組み込みます。
Scortchi-モニカの復職

1

範囲を標準偏差/分散に関連付ける必要があります。平均、標準偏差、範囲とします。次に、正規分布の場合、確率質量の%が平均から3標準偏差内にあることがわかります。これは、実用的なルールとして、非常に高い確率で、σ R = X N - X 1 99.7μσR=バツnバツ199.7

μ+3σバツn
および

μ3σバツ1

取得した最初の値から2番目の値を引く

σ = 1

6σバツnバツ1=R
(これは、ちなみに、業界では「シックスシグマ」品質保証方法論がどこから来るかです)。次に、 で標準偏差の推定値を取得できます 。ここで、バーは平均を示します。これは、すべてのサブサンプルが同じ分布からのものであると仮定した場合です(予想される範囲を持っていることについて書きました)。各サンプルが異なる平均と分散をもつ異なる法線である場合、各サンプルに式を使用できますが、標準偏差の推定値の不確実性/可能性のある不正確さははるかに大きくなります。
σ^=16バツ¯nバツ¯1

平均値と標準偏差の値を持つことは、正規分布を完全に特徴付けます。


3
これは、小さな厳密な近似でも、大きな漸近的な結果でもありません。nnn
Scortchi -復活モニカ

1
@Stortchiまあ、私はそれが良い見積もりだとは言いませんでした-しかし、手元にある問題の定量的な感覚を得るために、非常に大雑把であっても簡単に解決策を実装することは常に良いと信じていますたとえば、この質問に対する他の回答で概説したような洗練された効率的なアプローチ。
アレコスパパドプロ14

n

@Scortchiまあ、アプローチの精神は、「ほぼすべての実現が6シグマ以内に収まると予想される場合、極端な実現が境界の近くになることを期待するのは合理的です」-それだけです。おそらく私は非常に不完全な情報の下で操作するのにあまりにも慣れており、それについて定量的なことを言うことを余儀なくされています... :)
アレコスパパドプロ14

4
10σσ^=R101.13n

1

正規分布の最大値の分布関数を取得するのは簡単です(コードの「P.max.norm」を参照)。それから(いくつかの計算を使用して)変位値関数を取得できます(「Q.max.norm」を参照)。

「Q.max.norm」および「Q.min.norm」を使用すると、Nに関連する範囲の中央値を取得できます。AlecosPapadopoulosが提示したアイデアを使用して(前の回答で)sdを計算できます。

これを試して:

N = 100000    # the size of the sample

# Probability function given q and N
P.max.norm <- function(q, N=1, mean=0, sd=1){
    pnorm(q,mean,sd)^N
} 
# Quantile functions given p and N
Q.max.norm <- function(p, N=1, mean=0, sd=1){
    qnorm(p^(1/N),mean,sd)
} 
Q.min.norm <- function(p, N=1, mean=0, sd=1){
    mean-(Q.max.norm(p, N=N, mean=mean, sd=sd)-mean)
} 

### lets test it (takes some time)
Q.max.norm(0.5, N=N)  # The median on the maximum
Q.min.norm(0.5, N=N)  # The median on the minimum

iter = 100
median(replicate(iter, max(rnorm(N))))
median(replicate(iter, min(rnorm(N))))
# it is quite OK

### Lets try to get estimations
true_mean = -3
true_sd = 2
N = 100000

x = rnorm(N, true_mean, true_sd)  # simulation
x.vec = range(x)                  # observations

# estimation
est_mean = mean(x.vec)
est_sd = diff(x.vec)/(Q.max.norm(0.5, N=N)-Q.min.norm(0.5, N=N))

c(true_mean, true_sd)
c(est_mean, est_sd)

# Quite good, but only for large N
# -3  2
# -3.252606  1.981593

2
ER=σ11ΦバツnΦバツndバツ=σd2nRΦd2nn
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.