コーシー変数の頻度分布予測

私はこれを文献で見つけることができませんでしたが、それはおそらく私が間違った場所を探していることを意味します。1次元およびn次元のコーシー変量に対して、存在する場合を想定して、フリークエンティスト予測分布を見つけようとしています。

n次元バージョンの問題は、共変量行列のようなものは何もないことです。代わりに、エラーを超循環にする1つのスケールパラメーターしかありません。これが極めて重要な価値の存在に干渉しているのを見ることができました。

編集

私はどちらかを予測しています $x_{i+1}$ 一連の観察から $x_1\dots{x_i}$ 中心のコーシー分布から描画 $\mu$ とスケール $\sigma,$ または予測する $y_{i+1}$ ある方程式から $y=mx+b,$ どこ $x$ 上記のコーシー分布から抽出されます。それはベクトルまたは多次元である可能性がありますが、私はベイジアン対フリークエンティスト予測の相対的な特性を決定しようとしています。私のデータは、どのセットに応じて切り捨てられたコーシーまたはコーシーのいずれかから取得されます。

予測間隔は、間隔を100％に設定するだけで機能します。

prediction-interval frequentist cauchy

— デイブ・ハリス
ソース

あなたが言うときコーシー変量を、あなたは回帰を意味しています

X_{j, i}

$X_{j,i}$ 回帰方程式

Y_{i} = \sum_{j = 1}^{J} X_{j, i} β_{j} + ε_{i}

$Y_i = \sum_{j=1}^JX_{j,i}\beta_j + \varepsilon_i$ 、そしてあなたはOLS推定の信頼区間を探していますか？

β_{j}

$\beta_j$ ？質問が理解できるかわかりません。

— Jeremias K

多変量t分布を使用した推定については、この2008年のような論文があります。多変量コーシーは、多変量tの特殊なケースです。余談ですが、これにより、完全に柔軟な相関構造が可能になります。それはあなたを助けますか、それともあなたの質問と一致しませんか？

— eric_kernfeld

平均がゼロの多変量分布に対してこのstats.stackexchange.com/questions/16349を実行しようとしていますか？

— Sextus Empiricus

@eric_kernfeld私はそれを注意深く読む必要がありますが、そうです、それは一種の頻度です。ただし、Frequentistメソッドを使用してその予測密度を見つける方法を知りたいのです。

— Dave Harris、

からコーシー分布パラメータを推定しようとしているようです

x_{i}

$x_i$ 。そうですか？

— Aksakal 2017

回答:

問題の一般的な解決策は、パラメーターの最尤推定（MLE）です。 $\theta$ 。それらが取得されたら $\hat{\theta}$ 、それらを未知のパラメータのpdfに代入します。つまり、確率変数のpdfを $\hat{f}(x_i) = f(x_i|\hat{\theta})$ 。これにより、コーシー確率変数の予測分布を構築できます。

一変量の場合、このペーパーは優れたリソースです。センター付きの単変量コーシーの場合 $\mu$ とスケール $\sigma$ 、あなたが持っている場合、1つは閉じた形をしています $3-4$ 観察。あなたが持っている場合 $n>4$ 観察、MLEが存在する $^{\ast}$ 。あなたが持っている場合 $n$ 観測では、対数尤度の1次導関数をゼロに設定することで簡単に導出できる2つの方程式を解く必要があります。正確な形式については、こちらを参照してください。（彼らの記法では、 $x_0 = \mu$ そして $\sigma = \gamma$ 。）この問題を数値的に解決するには、R言語で実装します。ここを参照してください。

多変量の場合、注意する必要があるのは、多変量コーシー分布が単に多変量であることです。 $t$ -自由度パラメータが設定されている分布 $1$ 、コメントですでに指摘したように。多変量の場合 $t$ 、eric_kernfeldが指摘した論文に基づくこの回答で非常によく説明されているように、MLE推論を行うことができます。このアルゴリズムのすぐに使える実装は見つかりませんでしたが、投稿で提供されている回答を見るとわかるように、自分で実装するのは本当に簡単なはずです。

ベイジアン予測との違い：ベイジアン設定では、パラメータに事前設定を行います $\mu$ そして $\sigma$ 、それらについての不確実性を確率変数としてモデル化します。したがって、両方のパラメーターの事後分布が得られます。これは、データが与えられた場合のそれらの相対的な確実性を示します。後部がある場合 $q(\mu, \sigma|x_1,\dots,x_n)$ 、次に、予測分布を次のように取得します $\int f(x|\mu, \sigma)q(\mu, \sigma|x_1,\dots,x_n)d\mu d\sigma$ 、不確実性を統合します。対照的に、MLE設定では、 $\mu$ そして $\sigma$ PDFの関数形式にプラグインします。同様に、MLEは点質量を伴う事後につながると言うことができます $1$ タプルで $(\hat{\mu}, \hat{\sigma})$ そして $0$ 他の値での確率。したがって、この場合、パラメータの不確実性をすべて無視し、次の事実に依存します。 $\hat{\theta}$ に漸近的に等しい $\theta$ 、つまり $\hat{f}(x) \to f(x)$ （一律に $x$ ）。

$^\ast$ まあ、それはエキゾチックな場合を除いてです $n$ であり、 $n/2$ あなたの観察のうち価値がある $x_1$ 残りの半分は価値があります $x_2$ 。これは、コーシー分布が連続的であるため、確率ゼロで発生します。

— エレミアスK
ソース

エレミア。についての不確実性を組み込む可能性があると思いますか

\hat{θ}

$\hat{\theta}$ 予測区間に？そして、どうすれば多次元コーシー分布の確率密度関数から予測分布を構築できますか？

— Sextus Empiricus

あなたが

x_{i}

$x_i$ 未知のパラメーターを持つコーシー確率変数からのランダムな描画であり、推定されたパラメーターを関数型に直接接続すると、次の描画の予測分布が直接得られます。

x_{i}

$x_i$ 。

— Jeremias K

パラメータの不確実性を組み込むことに関しては、それを行いたい場合はベイジアンの方法を使用する必要があります。副産物として、ベイズ推定の事後パラメーターは、バーンスタインミーゼスの定理を介してMLEに漸近的に集中することに注意してください。

— Jeremias K

モンテカルロ法を使用して、 $x_1....x_i$ および予測間隔 $x_{i+n}$ 。

動機：最尤推定（または他のタイプのパラメーター推定）に従う分布の四分位数/ CDFに基づいて予測間隔を推定する場合、間隔のサイズを過小評価します。事実上、実際には、ポイント $x_{i+n}$ 予測よりも頻繁に範囲外になります。

以下の図は、新しい測定値をさらに何回表すかによって、間隔のサイズをどれだけ過小評価しているかを示しています $x_i$ パラメータ推定に基づく予測範囲外です。（予測のための2000回の繰り返しによる計算に基づく）

たとえば、99％の予測間隔を使用した場合（したがって、1％のエラーが予想されます）、サンプルサイズが3の場合、5倍のエラーが発生します。

これらのタイプの計算は、範囲をどのように修正できるかについての経験的な関係を作成するために使用できます。 $n$ 差は小さくなります（そして、ある時点でそれを無関係と考えるかもしれません）。

set.seed(1)

# likelihood calculation
like<-function(par, x){
  scale = abs(par[2])
  pos   = par[1]
  n <- length(x)
  like <- -n*log(scale*pi) - sum(log(1+((x-pos)/scale)^2))
  -like
}

# obtain effective predictive failure rate rate
tryf <- function(pos, scale, perc, n) {

  # random distribution
  draw <- rcauchy(n, pos, scale)

  # estimating distribution parameters based on median and interquartile range
  first_est <- c(median(draw), 0.5*IQR(draw))

  # estimating distribution parameters based on likelihood
  out <- optim(par=first_est, like, method='CG', x=draw)
  # making scale parameter positive (we used an absolute valuer in the optim function)
  out$par[2] <- abs(out$par[2])

  # calculate predictive interval
  ql <- qcauchy(perc/2, out$par[1], out$par[2])
  qh <- qcauchy(1-perc/2, out$par[1], out$par[2])

  # calculate effective percentage outside predicted predictive interval
  pl <- pcauchy(ql, pos, scale)
  ph <- pcauchy(qh, pos, scale)
  error <- pl+1-ph
  error
}

# obtain mean of predictive interval in 2000 runs
meanf <- function(pos,scale,perc,n) {
  trueval <- sapply(1:2000,FUN <- function(x) tryf(pos,scale,perc,n))
  mean(trueval)
}


#################### generate image

# x-axis chosen desired interval percentage
percentages <- 0.2/1.2^c(0:30)

# desired sample sizes n
ns <- c(3,4,5,6,7,8,9,10,20,30)

# computations
y <- matrix(rep(percentages, length(ns)), length(percentages))
for (i in which(ns>0)) {
  y[,i] <- sapply(percentages, FUN <- function(x) meanf(0,1,x,ns[i]))
}

# plotting
plot(NULL,
     xlim=c(0.0008,1), ylim=c(0,10),
     log="x",
     xlab="aimed error rate",
     ylab="effective error rate / aimed error rate",
     yaxt="n",xaxt="n",axes=FALSE)
axis(1,las=2,tck=-0.0,cex.axis=1,labels=rep("",2),at=c(0.0008,1),pos=0.0008)
axis(1,las=2,tck=-0.005,cex.axis=1,at=c(0.001*c(1:9),0.01*c(1:9),0.1*c(1:9)),labels=rep("",27),mgp=c(1.5,1,0),pos=0.0008)
axis(1,las=2,tck=-0.01,cex.axis=1,labels=c(0.001,0.01,0.1,1), at=c(0.001,0.01,0.1,1),mgp=c(1.5,1,0),pos=0.000)
#axis(2,las=1,tck=-0.0,cex.axis=1,labels=rep("",2),at=c(0.0008,1),pos=0.0008)
#axis(2,las=1,tck=-0.005,cex.axis=1,at=c(0.001*c(1:9),0.01*c(1:9),0.1*c(1:9)),labels=rep("",27),mgp=c(1.5,1,0),pos=0.0008)
#axis(2,las=1,tck=-0.01,cex.axis=1,labels=c(0.001,0.01,0.1,1), at=c(0.001,0.01,0.1,1),mgp=c(1.5,1,0),pos=0.0008)
axis(2,las=2,tck=-0.01,cex.axis=1,labels=0:15, at=0:15,mgp=c(1.5,1,0),pos=0.0008)


colours <- hsv(c(1:10)/20,1,1-c(1:10)/15)
for (i in which(ns>0)) {
  points(percentages,y[,i]/percentages,pch=21,cex=0.5,col=colours[i],bg=colours[i])
}

legend(x=0.4,y=4.5,pch=21,legend=ns,col=colours,pt.bg=colours,title="sample size")

title("difference between confidence interval and effective confidence interval")


plot(ns,y[31,]/percentages[31],log="")

— Sextus Empiricus
ソース

mleを使用する場合、小さなサンプルサイズを使用する以外に、プロットはパラメーターの誤った推定値をもたらすでしょうか？サンプルサイズが30の非常に小さい場合でもエラー率が優れているため、mleを使用してそれがどのように無効になるかはわかりません。また、提案する代替案が何であるかを理解できません。計算方法を拡張していただけませんかあなたはあなたの答えの初めに言及しますか？

— Jeremias K

@JeremiasKサンプルサイズが小さい実際のアプリケーションでは、これらの計算を経験的に決定された補正係数として使用できます。

— Sextus Empiricus

それは理にかなっている！私はあなたが投稿でそれを言及していないと思います、おそらくあなたはそれを編集して、人々がコメントを読む必要がないようにするべきです

— Jeremias K

@MartijnWeteringsこれまでのところ、あなたは最も理にかなっています。ピボット

\frac{\sqrt{n} (\hat{μ} - μ)}{\hat{σ}}

$\frac{\sqrt{n}(\hat{\mu}-\mu)}{\hat{\sigma}}$ $は、サンプルサイズが約100になると標準の標準に従いますが、変数を選択する代わりに、最小化のための関数を選択していて、それを以前に行ったことがないため、これをほどくのは自分のスキルを超えていることに気付きました。

— デイブ・ハリス

@DaveHarris私の方法はエレミアの場合とそれほど変わらないと思います。ただし、分布が

f (x, {\hat{x}}_{0}, \hat{γ})

$f(x,\hat{x}_0,\hat{\gamma})$ の過度に分散したバージョンです

f (x, x_{0}, γ)

$f(x,x_0,\gamma)$ 。

— Sextus Empiricus

データセットからコーシー分布のパラメータを推定するだけでよいようです $x_i$ 。ここだ、それはMLEはありませんが、スティーブンスが提案するもの、と著者はあなたが、これが最後の世紀に書かれていることを考慮しなければならないのに、この方法は、一貫してMLEよりも安定していると主張。

ここで、コーシーは次のようにパラメーター化されています。

分布が得られると、ポイント予測は $\hat\alpha$ 。瞬間がないため、予想される平方コストを最小化するなど、通常の意味で予測が最適であることを示すことができないことに注意してください。

— アクサカル
ソース