統計とビッグデータ estimation

2

私は、データサンプルに最適なガンマ分布のパラメーターを推定しようとしています。実際の値ではなく、データサンプルのmean、std（およびそれゆえvariance）のみを使用したいのです-これらはアプリケーションで常に利用できるとは限らないからです。このドキュメントによれば、次の式を適用して形状とスケールを推定できます。私は自分のデータでこれを試しましたが、Pythonプログラミングライブラリを使用して実際のデータにガンマ分布をフィッティングするのと比較すると、結果は大きく異なります。データ/コードを添付して、当面の問題を示します。 import matplotlib.pyplot as plt import numpy as np from scipy.stats import gamma data = [91.81, 10.02, 27.61, 50.48, 3.34, 26.35, 21.0, 79.27, 31.04, 8.85, 109.2, 15.52, 11.03, 41.09, 10.75, 96.43, 109.52, 33.28, 7.66, 65.44, 52.43, 19.25, 10.97, 586.52, 56.91, 157.18, 434.74, 16.07, 334.43, 6.63, 108.41, 4.45, …

19 distributions estimation gamma-distribution

2

PCA、LASSO、エラスティックネットの速度、計算費用

Hastie et al。で区別されている線形回帰の3つのグループの方法の計算の複雑さ/推定速度を比較しようとしています。「統計学習の要素」（第2版）、第3章：サブセット選択収縮方法導出された入力方向を使用する方法（PCR、PLS）比較は非常に大雑把なものであり、単に考えを与えるだけです。答えは問題の次元とそれがコンピューターアーキテクチャにどのように適合するかに依存する可能性があるため、具体的な例としては、500および50の候補回帰子のサンプルサイズを考慮することができます。私は主に、計算の複雑さ/推定速度の背後にある動機付けに興味がありますが、特定の例で特定のプロセッサにかかる時間には興味がありません。

18 machine-learning estimation feature-selection algorithms time-complexity

2

ブートストラップサンプルの平均とサンプルの統計

サンプルと、このサンプルのスタスティック（平均など）のブートストラップサンプルがあるとします。我々はすべて知っているように、このブートストラップサンプルは推定標本分布統計の推定のを。χχ\chi さて、このブートストラップサンプルの平均は、元のサンプルの統計よりも母集団統計のより良い推定値ですか？どのような条件下でそれが当てはまりますか？

18 estimation bootstrap

2

なぜ漸近正規性の定義でなのか？

パラメータの推定器のシーケンスは、場合、漸近的に正常です。（ソース）次にを漸近分散と呼びます。この分散がCramer-Raoの境界に等しい場合、推定器/シーケンスは漸近的に効率的であると言います。 θ √うんnUnU_nθθ\thetaVUNn−−√（Un- θ ）→ N（0 、v ）n(Un−θ)→N(0,v)\sqrt{n}(U_n - \theta) \to N(0,v)vvvうんnUnU_n 質問：なぜを特に使用するのですか？n−−√n\sqrt{n} サンプル平均では、であるため、この選択により正規化されます。しかし、上記の定義はサンプル平均以上に適用されるため、なぜ正規化することを選択するのでしょうか。√Va r （X¯）= σ2nVar(X¯)=σ2nVar(\bar{X}) = \frac{\sigma^2}{n}n−−√n\sqrt{n}

18 estimation asymptotics efficiency

2

最小分散の不偏推定の理論は大学院で強調されていますか？

最近、完全に間違った均一分布のパラメーターの最小分散不偏推定値について、カフスの答えを出したとき、私は非常に恥ずかしかったです。幸いなことに、私はヘンリー枢機andとヘンリーによって直され、ヘンリーはOPに正しい答えを提供しました。これは私に考えさせられました。およそ37年前にスタンフォード大学の大学院数学統計クラスで、最も公平な推定量の理論を学びました。ラオ・ブラックウェルの定理、クラマー-ラオの下限、レーマン・シェッフェの定理を思い出します。しかし、応用統計学者として、私は日々の生活の中でUMVUEについてあまり考えませんが、最尤推定は多く出てきます。何故ですか？大学院ではUMVUE理論を強調しすぎていますか？私はそう思う。まず第一に、公平性は重要な財産ではありません。多くの完全に良いMLEには偏りがあります。スタイン収縮推定量は偏っていますが、平均二乗誤差損失の観点から不偏MLEを支配しています。これは非常に美しい理論（UMVUE推定）ですが、非常に不完全であり、あまり有用ではないと思います。他の人はどう思いますか？

18 estimation point-estimation

2

ジェームズ・スタイン推定：どのようエフロンとモリス計算でした

ブラッドリー・エフロンとカール・モリスによる1977年のアメリカ科学論文「統計におけるスタインのパラドックス」で、ジェームズ・シュタイン収縮係数の計算について質問があります。野球選手のデータを収集しましたが、以下に示します。 Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, 0.311, 0.273 Spencer, 0.311, 0.270 Kessinger, 0.289, 0.263 Alvarado, 0.267, 0.210 Santo, 0.244, 0.269 Swoboda, 0.244, 0.230 Unser, 0.222, 0.264 Williams, 0.222, 0.256 Scott, 0.222, 0.303 Petrocelli, 0.222, 0.264 Rodriguez, 0.222, 0.226 …

18 estimation shrinkage steins-phenomenon

2

不可能な推定問題？

質問負の二項（NB）分布の分散は、常にその平均よりも大きくなります。サンプルの平均がその分散よりも大きい場合、NBのパラメーターを最尤法またはモーメント推定で近似しようとすると失敗します（有限パラメーターの解はありません）。ただし、NB分布から取得したサンプルの平均は分散よりも大きい可能性があります。Rの再現可能な例を次に示します。 set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 var(x) # 0.8157576 NBは、パラメーターを推定できないサンプル（最尤法とモーメント法）を生成する確率がゼロではありません。このサンプルに対して適切な推定値を提供できますか？すべてのサンプルに対して推定量が定義されていない場合、推定理論は何と言いますか？答えについて @MarkRobinsonと@Yvesの答えは、パラメータ化が主要な問題であることを実感させました。NBの確率密度は、通常次のように記述されます。 P(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k または P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!} \left(\frac{r}{r+m}\right)^r \left(\frac{m}{r+m}\right)^k. 最初のパラメーター化では、サンプルの分散が平均よりも小さい場合、最尤推定値はであるため、について有用なことは言えません。2番目の場合、それはなので、合理的な推定値を与えることができます。最後に、@MarkRobinsonショーは、我々が使用して、無限の値の問題を解決することができることをの代わりに。(∞,0)(∞,0)(\infty, 0)ppp(∞,x¯)(∞,x¯)(\infty, \bar{x})mmmr1+rr1+r\frac{r}{1+r}rrr 結論として、この推定問題に根本的な問題はありませんが、サンプルごとにと意味のある解釈を常に行えるとは限りません。公平を期すために、両方の答えにアイデアがあります。私は@MarkRobinsonのそれを彼が与える補数の正しいものとして選んだ。rrrppp

17 estimation maximum-likelihood negative-binomial

4

どの条件の下で、ベイジアンおよび頻度点推定量が一致しますか？

平坦な事前分布では、ML（頻度-最大尤度）とMAP（ベイジアン-最大事後確率）推定量は一致します。ただし、より一般的には、損失関数のオプティマイザーとして導出されたポイント推定量について話します。すなわち）X（x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) \qquad \; \,\text{ (Bayesian) } x^(.)=argminE(L(x−x^(Y))|x)(Frequentist)x^(.)=argminE(L(x−x^(Y))|x)(Frequentist) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x-\hat x(Y)) \; | \; x \right) \qquad \text{(Frequentist)} ここで、は期待値演算子、は損失関数（ゼロで最小化）、は推定であり、パラメーターデータ与えられ、ランダム変数は大文字で示されます。 L X（Y ）のY XEE\mathbb{E}LLLx^(y)x^(y)\hat x(y) …

17 bayesian estimation loss-functions frequentist decision-theory

3

要約統計のみが利用可能な場合の推定方法

これは、次の質問とそれに続く議論によって部分的に動機付けられています。 iidサンプルが観測されたとします。目標はを推定することです。ただし、元のサンプルは利用できません。代わりに、サンプル統計があります。仮定固定されています。推定方法は？この場合の最尤推定量はどうなりますか？θ T 1、。。。、T kの K θバツ私〜F（x 、θ ）Xi∼F(x,θ)X_i\sim F(x,\theta)θθ\thetaT1、。。。、TkT1,...,TkT_1,...,T_kkkkθθ\theta

17 estimation maximum-likelihood

1

推定量が一貫していることを示す方法は？

MSE = 0をとして表示するだけで十分ですか？私はメモでプリムについても読みました。plimを見つけてそれを使用して、推定量が一貫していることを示すにはどうすればよいですかn→∞n→∞n\rightarrow\infty

17 estimation convergence consistency

4

必要なサンプルサイズ、分散推定の精度を計算していますか？

バックグラウンド分布が不明な変数があります。 500個のサンプルがありますが、分散を計算できる精度を実証したいと思います。たとえば、サンプルサイズ500で十分だと主張します。また、分散を精度で推定するために必要な最小サンプルサイズを知ることに興味があります。X%X%X\% ご質問どうすれば計算できますかサンプルサイズ所与分散の私の推定値の精度？？n=500n=500n=500n=Nn=Nn=N 精度で分散を推定するために必要なサンプルの最小数を計算するにはどうすればよいですか？XXX 例図1 500サンプルに基づくパラメーターの密度推定。図2これは、x軸のサンプルサイズと、500のサンプルのサブサンプルを使用して計算したy軸の分散の推定値のプロットです。nが増加すると、推定値は真の分散に収束します。。ただし、分散を推定するために使用されるサンプルは互いに独立していないか、分散を計算するために使用されるサンプルとはN ∈ [ 20 、40 、80 ]n∈[10,125,250,500]n∈[10,125,250,500]n \in [10,125,250,500]n∈[20,40,80]n∈[20,40,80]n\in [20,40,80]

17 estimation random-variable variance sampling sample-size

3

なぜブートストラップが必要なのですか？

私は現在、Larry Wassermanの「統計のすべて」を読んでいて、ノンパラメトリックモデルの統計関数の推定に関する章で彼が書いたものに困惑しています。彼が書きました「いくつかの計算を行うことで、統計関数の推定標準誤差を見つけることができます。しかし、他の場合では、標準誤差を推定する方法が明らかではありません。」次の章で彼はこの問題に対処するためのブートストラップについて語っていますが、この声明を本当に理解していないので、ブートストラップの背後にあるインセンティブを十分に得られませんか？標準誤差を推定する方法が明らかでない場合、どのような例がありますか？ thenように、これまで見てきたすべての例は「明白」^ S 、E（P N）= √X1,...Xn Ber(p)X1,...Xn Ber(p)X_1,...X_n ~Ber(p)se^(p^n)=p^⋅(1−p^)/n−−−−−−−−−−√se^(p^n)=p^⋅(1−p^)/n \hat{se}(\hat{p}_n )=\sqrt{\hat{p}\cdot(1-\hat{p})/n}

16 self-study estimation bootstrap standard-error

1

反復的に再重み付けされた最小二乗の定義と収束

次の形式の関数を最小化するために、反復的に再重み付けされた最小二乗（IRLS）を使用しています。 J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) ここで、はのインスタンスの数、は必要な堅牢な推定値、は適切な堅牢なペナルティ関数です。今は凸であり（必ずしも厳密ではないが）微分可能であるとしましょう。そのような良い例は、フーバー損失関数です。NNNxi∈Rxi∈Rx_i \in \mathbb{R}m∈Rm∈Rm \in \mathbb{R}ρρ\rhoρρ\rho 私がやってきたことは、をに関して微分し（そして操作して）、J(m)J(m)J(m)mmm dJdm=∑Ni=1ρ′(|xi−m|)|xi−m|(xi−m)dJdm=∑i=1Nρ′(|xi−m|)|xi−m|(xi−m)\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right) 0に設定し、繰り返し重みを（x_i = m {（k）}で知覚される特異点は、気になるすべての\ rhoで実際に除去可能な特異点であることに注意してください）。その後、私は取得し、kkkwi(k)=ρ′(|xi−m(k)|)|xi−m(k)|wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}xi=m(k)xi=m(k)x_i=m{(k)}ρρ\rho ∑Ni=1wi(k)(xi−m(k+1))=0∑i=1Nwi(k)(xi−m(k+1))=0\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} \right)=0 そして解くと、m(k+1)=∑Ni=1wi(k)xi∑Ni=1wi(k)m(k+1)=∑i=1Nwi(k)xi∑i=1Nwi(k)m(k+1) = \frac{\sum_{i=1}^{N} w_i(k) x_i}{ \sum_{i=1}^{N} w_i(k)}。「収束」までこの固定小数点アルゴリズムを繰り返します。微分が0で凸関数であるため、固定小数点に到達する場合は最適であることに注意してください。この手順について2つの質問があります。これは標準のIRLSアルゴリズムですか？このトピックに関するいくつかの論文を読んだ後（そしてそれらは非常に散らばっていて、IRLSとは曖昧でした）、これは私が見つけることができるアルゴリズムの最も一貫した定義です。人々が望むなら、私は論文を投稿することができます、しかし、私は実際にここで誰にも偏りたくありませんでした。もちろん、この基本的な手法は、ベクトルxixix_iと\ left | …

16 estimation least-squares robust irls

2

補間の統計的正当化とは何ですか？

2つのポイント（次の図：黒丸）があり、それらの間の3番目のポイント（クロス）の値を検索するとします。実際、実験結果である黒点に基づいて推定します。最も単純な場合は、線を引き、値を見つけることです（つまり、線形補間）。たとえば、両側に茶色のポイントなどのサポートポイントがある場合、それらの恩恵を受けて、非線形曲線（緑色の曲線）に適合することを好みます。問題は、赤十字を解決策としてマークする統計的推論は何ですか？なぜ他の十字架（例：黄色の十字架）が、彼らがいるはずの答えではないのですか？どのような推論または（？）によって赤いものを受け入れるように促されますか？この非常に単純な質問に対する回答に基づいて、元の質問を作成します。

16 estimation interpolation

3

ベイズのパラメーター推定で事前を選択する方法

パラメーター推定、ML、MAP、ベイズアプローチの3つの方法を知っています。MAPとベイズのアプローチでは、パラメーターの事前分布を選択する必要がありますよね？このモデルを持っているとします。ここではパラメーターであり、MAPまたはBayesを使用して推定を行うために、共役を選択する方が良いと本で読みました。前であり、関節の確率、右？p(x|α,β)p(x|α,β)p(x|\alpha,\beta)α,βα,β\alpha,\betap(α,β)p(α,β)p(\alpha,\beta)α,βα,β\alpha,\beta 2つの質問があります。この共役のもの以外の事前を選択する他の選択肢がありますか？や、それぞれと事前確率を選択できますか？αα\alphaββ\betap （α ）p（α）p(\alpha)p （β）p（β）p(\beta)

16 bayesian estimation prior

タグ付けされた質問 「estimation」

タグ付けされた質問「estimation」