タグ付けされた質問 「estimation」

このタグは一般的です。より具体的なタグを提供してください。特定の推定量のプロパティに関する質問については、代わりに[estimators]タグを使用してください。


1
機械学習の統計、ペーパー
私はコンピュータプログラミングと素数理論のバックグラウンドを持っていますが、実際の統計トレーニングはありません。最近、さまざまな技法の驚くべき世界が実際には統計の世界であることを「発見」しました。行列因数分解、行列補完、高次元テンソル、埋め込み、密度推定、ベイズ推定、マルコフ分割、固有ベクトル計算、PageRankはすべて非常に統計的な手法であり、そのようなものを使用する機械学習アルゴリズムは多くの統計を使用しているようです。 私の目標は、使用されている表記法、「証明」、統計的引数を理解しながら、そのようなことを論じた論文を読み、アルゴリズムを実装または作成できるようにすることです。私が最も難しいのは、行列を含むすべての証明に従うことです。 どのような基本的な論文から始められますか?それとも、取り組む価値のあるエクササイズを含む優れた教科書ですか? 具体的には、私が完全に理解したいいくつかの論文は次のとおりです。 凸最適化による正確な行列補完、Candes、Recht、2008 高速コーシー変換と高速ロバスト線形回帰、クラークソン他、2013年 サポートベクターマシンのランダムプロジェクション、Paul et al、2013 深密度モデルを使用した高次元確率推定、Rippel、Adams、2013年 低ランクマトリックス補完のためのエラー最小化推定値と普遍的なエントリ単位のエラー範囲の取得、Király、Theran、2013年

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
サンプルとは、ある意味で、分布の「最良の」推定を意味するのでしょうか。
いくつかのiidサンプルポイントが与えられた多数の(弱い/強い)法則により、それらのサンプル平均は、確率とサンプルサイズ両方で分布平均に収束します 無限に行きます。、F *({ X I、iは=は1 、... 、N } ):= 1{xi∈Rn,i=1,…,N}{xi∈Rn,i=1,…,N}\{x_i \in \mathbb{R}^n, i=1,\ldots,N\}Nf∗({xi,i=1,…,N}):=1N∑Ni=1xif∗({xi,i=1,…,N}):=1N∑i=1Nxif^*(\{x_i, i=1,\ldots,N\}):=\frac{1}{N} \sum_{i=1}^N x_i NNN サンプルサイズが固定されている場合、LLN推定量は、ある意味で最良の推定量であるのでしょうか。例えば、f ∗NNNf∗f∗f^* その期待値は分布平均であるため、不偏推定量です。その分散はで、は分布の分散です。しかし、それはUMVUですか? σ2をσ2Nσ2N\frac{\sigma^2}{N}σ2σ2\sigma^2 いくつかの関数がありますかそのような最小化問題を解く:F *({ X I、iは= 1 、... 、N } )F *({ X I、iは= 1 、... 、N } )= argmin U ∈ R nl0:Rn×Rn→[0,∞)l0:Rn×Rn→[0,∞)l_0: \mathbb{R}^n \times \mathbb{R}^n \rightarrow [0,\infty)f∗({xi,i=1,…,N})f∗({xi,i=1,…,N})f^*(\{x_i, i=1,\ldots,N\})f∗({xi,i=1,…,N})=argminu∈Rn∑i=1Nl0(xi,u)?f∗({xi,i=1,…,N})=argminu∈Rn∑i=1Nl0(xi,u)? f^*(\{x_i, …

2
M-推定量が真の平均に収束するための条件
ガウス分布とM-推定量からの、、プロパティが確率でを保証するのに十分ですか?ある厳密に凸と厳密に十分増加していますか?X1,...,Xn∼N(μ,σ)X1,...,Xn∼N(μ,σ)X_1,...,X_n \sim N(\mu,\sigma) μm=argmina∑ρ(|Xi−a|)μm=argmina∑ρ(|Xi−a|)\mu_m = \underset{a}{\operatorname{argmin}} \sum\rho(|X_i-a|)ρρ\rhoμm→μμm→μ\mu_m \rightarrow \muρρ\rho
10 estimation 

3
データサンプルからZipf切り捨て分布のパラメーターを推定する方法
Zipfの推定パラメーターに問題があります。私の状況は次のとおりです: サンプルセットがあります(Zipf分布に従う必要がある呼び出しを生成する実験から測定)。このジェネレーターが実際にzipf配布で呼び出しを生成することを示す必要があります。既にこのQ&Aを読みました。一連の最高周波数からZipfの法則係数を計算する方法は?しかし、トランケートされたディストリビューションを使用しているため、悪い結果に達しています。たとえば、生成プロセスの「s」値を「0.9」に設定した場合、報告されたQ&Aに記載されている「s」値を推定しようとすると、0.2 caに等しい「s」が得られます。これは、TRUNCATEDディストリビューションを使用していることが原因だと思います(zipfを切り捨てポイントで制限する必要があります。右側が切り捨てられます)。 切り捨てられたzipf分布でパラメーターを推定するにはどうすればよいですか?

3
指数モデルの推定
指数モデルは、次の方程式で表されるモデルです: yi^=β0⋅eβ1x1i+…+βkxkiyi^=β0⋅eβ1x1i+…+βkxki\hat{y_{i}}=\beta_{0}\cdot e^{\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}} このようなモデルを推定するために使用される最も一般的なアプローチは線形化です。これは、両側の対数を計算することで簡単に実行できます。他のアプローチは何ですか?いくつかの観測でを処理できるものに特に興味があります。yi=0yi=0y_{i}=0 更新31.01.2011 このモデルはゼロを生成できないという事実を知っています。私がモデリングしているものと、このモデルを選択する理由について少し詳しく説明します。クライアントが店でいくらお金を使うかを予測したいとしましょう。もちろん、多くのクライアントは見ているだけで何も購入していません。そのため、0が存在します。線形モデルを使用したくありませんでした。負の値が多くなり、意味がありません。もう1つの理由は、このモデルが非常に優れており、線形よりもはるかに優れていることです。遺伝的アルゴリズムを使用してこれらのパラメーターを推定したので、「科学的」なアプローチではありませんでした。もっと科学的な方法で問題に対処する方法を知りたいのですが。変数のほとんどまたはすべてがバイナリ変数であると仮定することもできます。

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

1
時間イベントの長期的な分布
Webサーバーのログがあるとします。これらのログには、次の種類のタプルがあります。 user1, timestamp1 user1, timestamp2 user1, timestamp3 user2, timestamp4 user1, timestamp5 ... これらのタイムスタンプは、たとえばユーザーのクリックを表します。これで、user1は1か月間に複数回(セッション)のサイトにアクセスし、各セッション中に各ユーザーからのクリックのバーストが発生します(ユーザーがサイトにアクセスすると、ユーザーは複数のページをクリックするとします)。 これらのクリックのバーストを、それらを生成したセッションで分割したいとしますが、追加の情報源はなく、タイムスタンプのリストのみがあるとします。同じユーザーによる2回のクリックの間隔の分布を計算すると、長い分布が得られます。直感的には、「カットパラメータ」、たとえばN秒を探します。ここで、であればtimestamp_{i+1} - timestamp{i} > N、あなたtimestamp_{i+1}は新しいセッションの始まりです。 問題は、この分布が実際には2つの変数の混合であるということです:X =「同じセッションでの2つの後続のクリック間の間隔」とY =「前のセッションの最後のクリックと新しいセッションの最初のクリックとの間の間隔」。 問題は、このNをどのように推定するかであり、クリックのバーストを調べるだけで、2つの分布を(おそらく少しオーバーラップして)分割しますか?

3
測定できないイベントの確率
測度理論から、測定できないイベントがあること、つまり、それらがルベーグ測定可能ではないことがわかります。確率測度が定義されていない確率を持つイベントを何と呼びますか?そのような出来事についてどのような発言をしますか?

1
UMVUEを検索
ましょ、X1,X2,...,XnX1,X2,...,XnX_1, X_2, . . . , X_n pdfを持つiid確率変数 fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)f_X(x\mid\theta) =\theta(1 +x)^{−(1+\theta)}I_{(0,\infty)}(x) ここで、θ>0θ>0\theta >0です。1のUMVUEを与える1θ1θ\frac{1}{\theta}とその分散の計算 私は、UMVUEを取得するためのそのような2つの方法について学びました。 クラマーラオ下限(CRLB) レーマンシェッフェテレオム 前者の2つを使ってこれを試みます。私はここで何が起こっているのか完全に理解していないことを認めなければなりません、そして私は私が試みた解決策を例の問題に基づいています。私はそれを持っているfX(x∣θ)fX(x∣θ)f_X(x\mid\theta)との完全なワンパラメータ指数分布族であります h (x )= I(0 、∞ )h(x)=I(0,∞)h(x)=I_{(0,\infty)}、c (θ )= θc(θ)=θc(\theta)=\theta、w (θ )= − (1 + θ )w(θ)=−(1+θ)w(\theta)=-(1+\theta)、t (x )= log (1 + x )t(x)=log(1+x)t(x)=\text{log}(1+x) 以来、w′(θ)=1w′(θ)=1w'(\theta)=1でゼロでΘΘ\Theta、CRLB結果が適用されます。我々は持っています log fX(x∣θ)=log(θ)−(1+θ)⋅log(1+x)log fX(x∣θ)=log(θ)−(1+θ)⋅log(1+x)\text{log }f_X(x\mid\theta)=\text{log}(\theta)-(1+\theta)\cdot\text{log}(1+x) ∂∂θlog fX(x∣θ)=1θ−log(1+x)∂∂θlog fX(x∣θ)=1θ−log(1+x)\frac{\partial}{\partial \theta}\text{log }f_X(x\mid\theta)=\frac{1}{\theta}-\text{log}(1+x) …

3
PDF推定方法を評価する最良の方法
私が見たどのアイデアよりも優れていると思う私のアイデアのいくつかをテストしたいと思います。私は間違っている可能性がありますが、自分の考えをテストして、より確実な観察によって疑問を解消したいと思います。 私がやろうとしていることは次のとおりです: 一連の分布を分析的に定義します。これらのいくつかは、ガウス、ユニフォーム、またはトップハットのような簡単なものです。しかし、シンプソンズ分布のように、これらのいくつかは困難でやりがいのあるものでなければなりません。 それらの分析分布に基づいてソフトウェアを実装し、それらを使用していくつかのサンプルを生成します。 分布は分析的に定義されているため、私は(定義により)真のPDFをすでに知っています。これは素晴らしい。 次に、上記のサンプルに対して次のPDF推定方法をテストします。 既存のPDF推定方法(さまざまなカーネルと帯域幅を備えたKDEなど)。 自分で試してみる価値はあると思います。 次に、真のPDFに対する推定の誤差を測定します。 次に、どのPDF推定方法が良いかをよりよく理解します。 私の質問は: Q1:上記の計画に対して何か改善点はありますか? Q2:多くの真のPDFを分析的に定義するのは難しいと思います。私がここで再利用できる、さまざまな困難(非常に困難なものを含む)を持つ分析的に定義された多くの真のPDFの包括的なリストはすでにありますか?

1
分散が最小の偏りのない推定量
ましょのランダムサンプルfeomこと分布G E O mはE T R I C (θ )のために0 &lt; θ &lt; 1。つまり、X1,...,XnX1,...,Xn X_1, ...,X_nGeometric(θ)Geometric(θ)Geometric(\theta)0&lt;θ&lt;10&lt;θ&lt;10<\theta<1 pθ(x)=θ(1−θ)x−1I{1,2,...}(x)pθ(x)=θ(1−θ)x−1I{1,2,...}(x)p_{\theta}(x)=\theta(1-\theta)^{x-1} I_{\{1,2,...\}}(x) g (θ )= 1の最小分散をもつ不偏推定量を求めますg(θ)=1θg(θ)=1θg(\theta)=\frac{1}{\theta} 私の試み: 幾何分布は指数族からのものであるため、統計は完全であり、θに対して十分です。また、T (X )= X 1がg (θ )の推定量である場合、偏りはありません。したがって、Rao-Blackwellの定理とLehmann-Schefféの定理により、 W (X )= E [ X 1 | ∑ X i ] は、私たちが探している推定量です。∑Xi∑Xi\sum X_i θθ \thetaT(X)=X1T(X)=X1T(X)=X_1g(θ)g(θ)g(\theta)W(X)=E[X1|∑Xi]W(X)=E[X1|∑Xi]W(X) = E[X_1|\sum X_i] 次のものがあります。 …

3
データの確率分布を推定するためのさまざまなノンパラメトリック手法
データがあり、滑らかな曲線を当てはめようとしていました。しかし、私はそれ、または特定の分布に対して、あまりにも多くの以前の信念または強すぎる先入観(私の質問の残りの部分によって暗示されるものを除く)を強制したくありません。 私はそれを滑らかな曲線に適合させたかっただけです(または、それが由来している可能性のある確率分布を適切に推定しています)。これを行うために私が知っている唯一の方法は、カーネル密度推定(KDE)です。人々がそのようなことを推定する他の方法を知っているのだろうかと思っていました。私はそれらのリストが欲しかっただけであり、そこから自分の調査を行って、使用したいものを見つけることができます。 リンクや適切な参照(または適切な直感)を提供することは常に歓迎されます(推奨されます)。

3
一様分布のパラメータの推定:不適切な事前?
我々は、N個のサンプルを有する、一様分布からここで不明です。データからを推定します。XiXiX_i[0,θ][0,θ][0,\theta]θθ\thetaθθ\theta ベイズの法則... f(θ|Xi)=f(Xi|θ)f(θ)f(Xi)f(θ|Xi)=f(Xi|θ)f(θ)f(Xi)f(\theta | {X_i}) = \frac{f({X_i}|\theta)f(\theta)}{f({X_i})} そして可能性は: 0≤XI≤θIf(Xi|θ)=∏Ni=11θf(Xi|θ)=∏i=1N1θf({X_i}|\theta) = \prod_{i=1}^N \frac{1}{\theta} (edit:when for all、0 for -thanks whuber)0≤Xi≤θ0≤Xi≤θ0 \le X_i \le \thetaiii に関する他の情報がないため、事前分布は(つまり均一)または(Jeffreys事前?)に比例しているように見えが、私の積分は収束せず、どうすればよいかわかりません。何か案は?θθ\theta1111L1L\frac{1}{L}[0,∞][0,∞][0,\infty]

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.