タグ付けされた質問 「estimation」

このタグは一般的です。より具体的なタグを提供してください。特定の推定量のプロパティに関する質問については、代わりに[estimators]タグを使用してください。

2
O(1)更新効率によるロバストな平均推定
特定の特性を持つ平均のロバストな推定を探しています。この統計を計算する要素のセットがあります。次に、新しい要素を1つずつ追加し、要素を追加するたびに統計(オンラインアルゴリズムとも呼ばれます)を再計算します。この更新の計算を高速に、できればO(1)に、つまりリストのサイズに依存しないようにしたいと思います。 通常の平均には、効率的に更新できるという特性がありますが、外れ値に対して堅牢ではありません。四分位間平均やトリム平均のような、平均の典型的なロバストな推定量は、効率的に更新できません(ソートされたリストを維持する必要があるため)。 効率的に計算/更新できる堅牢な統計についての提案があれば幸いです。

3
GPS追跡における推定問題
問題:リーダーとフォロワーという名前の2台の車(点オブジェクトと見なされます)を考えます。どちらも互いに通信するGPSデバイスを備えています。の目的は、が平面上を任意に移動するときに、できるだけ追従することです。すべてのGPSデバイスに、所定の平均と所定の共分散行列持つエラーの循環エラー確率(CEP)分布があるとます。F F L μ = (μ X、μ Y)Σ 2 × 2LLLFFFFFFLLLμ =(μバツ、 μy)μ=(μx,μy)\mu = (\mu_x,\mu_y)Σ2 × 2Σ2×2\Sigma_{2\times 2} ことを考えると(区分的に滑らかな)曲線横断平面内で横断予想曲線何?さらに、のパスの分布はどのようなものですか?C F FLLLCCCFFFFFF がある期間にわたってを推定する最適な方法は何ですか?LFFFLLL 背景:これは私が実験的な作業で直面した実際的な問題であり、宿題ではありません。ホワイトノイズに直面して最適な状態推定を行うためのカルマンフィルタリングなどのツールは知っていますが、これらをこのケースに拡張する方法について正確にはわかりません。また、関連する研究文献についても知りたい。

3
候補者の分布が均一なMetropolis-Hastingsの合格率
均一な候補分布でMetropolis-Hastingsアルゴリズムを実行する場合、受け入れ率を約20%にする根拠は何ですか? 私の考えは、真の(または真に近い)パラメータ値が見つかると、同じ均一な間隔からの新しい候補パラメータ値のセットが尤度関数の値を増加させることはありません。したがって、実行する反復が多いほど、取得率は低くなります。 この考えのどこが間違っているのですか?どうもありがとう! これが私の計算のイラストです: Acceptance_rate=exp{l(θc|y)+log(p(θc))−[l(θ∗|y)+log(p(θ∗)]},Acceptance_rate=exp⁡{l(θc|y)+log⁡(p(θc))−[l(θ∗|y)+log⁡(p(θ∗)]},Acceptance\_rate = \exp \{l(\theta_c|y) + \log(p(\theta_c)) - [l(\theta^*|y) + \log(p(\theta^*) ]\}, ここで、は対数尤度です。lll 候補が常に同じ均一な間隔から取得され、θθ\theta p(θc)=p(θ∗).p(θc)=p(θ∗).p(\theta_c) = p(\theta^*). したがって、受け入れ率の計算は次のように縮小されます。 Acceptance_rate=exp{l(θc|y)−[l(θ∗|y)]}Acceptance_rate=exp⁡{l(θc|y)−[l(θ∗|y)]}Acceptance\_rate = \exp \{l(\theta_c | y) - [l(\theta^* | y) ]\} したがって、の受け入れ規則は次のようになります。θcθc\theta_c もし、間隔で一様分布から描画である次に、U [ 0 、1 ]U≤Acceptance_rateU≤Acceptance_rateU \le Acceptance\_rate UUU[0,1][0,1][0,1] θ∗=θc,θ∗=θc,\theta^* = \theta_c, それ以外の場合は、区間内の均一分布からを描画します [ θ M I N、θ …

4
統計学者のための数値最適化に関するリファレンス
統計学者向けの数値最適化手法に関する確かなリファレンスを探しています。つまり、これらの手法をいくつかの標準的な推論問題(たとえば、一般的なモデルのMAP / MLE)に適用します。勾配降下法(直線的で確率的)、EMとそのスピンオフ/一般化、シミュレーテッドアニーリングなど。 私はそれが実装に関するいくつかの実用的なメモを持っていることを望んでいます(それでしばしば論文が不足しています)。完全に明示的である必要はありませんが、少なくとも確かな参考文献を提供する必要があります。 おおざっぱな検索の結果、いくつかのテキストが見つかりました。ケン・ランゲによる統計学者のための数値分析とジョン・モナハンによる統計学の数値的方法。それぞれのレビューは混合されている(そしてまばらな)ようです。2つのうち、目次をよく読んで、Langeの本の第2版が私が求めているものに最も近いことを示唆しています。

1
発生のランダムサンプリングに基づいてイベントの頻度を推定できますか?
いくつかの編集が行われました... この質問はただの面白さなので、面白くない場合は無視してください。私はすでにこのサイトから多くの助けを得ているので、私を養う手を噛みたくありません。これは実際の例に基づいており、私がよく疑問に思ったものです。 私は地元の道場を訪れ、月曜日から金曜日まで基本的にランダムにトレーニングをしています。週に2回訪問するとします。これは、私が毎週正確に2回訪問することを意味します。私がいるときはいつでも、ほとんどいつもそこにいる一人の人がいます。彼が私と同じ日に訪問した場合、私は彼に会います。私がいるときの90%の時間に彼がいるとしましょう。2つのことを知りたい: 1)彼が訓練する頻度 2)彼がランダムに来るか、週の特定の日に来るか。 おそらく、もう1つを推測するために1つを想定する必要があると思いますか?私は本当にこれで全くどこにも行きません。毎週のウォームアップでそれについて考えているだけで、新たに困惑します。誰かが私に問題について考える方法を与えたとしても、私は最も感謝します。 乾杯!

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
セットのサイズの見積もりでエラーが発生しましたか?
セットAとサブセットBがあるとします。| A |がわかっている場合は、| B |を計算できます。Aからランダムに一様に選択された要素がBに属する確率pを見つけることによって。具体的には、| A | p = | B |です。 Aのn個の要素をランダムに均一に生成し、このデータを使用してp(Bの要素数をnで割った値)を推定し、| B |を推定するとします。 この見積もりはどの程度信頼できますか?つまり、エラーをどのように計算できますか? 余談ですが、この手法に名前はありますか?(それはマークアンドリキャプチャー技術の数学的なバージョンのようです)

2
平均を推定するために必要なサンプル数の動的計算
私はサンプリングを介して多かれ少なかれガウス分布の平均を推定しようとしています。その平均や分散についての予備知識はありません。各サンプルの入手には費用がかかります。特定のレベルの信頼性/精度を得るために必要なサンプル数を動的に決定するにはどうすればよいですか?または、サンプルの採取をいつ停止できるかを知るにはどうすればよいですか? 私が見つけることができるこのような質問へのすべての回答は、差異についてのある程度の知識を推定しているように見えますが、私は途中でそれも発見する必要があります。他の人は投票を取ることを目的としており、それが一般化する方法は私(初心者)にははっきりしていません。 これはおそらくよく知られている答えのある簡単な質問だと思いますが、私のGoogle-fuは私を失敗させています。何を検索すればいいのか教えてもらえると助かります。

2
なぜ公平性が一貫性を意味しないのですか
Ian Goodfellowらによる深層学習を読んでいます。として導入します。 ここで、とはそれぞれ推定パラメーターと基になる実パラメーターです。Bias(θ)=E(θ^)−θBias(θ)=E(θ^)−θBias(\theta)=E(\hat\theta)-\thetaθ θθ^θ^\hat\thetaθθ\theta 一方、一貫性はによって定義され ます。これは、場合、 aslimm→∞θ^m=θlimm→∞θ^m=θ\mathrm{lim}_{m\to\infty}\hat\theta_m=\thetaϵ>0ϵ>0\epsilon > 0P(|θ^m−θ|>ϵ)→0P(|θ^m−θ|>ϵ)→0P(|\hat\theta_m-\theta|>\epsilon)\to0m→∞m→∞m\to\infty 次に、一貫性は公平性を意味しますが、その逆は意味しません: 一貫性により、データ例の数が増えるにつれて、推定量によって生じるバイアスが確実に減少します。ただし、その逆は当てはまりません。漸近的な不偏性は一貫性を意味しません。たとえば、m個のサンプルで構成されるデータセットを使用して、正規分布N(x;μ、σ2)の平均パラメーターμを推定することを検討してください:。データセットの最初のサンプルを不偏推定量として使用できます:\hatθ= x ^ {(1)}。その場合、E(\ hatθ_m)=θなので、データポイントがいくつ表示されても、推定量は不偏です。もちろん、これは推定値が漸近的に不偏であることを意味します。ただし、これは\hatθ_m→θが次のような場合ではないため、一貫した推定量ではありません。バツ(1 )、。。。、x(m )x(1),...,x(m){x^{(1)}, . . . , x^{(m)}}バツ(1 )x(1)x^{(1)}θ = X (1 ) E( θ M)= θ θ M → θ M→ ∞θ^= x(1 )θ^=x(1)\hatθ = x^{(1)}E(θ^メートル)= θE(θ^m)=θE(\hat θ_m) = θθ^メートル→ θθ^m→θ\hatθ_m → θm → ∞m→∞m …

2
内の完全な統計
統計が完了しているかどうかを知りたい以下のためのにおけるの設定。 σ2N(μ、σ2)T(X1,…,Xn)=∑ni=1(Xi−X¯n)2n−1T(X1,…,Xn)=∑i=1n(Xi−X¯n)2n−1T(X_1,\ldots,X_n)=\frac{\sum_{i=1}^n (X_i-\bar{X}_n)^2}{n-1}σ2σ2\sigma^2N(μ 、σ2)N(μ,σ2)N(\mu,\sigma^2) これは、が以前に知られているかどうかに依存しますか?がに対して完全である場合、Lehmann-SchefféによってUMVUEになります。しかし、がわかっている場合は、と見なすことができその分散はCramer-Raoはにバインドされており、厳密に未満であるため、 UMVUEにすることはできません。T σ 2μμ\muTTTσ2σ2\sigma^2W (X 1、... 、XのN)= Σ N I = 1(X I - μ )2μμ\mu2σ4/N2σ4/(N-1)=Varの[T]TW(X1、… 、Xん)= ∑んi = 1(X私- μ )2ん、W(X1,…,Xn)=∑i=1n(Xi−μ)2n,W(X_1,\ldots,X_n)=\frac{\sum_{i=1}^n (X_i-\mu)^2}{n},2つのσ4/ n2σ4/n2\sigma^4/n2つのσ4/(n−1)=Var[T]2σ4/(n−1)=Var[T]2\sigma^4/(n-1)=\text{Var}[T]TTT

4
回帰モデルの評価
分類の問題については、ニューラルネットワークを使用して、このリソース (ミラー)に従って混同行列とその測定値を使用してタイプIおよびIIのエラーを測定してきました。これは非常に簡単です。 推定の問題に直面した場合、モデルのパフォーマンスをどのように評価しますか?クラスがなく、出力が実際の形式で解釈されると仮定します。距離測定基準の平均化を超えて、それは多くの洞察を与えません。

1
モデルのパラメーターを推定する際の条件付き(対数)尤度または結合(対数)尤度の最大化の違いは何ですか?
応答yとデータ行列Xについて考えます。フォームのモデルを作成しているとしましょう- y〜g(X、)θθ\theta (g()はXおよび任意の関数である可能性があります)θθ\theta 最尤法(ML)を使用してを推定するために、条件付きML(条件付き密度f(y | X)の形式がわかっていると仮定)または結合ML(結合の形式がわかっていると仮定)密度f(y、X)または同等に、f(X | y)* f(y))θθ\theta 密度についての仮定以外に、上記の2つの方法のいずれかを続行する際に考慮事項があるかどうか疑問に思っていました。また、ほとんどの場合、1つのメソッドが他のメソッドを圧倒するインスタンス(特定のタイプのデータ)はありますか?

3
ロジスティック回帰の従属変数と非線形関係を持つ変数を使用できますか?
従属変数がバイナリであり、値または取ることができるロジスティック回帰モデルを構築しているとしましょう。独立変数をすると、独立変数があります。レッツと言う独立変数番目、二変量解析ショーU字トレンド-すなわち、もしI群にビンの観測の各含有ほぼ等しい数および各ビンのための「不良率」を計算する- #観測Y = 0 /各ビンの総観測値-次に、U字型の曲線を取得します。000X 1は、xは2、。。。、x m m k x k 20111バツ1、x2、。。。、xメートルバツ1、バツ2、。。。、バツメートルx_1, x_2, ..., x_mメートルメートルmkkkバツkバツkx_k202020 私の質問は: ベータパラメーターを推定するときに、を入力として直接使用できますか?パラメータの推定で重大なエラーを引き起こす可能性がある統計的仮定に違反していますか?バツkバツkx_k この変数を変換(対数、平方、それ自身との積など)を通じて「線形化」する必要がありますか?


1
サンプルの平均値と中央値から対数正規分布のパラメーターを取得できますか?
対数正規分布から抽出されたサンプルの平均値と中央値があります。これは変数のログの平均値と中央値ではないことに注意してください。もちろん、平均値と中央値のログを計算できます。この情報からμとσの閉じた形の解はありますか?数値解しかない場合、理想的にはRを使用して、それを見つける方法を教えてください。 私はこの質問は、ここで、サンプル平均と標本分散からμとσを導出するために回答されていることに注意してください: 私はサンプル平均と標本分散から対数正規分布のパラメータを推定するにはどうすればよい しかし、私は持っていません。サンプル分散、平均と中央値のみ。 閉じた形式または単純な数値解がない場合、サンプルの平均と中央値のログ、またはそれらの何らかの変換を使用すると、大規模なサンプル(数億単位)に対して適切な回答が得られるかどうかを知りたいです。 )。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.