タグ付けされた質問 「maximum-likelihood」

特定のサンプルを観察する確率を最適化するパラメーター値を選択することにより、統計モデルのパラメーターを推定する方法。

3
GLMがモードではなく平均を予測するのはなぜですか?
GLMが信号のモードではなく平均を予測するのはなぜですか?これは、GLMの背後にある基本、つまり最尤法と矛盾していませんか?GLMのモデルパラメーターを解くための方程式は、モデル化された信号の確率分布によって記述される尤度の最大化に基づいています。この確率分布は、平均ではなくモードの最大値です(正規分布は例外です:モードと平均の両方が同じです)。したがって、GLMは信号の平均ではなくモードを予測する必要があります。(この質問の背景については、こちらを参照してください。)

2
名前EMアルゴリズムにEがあるのはなぜですか?
Eステップがアルゴリズムのどこで発生するかを理解しています(以下の数学セクションで説明されています)。私の考えでは、アルゴリズムの重要な工夫は、対数尤度の下限を作成するためのジェンセンの不等式の使用です。その意味でExpectationは、対数尤度を再定義してJensenの不等式(つまり、凹関数の場合はに適合するように単純に行われます。E(f(x))&lt;f(E(x))E(f(x))&lt;f(E(x))E(f(x)) < f(E(x)) Eステップがいわゆると呼ばれる理由はありますか?期待していること(意味はありますか?単に予期せずに発生するのではなく、期待が中心的である理由の背後にある直感が欠けているように感じますジェンセンの不等式の使用。p(xi,zi|θ)p(xi,zi|θ)p(x_i, z_i| \theta) 編集:チュートリアルは言う: 「Eステップ」という名前は、通常、完了に対する確率分布を明示的に形成する必要はなく、これらの完了に対して「期待される」十分な統計を計算するだけでよいという事実に由来しています。 「通常、完了に対する確率分布を明示的に形成する必要がない」とはどういう意味ですか?その確率分布はどのようになりますか? 付録:EMアルゴリズムのEステップ l l= ∑私ログp (x私; θ )= ∑私ログΣz私p (x私、z私; θ )= ∑私ログΣz私Q私(z私)p (x私、z私; θ )Q私(z私)= ∑私ログEz私[ p (x私、z私; θ )Q私(z私)]≥ Σ Ez私[ ログp (x私、z私; θ )Q私(z私)]≥ Σ私Σz私Q私(z私)ログp (x私、z私; θ )Q私(z私)対数尤度の定義潜在変数zで補強 Q私zの 分布です 私期待に応える-したがって、EMのE 凹型のログにジェンセンのルールを 使用する最大化するQ関数ll=∑ilog⁡p(xi;θ)definition of log likelihood=∑ilog⁡∑zip(xi,zi;θ)augment with latent variables …

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph &lt;- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

1
ガウス混合の期待値最大化の限界としてのK平均アルゴリズムの導出
クリストファー・ビショップは、完全なデータ対数尤度関数の期待値を定義します(つまり、観測可能なデータXと潜在的なデータZの両方が与えられていると仮定します)。 EZ[lnp(X,Z∣μ,Σ,π)]=∑n=1N∑k=1Kγ(znk){lnπk+lnN(xn∣ μk,Σk)}(1)(1)EZ[ln⁡p(X,Z∣μ,Σ,π)]=∑n=1N∑k=1Kγ(znk){ln⁡πk+ln⁡N(xn∣ μk,Σk)} \mathbb{E}_\textbf{Z}[\ln p(\textbf{X},\textbf{Z} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\pi})] = \sum_{n=1}^N \sum_{k=1}^K \gamma(z_{nk})\{\ln \pi_k + \ln \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)\} \tag 1 ここで、γ(znk)γ(znk)\gamma(z_{nk})は次のように定義されます: πkN(xn∣ μk,Σk)∑Kj=1πjN(xn∣ μj,Σj)(2)(2)πkN(xn∣ μk,Σk)∑j=1KπjN(xn∣ μj,Σj) \frac{\pi_k \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_j, \boldsymbol{\Sigma}_j)} \tag 2 説明したように、アイデアは、混合成分の共分散行列がϵIϵI\epsilon \textbf{I}によって与えられるガウス混合モデルを考えることです。ここで、ϵϵ\epsilonは、すべての成分によって共有される分散パラメーターです。それ: p(x∣μk,Σk)=1(2πϵ)M2exp{−12ϵ∥x−μk∥2}(3)(3)p(x∣μk,Σk)=1(2πϵ)M2exp⁡{−12ϵ‖x−μk‖2} p(\textbf x \mid …

1
二項式のパラメーターの推定
まず第一に、私はこの主題の専門家ではないことを明確にしたいと思います。 と 2 項の2つの確率変数とがあるとすると、は同じであること注意してください。ことを知っていXXXYYYX∼B(n1,p)X∼B(n1,p)X\sim B(n_1,p)Y∼B(n2,p),Y∼B(n2,p),Y\sim B(n_2,p),pppZ=X+Y∼B(n1+n2,p).Z=X+Y∼B(n1+n2,p).Z=X+Y \sim B(n_1+n_2,p). ましょう 用試料でとのサンプルである、推定するための標準的な方法がある及び?{x1,…,xk}{x1,…,xk}\{x_1,\ldots,x_k\}XXX{y1,…,yk}{y1,…,yk}\{y_1,\ldots,y_k\}YYYn=n1+n2n=n1+n2n=n_1+n_2ppp これが私たちが行ったことです: によって与えられるの「新しいサンプル」を、ZZZ{x1+y1,…,xk+yk}{x1+y1,…,xk+yk}\{x_1+y_1,\ldots, x_k+y_k\} 尤度推定器を使用して、と推定値を取得します。nnnppp フィッシャー情報を使用して、および誤差を理解しようとします。nnnppp この方法は機能しているように見えますが、まだいくつかの疑問があります。してみましょうかけ順列のグループを要素。すべてのについて、によって与えられる「サンプル」を考慮することができ「新しいサンプル」のそれぞれに尤度推定量を適用すると(異なる合計があります、とについて異なる推定られます。SkSkS_kkkkσ∈Skσ∈Sk\sigma\in S_k{x1+yσ(1),…,xk+yσ(k)}.{x1+yσ(1),…,xk+yσ(k)}.\{x_1+y_{\sigma(1)},\dots, x_k+y_{\sigma(k)}\}.k!k!k!(nσ,pσ)(nσ,pσ)(n_\sigma,p_\sigma)nnnppp これの意味は何ですか?新しい値はどのように関連付けられますか?の誤差の計算に使用できますか?nσ,pσnσ,pσn_\sigma, p_\sigmannn 一部のコメント: 質問は以前ここに投稿されていましたが、ユーザーからタット/クロスバリデーションされたSEを使用するように勧められました。 私が念頭に置いている例では、は特定の地域の鳥の数であり、は可視性の確率です。同様の持つ領域を集約する必要があります。そうしないと、データが小さすぎます。特に、可能であれば、推定のみが必要です。ここで、のアプリオリは不明です。p p n pnnnppppppnnnppp 例 明確にするために、kjetil b halvorsenの回答を考慮して、ここで実際的な例を示します。固定された等しい確率で2つのゾーンに分割された領域が1つだけあり、データが次のとおりであるとします。ppp Zone 1 Zone 2 a1 b1 a2 b2 a3 b3 a4 b4 a5 b5 a6 b6 次に、これを検討できます。 Zone 1+2 c1=a1+b1 …

1
混合効果の可能性と推定ロジスティック回帰
最初に、固定部分とランダム部分を持つロジスティック回帰のデータをシミュレートします。 set.seed(1) n &lt;- 100 x &lt;- runif(n) z &lt;- sample(c(0,1), n, replace=TRUE) b &lt;- rnorm(2) beta &lt;- c(0.4, 0.8) X &lt;- model.matrix(~x) Z &lt;- cbind(z, 1-z) eta &lt;- X%*%beta + Z%*%b pr &lt;- 1/(1+exp(-eta)) y &lt;- rbinom(n, 1, pr) ランダムな部分がないロジスティック回帰を近似したいだけの場合は、次のglm関数を使用できます。 glm(y~x, family="binomial") glm(y~x, family="binomial")$coefficients # (Intercept) x # -0.2992785 …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
最尤コインパラメーター推定の期待値
コインを回投げるときに、コインパラメーター最尤推定値を計算したいコイントス実験があるとします。二項尤度関数の導関数計算した後、P ^ X(1-P)^ {NX} {Xを選択\ n}はL(p)を=、Iは最適値取得pがあると、P ^ {*} = \ FRAC {x} {n}、xは成功の数です。pppnnnL(p)=(nx)px(1−p)n−xL(p)=(nx)px(1−p)n−x L(p) = { n \choose x } p^x (1-p)^{n-x} p ∗ = xppp xp∗=xnp∗=xnp^{*} = \frac{x}{n}xxx 私の質問は次のとおりです。 このpの最尤推定の期待値/分散をどのように計算しpppますか? L(p ^ {*})の期待値/分散を計算する必要がありL(p∗)L(p∗)L(p^{*})ますか? はいの場合、どうすればよいですか?

1
パラメータがパラメータ空間の境界に近づくと、対数尤度はマイナス無限大になる必要があるのはなぜですか?
最近の講義で、最尤推定が有効であるためには、パラメーターがパラメーター空間の境界に行くときに対数尤度がマイナス無限大になる必要があると言われました。しかし、なぜこれが不可欠なのかわかりません。対数尤度がある種の漸近線に行くと仮定します。次に、尤度を最大化するパラメーターは、依然として最尤推定値ですよね?

1
MLE /対数正規分布区間の可能性
以下のサンプルのように、間隔として表される応答の変数セットがあります。 &gt; head(left) [1] 860 516 430 1118 860 602 &gt; head(right) [1] 946 602 516 1204 946 688 ここで、左は応答の下限、右は応答の上限です。対数正規分布に従ってパラメーターを推定したい。 しばらくの間、可能性を直接計算しようとしたとき、2つの境界が異なるパラメーターのセットに沿って分布しているため、以下のようないくつかの負の値が得られるという事実に苦労していました。 &gt; Pr_high=plnorm(wta_high,meanlog_high,sdlog_high) &gt; Pr_low=plnorm(wta_low, meanlog_low,sdlog_low) &gt; Pr=Pr_high-Pr_low &gt; &gt; head(Pr) [1] -0.0079951419 0.0001207749 0.0008002343 -0.0009705125 -0.0079951419 -0.0022395514 私は実際にそれを解決する方法を理解できず、代わりに間隔の中間点を使用することに決めました。これは、間隔応答の対数尤度を抽出するmledist関数を見つけるまで、良い妥協です。これは私が得る要約です: &gt; mledist(int, distr="lnorm") $estimate meanlog sdlog 6.9092257 0.3120138 $convergence [1] 0 …

2
トリミングされた分布は、最尤推定量を意味しますか?
サンプル平均は、最尤推定量である正規分布のための 。サンプル中央値の最尤推定量である用のラプラス分布(二重指数分布と呼ばれます)。通常(μ 、σ )m ラプラス(m 、s )μμ\mu通常(μ 、σ)Normal(μ,σ)\text{Normal}(\mu,\sigma)メートルmm ラプラス(m 、s )Laplace(m,s)\text{Laplace}(m,s) トリミングされたサンプルの平均が最尤推定量である位置パラメーターを持つ分布は存在しますか?

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
ショットノイズのある線形回帰
次の問題を説明するための適切な統計用語を探しています。 線形応答を持つ電子機器を特徴づけたい Y= β0+ β1バツ+ ϵY=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon ここで、は、デバイスの読み出しノイズによる項です。決定するために Iは、一連の応答を測定することになる標準線形回帰ツールボックスを適用します。しかし、ショットノイズの影響を受けるソースを使用しているため、が正確に何であるかわかりません。つまり、ソースのダイヤルを特定の値に設定すると、(平均および分散ガウスになることはわかっています。β 0、β 1、σ 2 R O { X I、Y I } X I J I X 、I〜N (μ 、μ )μ με 〜N(0 、σ2R O)ϵ∼N(0,σro2)\epsilon \sim N(0,\sigma^2_{ro})β0、β1、σ2R Oβ0,β1,σro2\beta_0, \beta_1, \sigma^2_{ro}{ X私、Y私}{Xi,Yi}\{X_i,Y_i\}バツ私XiX_iJ私JiJ_iバツ私〜N(μ 、μ )Xi∼N(μ,μ)X_i \sim N(\mu, \mu)μμ\muμμ\mu これは、線形回帰の変数内エラーモデル(http://en.wikipedia.org/wiki/Errors-in-variables_models)のように見えますが、入力範囲全体でデバイスを特徴付けるためではありません。 …


2
どのように?
最近、最尤推定量とベイジアン統計について読み始めました。統計モデルが与えられた場合、は大きなパラメーター空間に属し、と間のKL発散(は真見つけたいパラメーター)は、を最大化するに対して最小化されます。イベントが独立して同一に分布していると仮定すると、これは、結合確率を最大化することになり(X,(Pθ))(X,(Pθ))(X, (P_\theta))θθ\thetaΘΘ\ThetaPθPθP_\thetaPθ∗Pθ∗P_\theta*θ∗θ∗\theta^*θθ\theta∏ni=1pθ(Xi)∏i=1npθ(Xi)\prod_{i=1}^{n}p_\theta(X_i)P[X1=x1,X2=x2,...,Xn=xn].P[X1=x1,X2=x2,...,Xn=xn].P[X_1=x_1, X_2=x_2, ...,X_n=x_n]. (独立性の仮定により、これを個々の要素の積と同等と見なすことができます) ベイズアプローチは、分布の事前信念を占め、と最大にベイズ規則により、最大限に相当し、。ここまではわかった。この後、は「可能性」と呼ばれ、に置き換えられこれは、個々の確率の積です流通におけるXの。これは、が実際に、つまり、与えられた確率であることを意味しますかθθ\thetaP(θ)P(θ)P(\theta)P(θ|X)P(θ|X)P(\theta|X)P(X|θ)P(θ)/P(X)P(X|θ)P(θ)/P(X)P(X|\theta)P(\theta)/P(X)P(X|θ)P(X|θ)P(X|\theta)P[X1=x1,X2=x2,...,Xn=xn]P[X1=x1,X2=x2,...,Xn=xn]P[X_1=x_1, X_2=x_2, ...,X_n=x_n]PθPθP_\thetaP[X1=x1,X2=x2,...,Xn=xn]P[X1=x1,X2=x2,...,Xn=xn]P[X_1=x_1, X_2=x_2, ...,X_n=x_n]Pθ[X1=x1,X2=x2,...,Xn=xn]Pθ[X1=x1,X2=x2,...,Xn=xn]P_\theta[X_1=x_1, X_2=x_2, ...,X_n=x_n]θθ\theta、またはそのようなもの? 私は確率と分布があまり得意ではありません。私の理解では、オブジェクトは条件付き確率と呼ばれ、オブジェクト(独立性によって等しい)は結合確率と呼ばれ、非常に異なるものです。著者がを最大確率での同時確率に使用する場合があるのを見てきました。結合確率と条件付き確率が等しいと見なされるのはなぜですか。P(X|θ)P(X|θ)P(X|\theta)P[X1=x1,X2=x2,...,Xn=xn]P[X1=x1,X2=x2,...,Xn=xn]P[X_1=x_1, X_2=x_2, ...,X_n=x_n]∏ni=1pθ(Xi)∏i=1npθ(Xi)\prod_{i=1}^{n}p_\theta(X_i)P(X;θ)P(X;θ)P(X;\theta)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.