タグ付けされた質問 「gaussian-mixture」

サブ母集団がガウス分布に従うことを前提とする混合分布またはモデルのタイプ。

5
離散変数と連続変数の両方を使用したデータセットのクラスタリング
10個の次元を持つデータセットXがあり、そのうち4個は離散値です。実際、これらの4つの離散変数は序数です。つまり、値が大きいほど意味が高い/良いことを意味します。 これらの離散変数のうち2つは、これらの変数のそれぞれについて、たとえば11から12の距離が5から6の距離と同じではないという意味でカテゴリです。必ずしも線形ではありません(実際、実際には定義されていません)。 私の質問は: 離散変数と連続変数の両方を含むこのデータセットに、一般的なクラスタリングアルゴリズム(たとえば、K-Means、次にGaussian Mixture(GMM))を適用することをお勧めしますか? そうでない場合: 離散変数を削除して、連続変数のみに焦点を合わせる必要がありますか? 連続データをより良く離散化し、離散データにクラスタリングアルゴリズムを使用する必要がありますか?

2
k-meansクラスタリングが混合ガウスモデリングの形式である場合、データが正常でない場合に使用できますか?
GMMのEMアルゴリズムと、GMMとk-meansの関係についてBishopを読んでいます。 この本では、k-meansはGMMのハードアサインバージョンです。私は、クラスター化しようとしているデータがガウスではない場合、k-meansを使用できない(または少なくとも使用に適していない)ことを意味しているのだろうか?たとえば、データがそれぞれ値0または1の8 * 8ピクセルで構成される手書き数字の画像である場合(そしてそれらが独立していると仮定して、ベルヌーイの混合物である必要がある場合)? 私はこれについて少し混乱していますが、どんな考えでも感謝します。

2
手動で実装されたEMアルゴリズム
私は手動でEMアルゴリズムを実装してからの結果と比較したいnormalmixEMのmixtoolsパッケージ。もちろん、両方が同じ結果につながる場合、私は幸せです。主な参考文献は、Geoffrey McLachlan(2000)、Finite Mixture Modelsです。 2つのガウス分布の混合密度があり、一般的な形式では、対数尤度は(McLachlanページ48)で与えられます。 ログLc(Ψ )= ∑i = 1g∑j = 1nz私はj{ ログπ私+ ログf私(y私; θ私)} 。log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. である観察からあった場合は、番目のそうでなければ、コンポーネント密度。正規分布の密度です。ので、混合物の割合である観察最初ガウス分布からのものであることは、確率であり、観察第ガウス分布からのものであることを、確率です。z私はjzijz_{ij}111私ii0000f私fif_iππ\piπ1π1\pi_1π2π2\pi_2 Eのステップは、今条件付き期待値の計算です。 Q (Ψ ; Ψ(0 ))= EΨ (0 ){ ログLc(| Ψ )| y} 。Q(Ψ;Ψ(0))=EΨ(0){log⁡Lc(|Ψ)|y}. Q(\Psi;\Psi^{(0)}) = E_{\Psi(0)}\{\log L_c(|\Psi)|y\}. 結果(49ページ)へのいくつかの派生の後、リードします: τ私(yj; Ψ(k ))= π(k …

2
ガウス混合の最適化が直接計算的に難しいのはなぜですか?
混合ガウス分布の対数尤度を考慮します。 l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} その方程式を直接最大化することが計算上困難なのはなぜだろうか?私は、なぜそれが難しいことを明らかにする必要があるかについての明確で堅実な直観、またはおそらくその難しい理由についてのより厳密な説明を探していました。この問題はNP完全ですか、それとも解決方法がまだわかりませんか?これが、EM(期待値最大化)アルゴリズムを使用することに頼る理由ですか? 表記法: =トレーニングデータ。SnSnS_n =データポイント。x(t)x(t)x^{(t)} =ガウス、それらの平均、標準偏差、および各クラスター/クラス/ガウスからポイントを生成する確率を指定するパラメーターのセット。θθ\theta =クラスター/クラス/ガウスiからポイントを生成する確率。pipip_i

2
混合モデルで期待値の最大化が重要な理由
混合モデル(ガウス混合モデル、隠れマルコフモデルなど)の期待値最大化法を強調した多くの文献があります。 EMが重要な理由 EMは最適化を行うための単なる方法であり、勾配ベースの方法(勾配ディセントまたはニュートン/準ニュートン法)またはここで説明した他の勾配のない方法として広く使用されていません。さらに、EMにはまだ局所的な最小の問題があります。 それは、プロセスが直感的で、簡単にコードに変換できるからでしょうか?または他にどんな理由がありますか?

2
クラスタリングのための混合モデルの適合方法
XとYの2つの変数があり、クラスターを最大(および最適)= 5にする必要があります。変数の理想的なプロットは次のようになります。 このクラスターを5つ作成したいと思います。このようなもの: したがって、これは5つのクラスターを持つ混合モデルだと思います。各クラスターには中心点とその周囲の信頼円があります。 クラスターは必ずしもこのようにきれいであるとは限らず、次のようになります。2つのクラスターが互いに近接している場合や、1つまたは2つのクラスターが完全に欠落している場合があります。 この状況で混合モデルをどのように適合させ、分類(クラスタリング)を効果的に実行できますか? 例: set.seed(1234) X <- c(rnorm(200, 10, 3), rnorm(200, 25,3), rnorm(200,35,3), rnorm(200,65, 3), rnorm(200,80,5)) Y <- c(rnorm(1000, 30, 2)) plot(X,Y, ylim = c(10, 60), pch = 19, col = "gray40")

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

5
ガウス混合モデルの特異点の問題
本「パターン認識と機械学習」の第9章には、ガウス混合モデルに関する次の部分があります。 正直に言うと、なぜこれが特異性を生み出すのか、私にはよくわかりません。誰も私にこれを説明できますか?申し訳ありませんが、私は学部生であり、機械学習の初心者なので、私の質問は少しばかげているように聞こえるかもしれませんが、助けてください。どうもありがとうございました

3
ガウス混合の使用を正当化する参照
ガウス混合モデル(GMM)は、分析的にも実際的にも簡単に使用でき、あまり複雑ではないいくつかのエキゾチックな分布をモデル化できるため、魅力的です。一般に明確ではないいくつかの分析プロパティを保持する必要があります。特に: SnSnS_nnnnPPPnnnPPPlimn→∞infP^∈SnD(P||P^)=0?limn→∞infP^∈SnD(P||P^)=0?\lim_{n\rightarrow \infty}\inf_{\hat{P}\in S_n} D(P||\hat{P})=0? 我々は連続分布持っていると言う、我々は発見した -componentガウス混合近くにある全変動で:。私たちは、バインドすることができますという点で?PPPP P δ (P 、P)&lt; ε D (P | | P)εNNNP^P^\hat{P}PPPδ(P,P^)&lt;εδ(P,P^)&lt;ε\delta(P,\hat{P})<\varepsilonD(P||P^)D(P||P^)D(P||\hat{P})ϵϵ\epsilon 独立した加法性ノイズY \ sim P_Y(実数、連続の両方)を通じてX \ sim P_Xを観察したい場合、GMM \ hat {X} \ sim Q_X、\ hat {Y} \ sim Q_N where \ delta(P 、Q)&lt;\ epsilon、この値は小さい:\ left | \ mathsf {mmse}(X | X + Y)-\ mathsf …


1
ガウス混合モデルの異なる共分散タイプ
ここでガウス混合モデルを試してみたところ、これら4種類の共分散が見つかりました。 'full' (each component has its own general covariance matrix), 'tied' (all components share the same general covariance matrix), 'diag' (each component has its own diagonal covariance matrix), 'spherical' (each component has its own single variance). 私は、これらの各タイプの詳細を見つけるために多くのことをGoogleで検索しますが(のような非常に高いレベルの説明見つかっこれのみ)。 誰かが私にこれらを理解するのを手伝ってくれるか、少なくとも私がこれらについて読むことができるどこかに私を導くことができるならば、感謝します。

1
正規分布の組み合わせからの分位点
私は、さまざまな年齢の子供の人体寸法(肩幅など)の分布に関する情報を持っています。年齢と次元ごとに、平均、標準偏差があります。(8つの変位値もありますが、それらから必要なものを取得できるとは思いません。) 各次元について、長さ分布の特定の分位数を推定したいと思います。各次元が正規分布していると仮定した場合、平均と標準偏差を使用してこれを行うことができます。分布の特定の分位に関連付けられた値を取得するために使用できるきれいな式はありますか? その逆は非常に簡単です。特定の値について、各正規分布(年齢)の値の右側の領域を取得します。結果を合計し、分布の数で割ります。 更新:同じ質問をグラフィカル形式で示します。各色付き分布が正規分布していると仮定します。 また、明らかに、さまざまな長さの束を試して、精度のために目的の分位点に十分に近い長さになるまで変更し続けることができます。これよりも良い方法があるかどうか疑問に思っています。そして、これが正しいアプローチである場合、その名前はありますか?

1
Mclustモデルの選択
Rパッケージmclustは、BICをクラスターモデル選択の基準として使用します。私の理解では、BICが最も低いモデルを他のモデルよりも選択する必要があります(BICのみに関心がある場合のみ)。ただし、BIC値がすべて負の場合、Mclust関数はデフォルトで最大のBIC値を持つモデルになります。さまざまなトライアルから私の全体的な理解は、mclust「最良の」モデルをを持つモデルとして識別することです。max{BICi}max{BICi}max\{BIC_i\} 著者がこの決定をした理由を理解しようとしています。CRANサイトで説明されています:https : //cran.r-project.org/web/packages/mclust/vignettes/mclust.html また、mclustパッケージの作成者は、5ページのモデルベースの分類方法:ケモメトリックスでのmclustソフトウェアの使用を参照してください。 「最良の」モデルは、適合モデルの中で最高のBICを持つモデルと見なされます。 誰でもこの問題に光を当てることができますか?低いBICが常に優れている場合、著者はなぜ最小のBICを持つモデルではなく、最小の絶対BICを持つモデルを選択するのですか?可能であれば、参照を提供します。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 &lt;- function(x,z,sx=0.3,sz=0.4) { x &lt;- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n &lt;- 500 x &lt;- runif(n)/20;z &lt;- runif(n); xs &lt;- seq(0,1,length=30)/20;zs &lt;- seq(0,1,length=30) pr &lt;- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth &lt;- matrix(test1(pr$x,pr$z),30,30) f &lt;- test1(x,z) y &lt;- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
クラスター解を評価するための2つのガウス混合の間の距離
さまざまなクラスタリング手法を比較するためのクイックシミュレーションを実行していますが、現在、クラスタソリューションを評価しようとする障害にぶつかっています。 私はさまざまな検証メトリックスを知っています(Rのcluster.stats()に多くあります)が、クラスターの推定数が実際のクラスターの実際の数と等しい場合、それらが最もよく使用されると思います。元のシミュレーションでクラスターの正しい数が指定されていない場合に、クラスターソリューションのパフォーマンスを測定する機能を維持したい(つまり、4クラスターを持つようにシミュレーションされた3つのクラスターソリューションモデルデータがどれだけうまく機能するか)解決)。参考までに、クラスタは同じ共分散行列を持つようにシミュレーションされます。 ガウス分布の2つの混合物間のKLダイバージェンスは実装に役立つと思いましたが、閉形式のソリューションは存在せず(Hershey and Olson(2007))、モンテカルロシミュレーションの実装は計算コストがかかり始めています。 (たとえ近似であっても)実装が簡単な他の解決策はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.