統計とビッグデータ gaussian-mixture

3

問題単純な2ガウス混合母集団のモデルパラメーターを近似します。ベイジアン手法をめぐる誇大宣伝を踏まえ、この問題についてベイジアン推論が従来のフィッティング手法よりも優れたツールであるかどうかを理解したいと思います。これまでのところ、MCMCはこのおもちゃの例ではパフォーマンスが非常に低くなっていますが、おそらく見落としているだけかもしれません。コードを見てみましょう。道具私はpython（2.7）+ scipyスタック、lmfit 0.8およびPyMC 2.3を使用します。分析を再現するためのノートはここにありますデータを生成する最初にデータを生成してみましょう： from scipy.stats import distributions # Sample parameters nsamples = 1000 mu1_true = 0.3 mu2_true = 0.55 sig1_true = 0.08 sig2_true = 0.12 a_true = 0.4 # Samples generation np.random.seed(3) # for repeatability s1 = distributions.norm.rvs(mu1_true, sig1_true, size=round(a_true*nsamples)) s2 = …

10 bayesian gaussian-mixture frequentist pymc method-comparison

1

統計モデルのトレーニングに「十分」なデータの概念はありますか？

私は、隠れマルコフモデルや混合ガウスモデルなど、非常に多くの統計モデリングに取り組んでいます。これらの各ケースで優れたモデルをトレーニングするには、最終的な使用と同様の環境から取得した大量のデータ（HMMの場合は20000文以上）が必要です。私の質問は：文献に「十分な」訓練データの概念はありますか？どのくらいのトレーニングデータで「十分」ですか？「良い」（良い認識精度（> 80％）を与える）モデルをトレーニングするために必要な文の数を計算するにはどうすればよいですか？モデルが適切にトレーニングされているかどうかを確認するにはどうすればよいですか？モデルの係数はランダムな変動を示し始めますか？もしそうなら、モデルの更新によるランダムな変動と実際の変化をどのように区別しますか？さらにタグが必要な場合は、この質問に自由にタグを付け直してください。

10 modeling hidden-markov-model gaussian-mixture

4

Rの離散時間イベント履歴（生存）モデル

Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります：ID、Event（各time-obsで1または0）およびTime Elapsed（観測の開始以降）、および他の共変量。モデルに合うようにコードを書くにはどうすればよいですか？従属変数はどれですか？Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか？必要ですか？ありがとう。

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

混合ガウスモデルを使用する場合

GMMを初めて使用する。オンラインで適切なヘルプを見つけることができませんでした。「GMMの使用が私の問題に適しているかどうかを判断する方法」に関する正しいリソースを誰かに教えてもらえますか？または分類の問題の場合「SVM分類またはGMM分類を使用する必要があるかどうかを判断する方法」

9 classification svm gaussian-mixture generalized-moments

2

ガウス分布のベイズ混合への確率変分推論の適用

この論文に続いて、確率的変分推論で混合ガウスモデルを実装しようとしています。これはガウス混合のpgmです。論文によると、確率的変分推論の完全なアルゴリズムは次のとおりです。そして、私はそれをGMMにスケーリングする方法にまだ非常に混乱しています。まず、ローカル変分パラメーターはあり、その他はすべてグローバルパラメーターであると考えました。私が間違っていたら訂正してください。ステップ6はどういう意味ですか？これを達成するにはどうすればよいですか？qzqzq_zas though Xi is replicated by N times これで私を助けてくれませんか？前もって感謝します！

9 machine-learning bayesian clustering gaussian-mixture variational-bayes

1

EMアルゴリズムはガウス混合モデルのパラメーターを一貫して推定しますか？

私は混合ガウスモデルを研究していて、この質問を自分で考えます。 KKKμk∈Rpμk∈Rp\mu_k\in\mathbb{R}^p1≤k≤K1≤k≤K1\leq k\leq KΣΣ\SigmaΣΣ\Sigma1/K1/K1/K KKKμk∈Rpμk∈Rp\mu_k\in\mathbb{R}^p1≤k≤K1≤k≤K1\leq k\leq KΣΣ\Sigma μkμk\mu_kΣΣ\Sigman→∞n→∞n\rightarrow\inftyμkμk\mu_kΣΣ\Sigma

9 self-study expectation-maximization gaussian-mixture consistency

1

打ち切られた混合正規分布からシミュレーション

次のような混合正規分布からサンプルをシミュレートしたい p × N（μ1、σ21）+ （1 − p ）× N（μ2、σ22）p×N(μ1,σ12)+(1−p)×N(μ2,σ22)p\times\mathcal{N}(\mu_1,\sigma_1^2) + (1-p)\times\mathcal{N}(\mu_2,\sigma_2^2) 間隔に制限されているの代わりに、R。これは、正規分布の切り捨てられた混合をシミュレートしたいということです。[ 0 、1 ][0,1][0,1]RR\mathbb{R} これを行うために、切り捨てられた法線をシミュレートするアルゴリズム（つまり、この質問から）と対応するパッケージがRにあることを知っています。しかし、切り捨てられた混合法線をどうやってシミュレートできますか？それは私が2が通常の切り捨てシミュレート場合と同じであるとN（μ 2、σ 2 2切り捨てられた混合物を通常にしますか）？N（μ1、σ21）N(μ1,σ12)\mathcal{N}(\mu_1,\sigma_1^2)N（μ2、σ22N(μ2,σ22\mathcal{N}(\mu_2,\sigma_2^2

9 simulation random-generation cdf mixture gaussian-mixture

2

混合ガウスモデルを使用する理由

私は混合ガウスモデル（GMM）について学習していますが、なぜこのアルゴリズムを使用する必要があるのかについて混乱しています。このアルゴリズムは、クラスタリングに関して、平均などの他の標準的なクラスタリングアルゴリズムよりもどのように優れていますか？手段は、パーティションにデータを、アルゴリズムガウス混合モデルは、各データポイントの明確なセットのメンバーシップを生成しないのに対し、明確なセットのメンバーシップとクラスター。GMMを使用して、あるデータポイントが別のデータポイントに近いと言う指標は何ですか？KKKKKKKKK GMMが生成する最終的な確率分布をどのように利用できますか？最終確率分布を取得するとします。ここで、は重みです。データ適合する確率分布を取得しました。どうすればよいですか？f（x | w ）f（バツ|w）f(x|w)wwwバツバツx 以下のために、私の前の時点でフォローアップする手段、終了時に、我々は一連の取得我々は集合として表すことができるクラスター、であり、ものを。しかし、GMMのために、私は得るすべてが1つの配布であるである1つの事。これをKクラスターにクラスター化するためにどのように使用できますか？KKKKKK{S1、… 、SK}{S1、…、SK}\{S_1, \ldots, S_K\}KKKf（x | w ）=Σi = 1Nw私N（x |μ私、Σ私）f（バツ|w）=Σ私=1Nw私N（バツ|μ私、Σ私）f(x|w) = \sum\limits_{i=1}^N w_i \mathcal{N}(x|\mu_i, \Sigma_i)111KKK

9 normal-distribution unsupervised-learning gaussian-mixture

2

ガウス混合モデルの「混合」とは

機械学習とその応用において有用なモデルとして、ガウス混合モデルをよく研究します。この「混合物」の物理的な意味は何ですか？ガウス混合モデルは、それぞれ独自の平均値を持つ多数の確率変数の確率をモデル化するために使用されますか？そうでない場合、この単語の正しい解釈は何ですか。

8 machine-learning distributions gaussian-mixture mixture mathematical-statistics

2

このガウス混合不等式を証明する方法は？（フィッティング/オーバーフィッティング）

f [x]をn項の均一な重みを持つガウス混合pdfとしと、対応する分散、を意味し：{μ1,...,μn}{μ1,...,μn}\{\mu_{1},...,\mu_{n}\}{σ1,...,σn}{σ1,...,σn}\{\sigma_{1},...,\sigma_{n}\} f(x)≡1n∑i=1n12πσ2i−−−−√e−(x−μi)22σ2if(x)≡1n∑i=1n12πσi2e−(x−μi)22σi2f(x)\equiv\frac{1}{n}\sum_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma_{i}^{2}}}e^{-\frac{(x-\mu_{i})^{2}}{2\sigma_{i}^{2}}} n個のガウス中心でサンプリングされた対数尤度が平均対数尤度よりも大きい（または等しい）ことは直感的に思えます。 1n∑j=1nln(f(μj))≥∫f(x)ln(f(x))dx1n∑j=1nln(f(μj))≥∫f(x)ln(f(x))dx\frac{1}{n}\sum_{j=1}^{n}ln(f(\mu_{j}))\geq\int f(x)ln(f(x))dx これは明らかに、小さい分散（各が狭いガウスの上にある）と非常に大きい分散（すべてのが1つの広いガウスの上にある）に当てはまり、それは当てはまりますとのすべてのセットを生成して最適化しましたが、それが常に真であることを証明する方法を理解できません。助けて？ μ I μ I σ Iμiμi\mu_{i}μ私μi\mu_{i}μ私μi\mu_iσ私σi\sigma_i

8 machine-learning gaussian-mixture

1

クラスター化にLDA over GMMを使用する場合

168次元のユーザーアクティビティを含むデータセットがあり、教師なし学習を使用してクラスターを抽出します。潜在的ディリクレ配分（LDA）でトピックモデリングアプローチを使用するか、ベイジアンアプローチに近いガウス混合モデル（GMM）を使用するかは、私には明らかではありません。その点で私は2つの関連する質問があります： 2つの方法の主な違いは何ですか？私は2つのモデルの基本を知っていますが、実際に一方が他方とどう違うのかについて知りたいです。問題/データの何かが、1つのモデルの方が適しているかどうかを教えてくれますか？両方の方法をデータに適用した場合、結果を比較してどちらの方法が優れているかを確認するにはどうすればよいですか？更新 168人のユーザーアクティビティ変数はアクティビティのカウントであり、正の離散値を保持します。そこには、最大値はありませんが、変数の約90％が間隔の値を達成する。[0,3][0,3][0,3] これらのアクティビティ変数のすべてを、それがゼロか非ゼロかを表すバイナリ変数として単純にモデル化することは理にかなっているかもしれませんが、問題を特定するのに十分な知識はまだありません。私たちが探している主なものは、ユーザーアクティビティのさまざまなクラスターへの洞察です。

8 clustering gaussian-mixture unsupervised-learning topic-models

1

共分散のガウスの混合物のためのEMアルゴリズムの限界ケースとしてK-手段に行く

私の目標は、K平均アルゴリズムが実際にガウス混合の期待値最大化アルゴリズムであり、すべての成分がの範囲の共分散を確認することです。σ2Iσ2I\sigma^2 Ilimσ→0limσ→0\lim_{\sigma \to 0} 確率変数Xの観測のデータセット{x1,…,xN}{x1,…,xN}\{x_1, \dots ,x_N\}があるとします。 M平均の目的関数は、 J = \ sum_ {n = 1} ^ {N} \ sum_ {k = 1} ^ {K} r_ {nk} || x_n-\ mu_k || ^ 2 で与えられます。r_ {nk}は、クラスターkへのx_nのハード割り当てのバイナリインジケーター変数です。（データポイントx_nがクラスターkに割り当てられている場合、j \ ne kに対してr_ {nk} = 1およびr_ {nj} = 0）。 K平均アルゴリズムは、収束するまで反復によってJを最小化します。これには、2つの連続するステップが含まれます。（E）最小化XXXJ=∑n=1N∑k=1Krnk||xn−μk||2J=∑n=1N∑k=1Krnk||xn−μk||2J = \sum_{n=1}^{N}\sum_{k=1}^{K} r_{nk} ||x_n …

8 self-study k-means expectation-maximization gaussian-mixture

2

（K-平均）クラスタリング手法で平均値のみが使用されるのはなぜですか？

K-meansなどのクラスタリング手法では、ユークリッド距離が使用するメトリックです。結果として、各クラスター内の平均値のみを計算します。そして、各平均値までの距離に基づいて要素が調整されます。ガウス関数がメトリックとして使用されないのはなぜですか？を使用する代わりにxi -mean(X)、を使用できますexp(- (xi - mean(X)).^2/std(X).^2)。したがって、クラスター間の類似性が測定されるだけでなく（平均）、クラスター内の類似性も考慮されます（標準）。これもガウス混合モデルと同等ですか？ここでは私の質問を超えていますが、平均シフトは上記と同じ質問が発生する可能性があると思います。

8 normal-distribution clustering k-means unsupervised-learning gaussian-mixture

1

確率的勾配降下法を使用した混合ガウスモデルの近似

私は、確率的勾配降下法を使用してガウス混合モデルに適合するオンラインカテゴリ学習モデルに取り組んでいます。このモデルは、Toscano＆McMurray（2010）で使用されているオンライン学習モデルに基づいています。勾配降下法はカテゴリーの平均と頻度/混合確率を推定するのにかなりうまく機能しているようですが、混合成分の共分散の推定に問題があります。勾配降下法の更新に使用してきた偏微分は、Petersen＆Pedersen（2008）（p。で始まります p （x ）= ∑kρkNバツ（μk、Σk）p（バツ）=ΣkρkNバツ（μk、Σk）p(x) = \sum _k \rho_k \mathcal N_x(\mu_k,\Sigma_k) ピーターセン＆ペダーセンは、共分散行列に関して偏微分を与えるとしてΣΣ\Sigma δlnp （x ）δΣj= ρjNバツ（μj、Σj）ΣkρkNバツ（μk、Σk）12[ - Σ− 1j+ Σ− 1j（X - μj）（X - μj）TΣ−1j]δln⁡p（バツ）δΣj=ρjNバツ（μj、Σj）ΣkρkNバツ（μk、Σk）12[−Σj−1+Σj−1（バツ−μj）（バツ−μj）TΣj−1]\frac{\delta \ln p(x)}{\delta \Sigma_j}=\frac{\rho_j\mathcal N_x(\mu_j,\Sigma_j)}{\sum _k \rho_k \mathcal N_x(\mu_k,\Sigma_k)}\frac{1}{2}[-\Sigma_j^{-1}+\Sigma_j^{-1}(x-\mu_j)(x-\mu_j)^T\Sigma_j^{-1}] Pythonで実装しているので、各の勾配降下ステップは次のです（これはわずかな簡略化であり、すべてのコンポーネントのは更新を実行する前に計算されます）。 Δ ΣΣjΣj\Sigma_jΔ ΣΔΣ\Delta\Sigma j.sigma += learning_rate*(G(x)/M(x))*0.5*(-inv(j.sigma) + inv(j.sigma).dot((x-j.mu).dot((x-j.mu).transpose())).dot(inv(j.sigma))) ここで、jは混合の番目の成分を表すオブジェクトであり、j.sigmaとj.muはその成分の平均と分散です。G（x）/ M（x）は、を計算するいくつかのコードのρ jのNは、 xは（μ J、Σ jは）jjjρjNバツ（μj、Σj）ΣkρkNバツ（μk、Σk）ρjNバツ（μj、Σj）ΣkρkNバツ（μk、Σk）\frac{\rho_j\mathcal …

8 python online gaussian-mixture gradient-descent

5

50％の確率でA、50％の確率でBとして定義されたランダム変数

注：これは宿題の問題ですので、完全な答えは出さないでください。正規分布の2つの変数AとBがあります（平均と分散は既知です）。Cが50％の確率でA、50％の確率でBとして定義されているとします。Cも正規分布しているかどうかをどのように証明しますか？そうである場合、その平均と分散は何ですか？ AとBのPDFをこのように組み合わせる方法はわかりませんが、理想的には、誰かが私を正しい方向に向けることができる場合、私の攻撃計画はCのPDFを派生させて、それがaであるかどうかを示すことです通常のPDFのバリエーション。

8 self-study random-variable gaussian-mixture finite-mixture-model

タグ付けされた質問 「gaussian-mixture」

タグ付けされた質問「gaussian-mixture」