統計とビッグデータ mixture

1

PythonでGaussian Mixture Models（GMM）を操作するために使用できるオプションがいくつかあるようです。一見すると、少なくとも次のものがあります。 PyMix- http: //www.pymix.org/pymix/index.php 混合モデリングのツール PyEM- http: //www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/ は、Scipyツールボックスの一部であり、GMMの更新に焦点を当てているようです：sklearn.mixtureとして知られるようになりました。 PyPR- http: //pypr.sourceforge.net/ パターン認識およびGMMを含む関連ツール ...そしておそらく他の人。それらはすべて、作成とサンプリング、パラメータ推定、クラスタリングなどを含む、GMMの最も基本的なニーズを提供するようです。それらの違いは何ですか？また、特定のニーズに最適なものを判断するにはどうすればよいですか？参照：http : //www.scipy.org/Topical_Software

12 normal-distribution python mixture

2

ゼロ膨張ガンマモデルの適切な使用と解釈

背景：私は現在、細胞発現率のデータセットと格闘している生物統計学者です。この研究では、さまざまなドナーからグループで収集された多数の細胞を特定のペプチドに曝露しました。細胞は、応答して特定のバイオマーカーを発現するか、発現しません。次に、各ドナーグループの応答率が記録されます。応答率（パーセンテージで表される）は関心のある結果であり、ペプチド曝露が予測因子です。観察はドナー内でクラスター化されることに注意してください。私は要約データしか持っていないので、私は（少なくとも今のところ）ドナーごとの応答率を連続データとして扱っています。複雑さは、データにゼロが多数あるという事実から生じます。無視するには多すぎます。ゼロの過剰と結びついて連続データを歪めているという事実に対処するために、ゼロインフレガンマモデルを検討しています。私はTobitモデルも検討しましたが、真のゼロとは対照的に、下限での打ち切りを想定しているため、これは劣っているように見えます（計量経済学者は区別が難しいと言うかもしれません）。質問：一般的に、ゼロ膨張ガンマモデルを使用するのが適切なのはいつですか？つまり、前提条件は何ですか？そして、その推論をどのように解釈しますか？もしあれば、これを論じている論文へのリンクに感謝します。私が見つけたSAS-L上のリンクデールMcLerranは、ゼロ膨張したガンマモデルのNLMIXEDコードを提供し、可能であるように思われるが。それにもかかわらず、私は盲目的に起訴することを嫌います。

11 regression gamma-distribution mixture zero-inflation

4

混合型分布の最尤関数

一般的に、関数を最大化します L(θ;x1,…,xn)=∏i=1nf(xi∣θ)L(θ;x1,…,xn)=∏i=1nf(xi∣θ) L(\theta; x_1, \ldots, x_n) = \prod_{i=1}^n f(x_i \mid \theta) ここで、fffは、基礎となる分布が連続的な場合の確率密度関数であり、分布が離散的である場合は、確率質量関数（積の代わりに合計を使用）です。基になる分布が連続分布と離散分布の混合であり、それぞれの重みが依存している場合、尤度関数をどのように指定しますか？θθ\theta

11 mathematical-statistics maximum-likelihood likelihood mixture

2

不適切な混合物からの正確なサンプリング

連続分布からサンプリングしたいとします。次の形式で式がある場合pp(x)p(x)p(x)ppp p(x)=∑i=1∞aifi(x)p(x)=∑i=1∞aifi(x)p(x) = \sum_{i=1}^\infty a_i f_i(x) ここで、、およびf_iは、簡単にサンプリングできる分布であり、pから簡単にサンプルを生成できます。ai⩾0,∑iai=1ai⩾0,∑iai=1a_i \geqslant 0, \sum_i a_i= 1fifif_ippp 確率a_iでラベルiiiをサンプリングするaiaia_i XのサンプリングX∼fiX∼fiX \sim f_i aiaia_iが時々負になる場合、この手順を一般化することは可能ですか？私はこれがどこかで行われたのを見たことがあると思います-おそらく本の中で、おそらくコルモゴロフの分布について-だから、私はリファレンスを回答として受け入れて完全に幸せです。具体的なおもちゃの例が役に立つ場合は、p（x、y）\ propto \ exp（-xy- \ alpha \ sqrt {xy}）\ qquad x、y> 0からサンプリングしたいp(x,y)∝exp(−x−y−αxy−−√)x,y>0p(x,y)∝exp⁡(−x−y−αxy)x,y>0p(x,y) \propto \exp(-x-y-\alpha\sqrt{xy})\qquad x,y > 0とします。物事の壮大な計画において、あまり重要ではない技術的理由のためにα∈(0,2)α∈(0,2)\alpha \in (0, 2)を取ります。原則として、これを次の合計として展開できます。 p(x,y)∝∑n=0∞(−1)nαn(n2)!(n2)!n!(xn/2e−x(n2)!)(yn/2e−y(n2)!).p(x,y)∝∑n=0∞(−1)nαn(n2)!(n2)!n!(xn/2e−x(n2)!)(yn/2e−y(n2)!).p(x,y) \propto \sum_{n=0}^\infty \frac{(-1)^n \alpha^n \left( \frac{n}{2} \right)! \left( \frac{n}{2} \right)!}{n!} \left( …

10 simulation monte-carlo mixture accept-reject

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

1

時間イベントの長期的な分布

Webサーバーのログがあるとします。これらのログには、次の種類のタプルがあります。 user1, timestamp1 user1, timestamp2 user1, timestamp3 user2, timestamp4 user1, timestamp5 ... これらのタイムスタンプは、たとえばユーザーのクリックを表します。これで、user1は1か月間に複数回（セッション）のサイトにアクセスし、各セッション中に各ユーザーからのクリックのバーストが発生します（ユーザーがサイトにアクセスすると、ユーザーは複数のページをクリックするとします）。これらのクリックのバーストを、それらを生成したセッションで分割したいとしますが、追加の情報源はなく、タイムスタンプのリストのみがあるとします。同じユーザーによる2回のクリックの間隔の分布を計算すると、長い分布が得られます。直感的には、「カットパラメータ」、たとえばN秒を探します。ここで、であればtimestamp_{i+1} - timestamp{i} > N、あなたtimestamp_{i+1}は新しいセッションの始まりです。問題は、この分布が実際には2つの変数の混合であるということです：X =「同じセッションでの2つの後続のクリック間の間隔」とY =「前のセッションの最後のクリックと新しいセッションの最初のクリックとの間の間隔」。問題は、このNをどのように推定するかであり、クリックのバーストを調べるだけで、2つの分布を（おそらく少しオーバーラップして）分割しますか？

10 distributions estimation mixture

1

ガウス混合の成分の最適数

したがって、k平均法でクラスターの最適な数の「アイデア」を取得することは十分に文書化されています。ガウス混合でこれを行うことに関する記事を見つけましたが、私がそれを確信していると確信していないので、よく理解していません。これを行う...より穏やかな方法はありますか？

10 classification k-means mixture unsupervised-learning

2

ガウス混合モデルのコンポーネントは何ですか？

ガウス混合モデルのディメンションとコンポーネントの関係は何ですか？そして、寸法とコンポーネントの意味は何ですか？ありがとうございました。私が間違っている場合は修正してください：私の理解は、観測されたデータには多くの次元があることです。各次元は、収集されたデータの特徴/側面を表し、独自のガウス分布を持っています。「コンポーネント」がこの図のどこに当てはまるのか、そしてそれが何を意味するのかわかりません。

10 multivariate-analysis normal-distribution mixture

1

2変量混合分布を使用したEMアルゴリズムからの収束

与えられたデータと部分的に観測されたデータzのセットが与えられた場合の最尤推定量を見つけたい混合モデルがあります。Iは、Eステップ（の期待値計算両方実装しているZ所与のxと現在のパラメータθ kは、予想される所定の負の対数尤度最小にするために）、およびM-工程Zを。xxxzzzzzzxxxθkθk\theta^kzzz 私が理解しているように、最大尤度は反復ごとに増加しています。つまり、負の対数尤度は反復ごとに減少する必要がありますか？ただし、繰り返しますが、アルゴリズムは実際に負の対数尤度の値を減らしません。代わりに、減少と増加の両方が考えられます。たとえば、これは収束までの負の対数尤度の値でした。ここに誤解したことがありますか？また、シミュレートされたデータの場合、真の潜在的な（観測されていない）変数の最尤を実行すると、ほぼ完全に適合し、プログラミングエラーがないことを示します。EMアルゴリズムの場合、特にパラメーターの特定のサブセット（分類変数の比率など）の場合、明らかに次善の解に収束することがよくあります。アルゴリズムが局所的な最小点または定常点に収束する可能性があることはよく知られています。従来の検索ヒューリスティックまたは同様に、グローバルな最小値（または最大値）を見つける可能性を高めるための検索があります。この特定の問題については、2変量の混合のうち2つの分布のいずれかが確率1の値を取るため、多くのミス分類があると思います（真の寿命は、ここで、 zはいずれかの分布に属していることを示します。インディケータ zはもちろんデータセットで打ち切られます。 T=zT0+(1−z)∞T=zT0+(1−z)∞T=z T_0 + (1-z)\inftyzzzzzz 理論的なソリューション（最適に近いはず）から始めるときの2番目の数値を追加しました。ただし、ご覧のとおり、可能性とパラメーターは、このソリューションから明らかに劣っているソリューションに分岐しています。 xi=(ti,δi,Li,τi,zi)xi=(ti,δi,Li,τi,zi)\mathbf{x_i}=(t_i,\delta_i,L_i,\tau_i,z_i)titit_iiiiδiδi\delta_iLiLiL_iτiτi\tau_iziziz_i観測値が属する母集団の指標です（その2変量は0と1を考慮するだけでよいため）。 z=1z=1z=1fz(t)=f(t|z=1)fz(t)=f(t|z=1)f_z(t)=f(t|z=1)Sz(t)=S(t|z=1)Sz(t)=S(t|z=1)S_z(t)=S(t|z=1)z=0z=0z=0tttinfinf\inff(t|z=0)=0f(t|z=0)=0f(t|z=0)=0S(t|z=0)=1S(t|z=0)=1S(t|z=0)=1 f(t)=∑1i=0pif(t|z=i)=pf(t|z=1)f(t)=∑i=01pif(t|z=i)=pf(t|z=1)f(t) = \sum_{i=0}^{1}p_if(t|z=i) = pf(t|z=1)および S(t)=1−p+pSz(t)S(t)=1−p+pSz(t)S(t) = 1 - p + pS_z(t) 可能性の一般的な形式を定義します。 L(θ;xi)=Πif(ti;θ)δiS(ti;θ)1−δiS(Li)τiL(θ;xi)=Πif(ti;θ)δiS(ti;θ)1−δiS(Li)τi L(\theta;\mathbf{x_i}) = \Pi_i \frac{f(t_i;\theta)^{\delta_i}S(t_i;\theta)^{1-\delta_i}}{S(L_i)^{\tau_i}} 現在、は場合に部分的にのみ観測され、それ以外の場合は不明です。完全な可能性はzzzδ=1δ=1\delta=1 L(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1−p)(1−zi)(pSz(ti;θ))zi)1−δi((1−p)(1−zi)(pSz(Li;θ))zi)τiL(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1−p)(1−zi)(pSz(ti;θ))zi)1−δi((1−p)(1−zi)(pSz(Li;θ))zi)τi L(\theta,p;\mathbf{x_i}) = \Pi_i \frac{\big((p f_z(t_i;\theta))^{z_i}\big)^{\delta_i}\big((1-p)^{(1-z_i)}(p S_z(t_i;\theta))^{z_i}\big)^{1-\delta_i}}{\big((1-p)^{(1-z_i)}(p S_z(L_i;\theta))^{z_i}\big)^{\tau_i}} ここで、は対応する分布の重みです（おそらく、いくつかの共変量といくつかのリンク関数によってそれぞれの係数に関連付けられています）。ほとんどの文献では、これは次の対数尤度に簡略化されていますppp ∑(ziln(p)+(1−p)ln(1−p)−τi(ziln(p)+(1−zi)ln(1−p))+δizifz(ti;θ)+(1−δi)ziSz(ti;θ)−τiSz(Li;θ))∑(ziln⁡(p)+(1−p)ln⁡(1−p)−τi(ziln⁡(p)+(1−zi)ln⁡(1−p))+δizifz(ti;θ)+(1−δi)ziSz(ti;θ)−τiSz(Li;θ))\sum \Big( z_i \ln(p) + (1-p) \ln(1-p) - …

9 maximum-likelihood mixture expectation-maximization

1

複数の潜在クラスモデルからの結果の視覚化

潜在クラス分析を使用して、バイナリ変数のセットに基づいて観測値のサンプルをクラスター化しています。私はRとパッケージpoLCAを使用しています。LCAでは、検索するクラスターの数を指定する必要があります。実際には、人々は通常、それぞれが異なる数のクラスを指定する複数のモデルを実行し、さまざまな基準を使用して、データの「最良の」説明を決定します。さまざまなモデルを調べて、class =（i）のモデルに分類された観測値がclass =（i + 1）のモデルによってどのように分布されるかを理解しようとすることが非常に役立つことがよくあります。少なくとも、モデル内のクラスの数に関係なく、非常に堅牢なクラスターが見つかることがあります。これらの関係をグラフ化し、これらの複雑な結果をより簡単に論文で伝えたり、統計学に向いていない同僚に伝えたりしたいのですが。これは、Rである種の単純なネットワークグラフィックパッケージを使用して非常に簡単に実行できると思いますが、その方法がわかりません。誰かが私を正しい方向に向けてくれませんか？以下は、サンプルデータセットを再現するコードです。各ベクトルxiは、可能性のあるi個のクラスを持つモデルで、100個の観測値の分類を表します。観測（行）がクラス間で列全体にどのように移動するかをグラフ化したいと思います。 x1 <- sample(1:1, 100, replace=T) x2 <- sample(1:2, 100, replace=T) x3 <- sample(1:3, 100, replace=T) x4 <- sample(1:4, 100, replace=T) x5 <- sample(1:5, 100, replace=T) results <- cbind (x1, x2, x3, x4, x5) ノードが分類であり、エッジが（重みまたは色によって）モデル間で分類から移動する観測の％を反映するグラフを作成する方法があると思います。例えば更新：igraphパッケージでいくつかの進歩があります。上記のコードから始めます... poLCAの結果は、クラスメンバーシップを説明するために同じ番号をリサイクルするため、少し再コーディングする必要があります。 N<-ncol(results) n<-0 for(i in 2:N) { …

9 data-visualization mixture latent-class

1

打ち切られた混合正規分布からシミュレーション

次のような混合正規分布からサンプルをシミュレートしたい p × N（μ1、σ21）+ （1 − p ）× N（μ2、σ22）p×N(μ1,σ12)+(1−p)×N(μ2,σ22)p\times\mathcal{N}(\mu_1,\sigma_1^2) + (1-p)\times\mathcal{N}(\mu_2,\sigma_2^2) 間隔に制限されているの代わりに、R。これは、正規分布の切り捨てられた混合をシミュレートしたいということです。[ 0 、1 ][0,1][0,1]RR\mathbb{R} これを行うために、切り捨てられた法線をシミュレートするアルゴリズム（つまり、この質問から）と対応するパッケージがRにあることを知っています。しかし、切り捨てられた混合法線をどうやってシミュレートできますか？それは私が2が通常の切り捨てシミュレート場合と同じであるとN（μ 2、σ 2 2切り捨てられた混合物を通常にしますか）？N（μ1、σ21）N(μ1,σ12)\mathcal{N}(\mu_1,\sigma_1^2)N（μ2、σ22N(μ2,σ22\mathcal{N}(\mu_2,\sigma_2^2

9 simulation random-generation cdf mixture gaussian-mixture

2

ガウス混合モデルの「混合」とは

機械学習とその応用において有用なモデルとして、ガウス混合モデルをよく研究します。この「混合物」の物理的な意味は何ですか？ガウス混合モデルは、それぞれ独自の平均値を持つ多数の確率変数の確率をモデル化するために使用されますか？そうでない場合、この単語の正しい解釈は何ですか。

8 machine-learning distributions gaussian-mixture mixture mathematical-statistics

2

隠れマルコフモデルの場合、DepmixS4パッケージで新しいデータの状態確率または状態を予測する方法

パラメータをうまく学習してトレーニングデータの事後確率を見つけることができるようですが、新しいデータで新しい予測を行う方法についての手がかりはありません。特に問題は、共変量で変化する遷移確率に起因するため、新しいデータを予測するコードを書くのは簡単ではありません。標準的なアプローチは、（依存する）混合を定義し、モデルに適合させることです： mod <- depmix(EventTime ~ 1, data = data[1:40320,], nstates = 2, family =multinomial("identity"), transition = ~ Count, instart = runif(2)) fm <- fit(mod, emcontrol=em.control(classification="soft", maxit = 60)) 上記の内容は、イベントがシーケンスを移動する1/0従属変数として発生したかどうかを分類しようとしているため、バイナリHMMと同様に機能するはずです。遷移共変量は、状態の遷移確率に直接影響する頻度カウント変数で、その後、1/0従属変数の放出確率を制御します。モデルのパラメーターを取得し、別の新しいモデルにパラメーターを設定することが可能です。しかし、ライブラリの根本のどこかにあるはずですが、明確な予測方法はありません。 modNew <- depmix(EventTime~1,data=data2,transition=~Count,nstates=2, family=multinomial("identity")) modNew <- setpars(modNew,getpars(fm)) ドキュメントでは、ビタビアルゴリズムを実行して新しいデータの状態を生成することが可能であると記載されています。ただし、これは私にとって特に有用ではなく、データに完全に適合しているように見えますが、それでも新しいデータに適合できることを学習しています。 probs2 <- viterbi(modNew) 注：私はこのトピックを初めて使用します。実装のこの段階は私には難しいですが、どういうわけかそれは分析の基本的な部分のようです。

8 r hidden-markov-model mixture

1

リーマン-スティールチェス積分を使用して離散RVの期待値を計算する例は？

Riemann-Stieltjes積分表記は、一部の確率テキストの期待式で使用されます。CDF F（x）は離散分布では微分できないため、基本的に、dF（x）は積分ではf（x）dxではなく積分でポップアップします。私がこれについて聞いた動機は通常、離散的なケースと継続的なケースでそれを扱うのではなく、期待の統一された定義を提供することです。また、離散と連続の混合について考えるのを容易にすることになっています。しかし、離散分布（または点質量と連続分布の混合である分布）のリーマン・スティールチェス積分で期待値を計算する例を見たことはありません。誰かが両方またはどちらかの例を提供できますか？ありがとう！

8 expected-value mixture integral

1

ノンパラメトリック混合モデルとクラスター

ノンパラメトリック混合アプローチで処理しようと考えているクラスターについて質問があります（私はそう思います）。人間の関わりの説明に取り組んでいます。私のデータベースの各行には以下が含まれます：誰かのID 環境Xのいくつかのパラメータ（例：温度、風など）パラメータに対する人の反応を表すバイナリ変数Y（例：天候のために病気になるか、病気にならない）。私の考え（データではなく直感に基づく）は、有限数のグループに人々を集めて、グループ内の人々が同じように温度に反応できるようにすることです（簡単に病気になる人もいれば、決して病気にならない人もいます...）。。特定のグループでは、より正式には、パラメーターXを条件とするYの法則は同じです。 Xを条件とするYの法則を知りません。パラメータXについては、必要に応じていくつかの仮説を立てることができます。パラメータに対する同じ反応を「多かれ少なかれ持っている」人々のクラスタを作成したいと思います。さらに、パラメーターの特定の値に対する特定の人の反応を予測したいと思います（このイベントがデータベースで発生したことがない場合でも）。 (Xi,Yi)(Xi,Yi)(X_i, Y_i)XiXiX_iYiYiY_iXiXiX_i XiXiX_i 私のアプローチは正しいですか？この問題について別の見方をお勧めしますか？私はそれについてのどんな参考文献にも非常に興味があります。問題の説明を再定式化するよう私に頼むことを躊躇しないでください。

8 machine-learning clustering computational-statistics mixture

タグ付けされた質問 「mixture」

タグ付けされた質問「mixture」