タグ付けされた質問 「dirichlet-process」

2
トピックモデルのトピックの安定性
私は、一連の自由記述式エッセイの内容に関する情報を抽出したいプロジェクトに取り組んでいます。この特定のプロジェクトでは、148人が、大規模な実験の一環として、仮想の学生組織についてのエッセイを書きました。私の分野(社会心理学)では、これらのデータを分析する典型的な方法はエッセイを手作業でコーディングすることですが、ハンドコーディングは労働集約的であり、私にとっては少し主観的であるため、これを定量的に行いたいと思います味。 無料の応答データを定量的に分析する方法についての調査中に、トピックモデリング(またはLatent Dirichlet Allocation、またはLDA)と呼ばれるアプローチを見つけました。トピックモデリングでは、データの単語の表現(用語ドキュメントマトリックス)を使用し、単語の共起に関する情報を使用して、データの潜在的なトピックを抽出します。このアプローチは私のアプリケーションに最適のようです。 残念ながら、トピックモデリングをデータに適用すると、2つの問題が見つかりました。 トピックモデリングによって明らかにされたトピックは、解釈が難しい場合があります 別のランダムシードを使用してトピックモデルを再実行すると、トピックが劇的に変化するように見える 特に問題2は私に関係しています。したがって、2つの関連する質問があります。 解釈可能性と安定性のためにモデル適合手順を最適化するために、LDA手順でできることはありますか?個人的に、私は、最も低いパープレキシティおよび/または最高のモデル適合性を持つモデルを見つけることについてあまり気にしません-私は主にこの手順を使用して、この研究の参加者がエッセイで書いたものを理解し、特徴づけるのを助けたいです。ただし、結果がランダムシードのアーティファクトになりたくないのは確かです。 上記の質問に関連して、LDAを実行するために必要なデータ量の基準はありますか?この方法を使用した私が見たほとんどの論文は、大きなコーパスを分析します(たとえば、過去20年間のすべてのScience論文のアーカイブ)が、実験データを使用しているため、ドキュメントのコーパスははるかに小さくなります。 手を汚したい人のために、ここにエッセイデータを投稿しました。使用しているRコードを以下に貼り付けました。 require(tm) require(topicmodels) # Create a corpus from the essay c <- Corpus(DataframeSource(essays)) inspect(c) # Remove punctuation and put the words in lower case c <- tm_map(c, removePunctuation) c <- tm_map(c, tolower) # Create a DocumentTermMatrix. The stopwords are the …

3
密度推定にベイズのアプローチはありますか
連続確率変数密度を推定することに興味があります。これを行う1つの方法は、カーネル密度推定を使用することです。XXX しかし今、私は次の線に沿ったベイジアンアプローチに興味があります。は最初に分布従うと信じています。を読み取ります。新しい測定値に基づいてを更新する方法はありますか?XXXFFFnnnXXXFFF 私は自分が矛盾しているように聞こえますが、もしのみを以前の分布として信じているなら、それ以外のデータを私に納得させるべきではありません。ただし、があり、私のデータポイントがます。見ると、明らかに以前のものに固執することはできませんが、どうすれば更新できますか?FFFFFFUnif[0,1]Unif[0,1]Unif[0,1](0.3,0.5,0.9,1.7)(0.3,0.5,0.9,1.7)(0.3, 0.5, 0.9, 1.7)1.71.71.7 更新:コメントの提案に基づいて、Dirichletプロセスの検討を開始しました。次の表記法を使用します。 G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2)G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2) G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2) この言語で私の元の問題を組み立てた後、私は次のことに興味があると思います:。これをどのように行うのですか?θn+1|x1,...,xnθn+1|x1,...,xn\theta_{n+1} | x_1,...,x_n でノートのセット(2ページ)、著者は一例た( Urn Scheme)。これが関連するかどうかはわかりません。θn+1|θ1,...,θnθn+1|θ1,...,θn\theta_{n+1} | \theta_1,...,\theta_n 更新2:私も尋ねたい(メモを見た後):DPのをどのように選択しますか?ランダムな選択のようです。さらに、DPの以前のをどのように選択しますか?事前として事前確率を使用する必要がありますか?H θ Hαα\alphaHHHθθ\thetaHHH

2
クラスタリングのディリクレプロセス:ラベルの扱い方
Q: Dirichletプロセスを使用してデータをクラスタリングする標準的な方法は何ですか? Gibbsサンプリングを使用すると、サンプリング中にクラスターが表示され、消えます。また、事後分布はクラスターの再ラベル付けに対して不変であるため、識別可能性の問題があります。したがって、どちらがユーザーのクラスターであるかを言うことはできませんが、2人のユーザーが同じクラスターに属していると言えます(つまり、p (c私= cj)p(c私=cj)p(c_i=c_j))。 クラスの割り当てを要約して、がポイントiのクラスター割り当てである場合、c i = c jだけでなくc i = c j = c j =になるようにできます。。。= c z?c私c私c_i私私ic私= cjc私=cjc_i=c_jc私= cj= cj=。。。= czc私=cj=cj=。。。=czc_i=c_j=c_j=...=c_z これらは私が見つけた選択肢であり、それらが不完全または見当違いだと思う理由です。 (1)DP-GMM + Gibbsサンプリング+ペアベースの混同行列 クラスタリングにディリクレプロセスガウス混合モデル(DP-GMM)を使用するために、著者がギブスサンプリングを使用した密度推定のためのDP-GMMを提案するこの論文を実装しました。 クラスタリングのパフォーマンスを調査するために、彼らは次のように述べています。 コンポーネントの数は[MCMC]チェーンで変化するため、チェーン全体で同じコンポーネントに割り当てられる各データペアの頻度を示す混同マトリックスを作成する必要があります。図6を参照してください。 短所:これは実際の「完全な」クラスタリングではなく、ペアワイズクラスタリングです。実際のクラスターを知っており、それに応じてマトリックスを配置しているため、この図は見栄えがします。 (2)DP-GMM + Gibbsサンプリング+何も変化しないサンプル 私は検索してきましたが、ギブスサンプラーを使用してディリクレプロセスに基づいてクラスタリングを行うと主張する人がいます。たとえば、この投稿では、クラスターの数または平均のいずれにも変化がなくなったときにチェーンが収束し、そこから要約を取得すると考えています。 短所:私が間違っていなければ、これが許可されているかどうかわかりません: (a)MCMC中にラベルが切り替えられる場合があります。 (b)定常分布であっても、サンプラーは時々クラスターを作成できます。 (3)DP-GMM + Gibbsサンプリング+最も可能性の高いパーティションのサンプルを選択 この論文では、著者は次のように述べています。 「バーンイン」期間の後、IGMMの事後分布からの偏りのないサンプルをギブスサンプラーから引き出すことができます。ハードクラスタリングは、このようなサンプルを多数描画し、クラスインジケーター変数の結合尤度が最も高いサンプルを使用することで見つけることができます。M. Mandelによって作成された修正IGMM実装を使用します。 短所:これが割り当てをサンプリングするだけのCollapsed Gibbs Samplerでない限り、計算できますが、周辺のp (c)は計算できません。(代わりに、最高のp (c、θ …

4
ディリクレプロセスモデルの理解と実装
私は、データをクラスター化するためのディリクレプロセスを実装および学習しようとしています(または機械学習の人々が話すように、密度を推定しています)。 私はこのトピックについてたくさんの紙を読み、アイデアを思いつきました。しかし、私はまだ混乱しています。ここに一連の質問があります 1)中華レストランモデルとDPの違いは何ですか?2)無限混合モデルとDPの違いは何ですか? すべてを完全に理解するために、中華レストランモデル、Polya Urnモデル、スティック破壊を実装しました。しかし、DPを最初から実装するのは難しいことのようです。Python、R、Matlabを読み書きできます。 1)DPを完全に理解/機能/開発するために読んで改善することをお勧めするコードはありますか?2)私の調査によると、ディリクレプロセスのコードは読みやすくありませんでした。本当に長くて長い(おそらく、明快さよりも効率がより重要であったため)。3)ただし、無限混合モデルには、ディリクレプロセスよりも多くのコードがあります。これらの2つの方法が互いに遠くない場合、IMMを使用できますか?!基本的に、私は新しいモデルを構築したいのですが、車輪を作り直したくありません。 コメントありがとうございます 多くの人が「ノンパラメトリックベイとDPを使用した無限混合モデル」に関するEdwin Chenのチュートリアルを推奨しているため、更新してください。このチュートリアルには誤解を招くタイトルがあります。DP、特異度、CPR、スティック破壊、Polya-Urnモデルのさまざまな表現のみをカバーしています。そして最後に、彼はscikitのMixture Modelを使用して、各クラスターでいくつかのヒストグラムを作成しています。

3
濃度パラメーターに超優先分布がある多項式ディリクレモデル
手元にある問題をできるだけ一般的に説明するようにします。私は、観測値をパラメーター確率ベクトルシータを持つカテゴリカル分布としてモデル化しています。 その後、私はパラメータベクトルシータは、以下を前提とディリクレ事前パラメータを持つ分布。α1、α2、… 、αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k また、パラメータを超えるhyperprior分布を課すことがことが可能である?カテゴリー分布やディリクレ分布などの多変量分布でなければなりませんか?私にはアルファが常に正であるように見えるので、ガンマハイパープライアが機能するはずです。α1、α2、… 、αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k 誰かがそのような(おそらく)過剰パラメータ化されたモデルをフィッティングしようとしたが、アルファは修正されるべきではなく、ガンマ分布からのものであると考えるのが合理的であるかどうかわからない。 このようなアプローチを実際にどのように試すことができるかについての参考情報と洞察を提供してください。

1
ランダムな尺度で統合するとはどういう意味ですか?
私は現在、ディリクレ過程変量効果モデルの論文を見ています。モデルの仕様は次のとおりです: y私ψ私G= X私β+ ψ私+ ϵ私〜G〜D P(α 、G0)yi=Xiβ+ψi+ϵiψi∼GG∼DP(α,G0) \begin{align*}y_{i} &= X_{i}\beta + \psi_{i} + \epsilon_{i}\\ \psi_{i} &\sim G \\ G &\sim \mathcal{DP}\left(\alpha, G_{0}\right) \end{align*}αα\alphaG0G0G_{0}G0G0G_{0}∫f(yj| θ、 ψj)dG0(ψj)。∫f(yj|θ,ψj)dG0(ψj). \int f\left(y_{j}|\theta, \psi_{j}\right)\, dG_{0}\left(\psi_{j}\right).

1
ディリクレ過程がベイズのノンパラメトリックのアプリケーションに適さないのはなぜですか?
DPの離散的な性質は、ベイジアンノンパラメトリックスの一般的なアプリケーションには適していませんが、混合モデリングで混合コンポーネントに優先順位を付ける問題に適しています。 この引用は、階層的ディリクレプロセス(Teh、et al、(2006)[ 1 ])からのものであり、それが何を意味するかについての説明を探していました。ベイジアンノンパラメトリックスは、著者が何を参照しているかを理解するのに私にはあいまいすぎる用語のようです。[ 1 ][1]^{[1]} Teh、YW、Jordan、MI、Beal、MJ、Blei、DM(2006):「階層的ディリクレプロセス」。Journal of the American Statistical Association、101、pp。1566–1581。[ 1 ][1]{[1]}

2
教師あり学習のためのディリクレプロセス?
ニューラルネットワーク、ブーストツリー、サポートベクターマシン、ランダムフォレストなどのファッショナブルな学習アルゴリズムを見ていると、教師あり学習問題が促進されているようです。ディリクレプロセスとその同類は、ドキュメントや画像のクラスタリングなど、教師なし学習の問題で主に言及されているようです。私はそれらが回帰問題に使用されているのを見たり、ノンパラメトリックまたはセミパラメトリックな方法でベイジアン統計を実行したい場合の一般的な事前(たとえば、特定のモデルでの変量効果の分布の柔軟な事前)として使用していますが、私の限られた経験から、これは、従来の統計学者からの場合ほど、機械学習の群衆からのものではありません。私はこれについて少しグーグルをやった、そして私は では、ディリクレプロセスとその従兄弟は、柔軟なクラスタリングモデルの先行として最も効果的ですか?教師あり学習問題のブースティング、SVM、ニューラルネットワークと競合していませんか?これらはこれらの問題の特定の状況でのみ有用ですか?それとも私の一般的な印象は間違っていますか?

3
混合モデルとディリクレプロセス混合(初級講義または論文)
オンラインクラスタリングのコンテキストでは、「ディリクレプロセス」や「有限/無限混合モデル」など、多くの論文が頻繁に出てきます。 私がディリクレ過程や混合モデルについて一度も使用したり読んだりしていないことを考えると。そのことについて、わかりやすい導入講義や論文の提案を知っていますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.