Mclustモデルの選択

Rパッケージmclustは、BICをクラスターモデル選択の基準として使用します。私の理解では、BICが最も低いモデルを他のモデルよりも選択する必要があります（BICのみに関心がある場合のみ）。ただし、BIC値がすべて負の場合、Mclust関数はデフォルトで最大のBIC値を持つモデルになります。さまざまなトライアルから私の全体的な理解は、mclust「最良の」モデルをを持つモデルとして識別することです。 $max\{BIC_i\}$

著者がこの決定をした理由を理解しようとしています。CRANサイトで説明されています：https : //cran.r-project.org/web/packages/mclust/vignettes/mclust.html

また、mclustパッケージの作成者は、5ページのモデルベースの分類方法：ケモメトリックスでのmclustソフトウェアの使用を参照してください。

「最良の」モデルは、適合モデルの中で最高のBICを持つモデルと見なされます。

誰でもこの問題に光を当てることができますか？低いBICが常に優れている場合、著者はなぜ最小のBICを持つモデルではなく、最小の絶対BICを持つモデルを選択するのですか？可能であれば、参照を提供します。

— ジョン
ソース

解決策が見つかりました：

では、質問を言い換えると、Mclust関数はデフォルトで、BIC値が最も高いモデルを「最良の」モデルとしてデフォルト設定するのはなぜですか。

すばらしい質問です。これについては、長い間お答えしたいと思います。

TL; DR：BIC値は統合された（最大ではない）尤度の近似値であり、最大の統合尤度（ベイズ係数）を持つモデルが必要なため、最大のBICを持つモデルを選択します。

長い答え：k-meansや階層（凝集）クラスタリングなどのヒューリスティックベースのクラスタリングアプローチよりもモデルベースのクラスタリングを使用する目的は、データに適切なクラスタモデルを比較および選択するためのより正式で直感的なアプローチを提供することです。

Mclustは、確率モデル、ガウス混合モデルに基づくクラスタリング手法を使用しています。確率モデルを使用すると、さまざまなクラスターモデルとサイズを比較するモデルベースのアプローチを開発できます。詳細については、*モデルベースの分類方法：Chemometricsでのmclustソフトウェアの使用*（https://www.jstatsoft.org/article/view/v018i06）を参照してください。

上記のように、著者は「最良の」モデルは最大のBIC値を持つモデルであると述べています。これは、拡張モデルベースのクラスタリング、密度推定、および判別分析ソフトウェアの別の例です。MCLUST（https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf）：

ベイジアン情報量基準またはBIC（？）は、最大化された対数尤度の値であり、モデル内のパラメーターの数にペナルティがあり、パラメーター化が異なるモデルやクラスターの数が異なるモデルを比較できます。一般に、BICの値が大きいほど、モデルとクラスター数の証拠が強くなります（たとえば、Fraley and Raftery 2002aを参照）。

モデルの選択：クラスターに接続された確率モデルがあるので、より洗練されたツールを使用して、ベイズ因子によるベイズモデル選択を使用して複数のクラスターモデルを比較できます。

彼らの論文では、どのように多くのクラスターですか？どのクラスタリング方法ですか？モデルベースのクラスター分析による回答（http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf）

ベイズ係数は、どちらもアプリオリに優先されないと仮定した場合の、1つのモデルに対する他のモデルの事後確率です。Banfield and Raftery [2]は、ヒューリスティックに導出された近似を使用して、「AWE」と呼ばれる対数ベイズ係数を2倍にし、分類尤度に基づいて階層型クラスタリングのクラスター数を決定しました。EMを使用して最大混合尤度を見つける場合、BIC（Schwarz [32]）と呼ばれる対数ベイズ係数の2倍のより信頼性の高い近似が適用されます。

$2 \log(p(x | M)) + constant \approx 2 l_M (x, \hat{\theta}) - m_m log(n) \equiv BIC$

ここで、はモデルMのデータの（統合された）尤度、はモデルの混合混合対数尤度、m_Mは独立パラメーターの数モデルで推定されます。クラスターの数は、BICを計算するための独立したパラメーターとは見なされません。各モデルが等しく aprioriで場合、は、データがモデル準拠する事後確率に比例します。したがって、BICの値が大きいほど、モデルの証拠が強くなります。 $p(x |M)$ $l_M(x, \hat{\theta})$ $a \ priori$ $p(x|M)$ $M$

したがって、要約すると、BICは最小化されるべきではありません。このモデルベースのクラスタリングアプローチを使用する人は、BICを最大化するモデルを探す必要があります。これは、統合された最大の尤度でベイズ係数を近似するためです。

最後のステートメントにも参照があります。

Banfield、JDおよびRaftery、AE（1993）モデルベースのガウスおよび非ガウスクラスタリング。バイオメトリクス、49、803– 821。

編集：メール交換に基づいて、

補足として、BICの定義方法を常に確認してください。場合によっては、たとえば、ほとんどの回帰コンテキスト（伝統的に統計がパラメーター推定のために最小化される場合、たとえば残差二乗和、逸脱など）では、BICは-2 * loglik + npar * log（n）として計算されます。つまり、 mclustで使用されているもの。明らかに、その場合、BICは最小限に抑える必要があります。

BICの一般的な定義は、BIC です。mclustには、ネガティブコンポーネントは含まれていません。 $BIC = -2 \times ln(L(\theta | x)) + k \times ln(n)$

— ジョン
ソース

この応答のメール通信がどのバージョンのMclustに関連していたかは不明です。Mclustのバージョン4はBICの負のコンポーネントを使用しているため、最大化する必要があります。最大化と最小化のどちらを行うべきかを理解しようとする人にとって役立つことを願っています。

— Rasika

ご指摘いただきありがとうございます。この質問を更新して、意味がわかるようにします。私もドキュメントを調べて、何年も経ってからなぜこの変更を行うことにしたのかを確認するかもしれません

— Jon