解決策が見つかりました:
では、質問を言い換えると、Mclust
関数はデフォルトで、BIC値が最も高いモデルを「最良の」モデルとしてデフォルト設定するのはなぜですか。
すばらしい質問です。これについては、長い間お答えしたいと思います。
TL; DR:BIC値は統合された(最大ではない)尤度の近似値であり、最大の統合尤度(ベイズ係数)を持つモデルが必要なため、最大のBICを持つモデルを選択します。
長い答え:k-meansや階層(凝集)クラスタリングなどのヒューリスティックベースのクラスタリングアプローチよりもモデルベースのクラスタリングを使用する目的は、データに適切なクラスタモデルを比較および選択するためのより正式で直感的なアプローチを提供することです。
Mclustは、確率モデル、ガウス混合モデルに基づくクラスタリング手法を使用しています。確率モデルを使用すると、さまざまなクラスターモデルとサイズを比較するモデルベースのアプローチを開発できます。詳細については、*モデルベースの分類方法:Chemometricsでのmclustソフトウェアの使用*(https://www.jstatsoft.org/article/view/v018i06)を参照してください。
上記のように、著者は「最良の」モデルは最大のBIC値を持つモデルであると述べています。これは、拡張モデルベースのクラスタリング、密度推定、および判別分析ソフトウェアの別の例です。MCLUST(https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf):
ベイジアン情報量基準またはBIC(?)は、最大化された対数尤度の値であり、モデル内のパラメーターの数にペナルティがあり、パラメーター化が異なるモデルやクラスターの数が異なるモデルを比較できます。一般に、BICの値が大きいほど、モデルとクラスター数の証拠が強くなります(たとえば、Fraley and Raftery 2002aを参照)。
モデルの選択:クラスターに接続された確率モデルがあるので、より洗練されたツールを使用して、ベイズ因子によるベイズモデル選択を使用して複数のクラスターモデルを比較できます。
彼らの論文では、どのように多くのクラスターですか?どのクラスタリング方法ですか?モデルベースのクラスター分析による回答(http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf)
ベイズ係数は、どちらもアプリオリに優先されないと仮定した場合の、1つのモデルに対する他のモデルの事後確率です。Banfield and Raftery [2]は、ヒューリスティックに導出された近似を使用して、「AWE」と呼ばれる対数ベイズ係数を2倍にし、分類尤度に基づいて階層型クラスタリングのクラスター数を決定しました。EMを使用して最大混合尤度を見つける場合、BIC(Schwarz [32])と呼ばれる対数ベイズ係数の2倍のより信頼性の高い近似が適用されます。
2log(p(x|M))+constant≈2lM(x,θ^)−mmlog(n)≡BIC
ここで、はモデルMのデータの(統合された)尤度、はモデルの混合混合対数尤度、m_Mは独立パラメーターの数モデルで推定されます。クラスターの数は、BICを計算するための独立したパラメーターとは見なされません。各モデルが等しく aprioriで場合、は、データがモデル準拠する事後確率に比例します。したがって、BICの値が大きいほど、モデルの証拠が強くなります。p(x|M)lM(x,θ^)a priorip(x|M)M
したがって、要約すると、BICは最小化されるべきではありません。このモデルベースのクラスタリングアプローチを使用する人は、BICを最大化するモデルを探す必要があります。これは、統合された最大の尤度でベイズ係数を近似するためです。
最後のステートメントにも参照があります。
Banfield、JDおよびRaftery、AE(1993)モデルベースのガウスおよび非ガウスクラスタリング。バイオメトリクス、49、803– 821。
編集:メール交換に基づいて、
補足として、BICの定義方法を常に確認してください。場合によっては、たとえば、ほとんどの回帰コンテキスト(伝統的に統計がパラメーター推定のために最小化される場合、たとえば残差二乗和、逸脱など)では、BICは-2 * loglik + npar * log(n)として計算されます。つまり、 mclustで使用されているもの。明らかに、その場合、BICは最小限に抑える必要があります。
BICの一般的な定義は、BIC
です。mclustには、ネガティブコンポーネントは含まれていません。BIC=−2×ln(L(θ|x))+k×ln(n)