タグ付けされた質問 「model-based-clustering」

1
Rでの混合データのための堅牢なクラスター法
私は小さなデータセット(4つの区間変数の64の観測値と1つの3因子のカテゴリ変数)をクラスター化しようとしています。現在、私はクラスター分析に非常に慣れていませんが、階層的クラスター化またはk-meansが唯一の利用可能なオプションであった時代からかなりの進歩があったことを認識しています。特に、chlで指摘されているように、「クラスターまたはクラスの数を決定するための適合度インデックス」の使用を可能にする、モデルベースのクラスタリングの新しい方法が利用できるようです。 ただし、モデルベースのクラスタリング用の標準Rパッケージはmclust、混合データ型のモデルには適合しないようです。fpcモデルがしますが、トラブルのモデルをフィッティングを持って、私はので、連続変数の非ガウス的性質の疑いがあります。モデルベースのアプローチを続行する必要がありますか?できればRを使い続けたいです。私が見るように、私にはいくつかのオプションがあります: 3レベルのカテゴリ変数を2つのダミー変数に変換し、を使用しますmclust。これが結果にバイアスをかけるかどうかはわかりませんが、そうでない場合はこれが私の推奨オプションです。 連続変数をどうにかして変換し、fpcパッケージを使用します。 まだ遭遇していない他のRパッケージを使用します。 Gowerの測度を使用して非類似度行列を作成し、従来の階層的または再配置クラスター技術を使用します。 stats.seハイブマインドにはここで何か提案がありますか?

1
Mclustモデルの選択
Rパッケージmclustは、BICをクラスターモデル選択の基準として使用します。私の理解では、BICが最も低いモデルを他のモデルよりも選択する必要があります(BICのみに関心がある場合のみ)。ただし、BIC値がすべて負の場合、Mclust関数はデフォルトで最大のBIC値を持つモデルになります。さまざまなトライアルから私の全体的な理解は、mclust「最良の」モデルをを持つモデルとして識別することです。max{BICi}max{BICi}max\{BIC_i\} 著者がこの決定をした理由を理解しようとしています。CRANサイトで説明されています:https : //cran.r-project.org/web/packages/mclust/vignettes/mclust.html また、mclustパッケージの作成者は、5ページのモデルベースの分類方法:ケモメトリックスでのmclustソフトウェアの使用を参照してください。 「最良の」モデルは、適合モデルの中で最高のBICを持つモデルと見なされます。 誰でもこの問題に光を当てることができますか?低いBICが常に優れている場合、著者はなぜ最小のBICを持つモデルではなく、最小の絶対BICを持つモデルを選択するのですか?可能であれば、参照を提供します。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
クラスターのクリックストリームデータ
最近、機械学習の領域に入りました。現在取り組んでいるプロジェクトでは、ユーザーがWebサイトのWebページにアクセスした順序に基づいてクラスター化する必要があります。次の形式のデータがあります。 ['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...] 各番号は、ユーザーがアクセスしたカテゴリ/ページです。さらに、各ユーザーのデータの長さは同じではありません。つまり、一部のユーザーは他のページよりも多くのページにアクセスします。 これは非常にあいまいで、類似性を明確に定義していることに気づきました。私はこの研究論文の例を試してみましたが、正直に言うと、多くのことが頭に浮かびました。 この問題への取り組み方について支援が必要であり、新しいアイデアや提案を受け入れています。

1
タクソメトリック分析(MAXCOV、MAXEIGなど)と潜在クラス分析の主な違いは何ですか?
最近の研究は、特定の心理的構成要素が潜在的に次元的であるか分類学的であるか(すなわち、分類群またはクラスを含むか)を決定しようとしました。たとえば、研究者は、怪我後に慢性疼痛を発症する可能性が高い特定の「クラス」の人々がいるかどうか、または慢性疼痛を発症するリスクが、限られたリスクから非常に高いリスク。私は、研究者が2種類の分析を使用してこれらのタイプの質問に答えようとすることに気づきました。 以下は、タキソメトリック調査の例です。 不安過敏症の分類学:多国籍分析 不確実性構造の不寛容の潜在構造の評価:初期の分類学的分析 潜在クラス分析を使用した例をいくつか示します。 最近発症したタバコ喫煙者で観察された経験に由来するタバコ依存症候群の潜在クラス:全国確率サンプル調査からの疫学的証拠 外傷後ストレス障害の構造:2つのコミュニティサンプルの潜在クラス分析 ここに私の質問があります: 英語で、これら2つのタイプの分析の主な違いは何ですか?可能であれば、彼らが異なる質問に答えるかどうか、そしてそれらが分析的に(数学的に)どのように異なるかを詳しく説明します。 私の「紹介」で強調した質問のタイプに答えるのにどちらが良いですか、そしてなぜですか?おそらく、これは現時点では本当に答えられないでしょう。 また、このトピックに関連すると思われる情報を共有してください。フォローアップ質問がある気がします!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.