キャノピークラスタリングを使用して、MahoutのKMeansの初期クラスターを提供しようとしています。
距離しきい値T1およびT2の値をアルゴリズムで決定/概算する方法はありますか?今私はT1 = 100とT2 = 1を持っていますが、これは何もうまくいっていないようです。
キャノピークラスタリングを使用して、MahoutのKMeansの初期クラスターを提供しようとしています。
距離しきい値T1およびT2の値をアルゴリズムで決定/概算する方法はありますか?今私はT1 = 100とT2 = 1を持っていますが、これは何もうまくいっていないようです。
回答:
whuberが指摘するように、キャノピークラスタリングアルゴリズムの作成者は、T1とT2を交差検証で設定できることを示唆しています。ただし、これらのパラメーターは、他のハイパーパラメーターと同じ方法で調整できます。最も一般的な手法の1つはグリッド検索ですここでは、各パラメーターの範囲と、各反復でパラメーターを変更する方法のステップサイズを指定します。たとえば、T1に25から100までの値の範囲とステップサイズ25を指定したとします。これは、T1の可能な値が(25、50、75、100)になることを意味します。同様に、可能な値が(1,2,3,4)となるように、T2を1〜4のステップ値で1の可能な値に設定できます。これは、16組のパラメーターセットを試すことを意味します。他の分類またはクラスタリングアルゴリズムと同様に、F1スコア、精度/エラー、またはその他のパフォーマンスメトリックを計算してその有効性を評価し、16セットのパラメーターの最適なセットを決定します。グリッド検索に加えて、他のハイパーパラメーター最適化アルゴリズムには、Nelder-Mead、遺伝的アルゴリズム、シミュレーテッドアニーリング、パーティクルスウォームの最適化など。これらのアルゴリズムは、自動化された方法でT1およびT2の適切な値を決定するのに役立ちます。
100K次元のデータセットがあることを上記で説明しました。データ内の行数または列数を参照していますか?列の数を参照している場合は、個々の特徴の分散に基づく特徴選択と主成分分析(PCA)またはKernel-PCA による特徴抽出のいくつかの組み合わせを実行することをお勧めします。機能の多くが役立つ場合(つまり、クラスター/クラス/出力変数の値を区別するための情報を提供する場合)でも、機能が多すぎると、クラスタリングアルゴリズムがインスタンス間の適切な距離を決定できない場合があります。