2
階層的クラスタリングのための正しいリンケージ方法の選択
Google BigQueryのredditデータダンプから収集および処理したデータに対して階層クラスタリングを実行しています。 私のプロセスは次のとおりです。 / r / politicsで最新の1000件の投稿を取得 すべてのコメントを集める データを処理し、n x mデータマトリックスを計算します(n:users / samples、m:posts / features) 階層的クラスタリングの距離行列を計算する リンク方法を選択して、階層クラスタリングを実行します データを樹状図としてプロットする 私の質問は、最適なリンケージ方法がどのように決定されるのですか?私は現在、使用していますWardが、私が使用してするかどうか私は知らないsingle、complete、average、など? 私はこのようなものに非常に新しいですが、私は1つが確かではないので、オンラインで明確な答えを見つけることができません。それでは、私のアプリケーションにとって良いアイデアは何でしょうか?n x mマトリックスに多くのゼロがあるという意味で、データは比較的まばらであることに注意してください(ほとんどの人は、数件以上の投稿にコメントしません)。