複数のディストリビューションがあります(下の図では10のディストリビューション)。
実際、これらはヒストグラムです。x軸には70の値があり、これは溶液中のいくつかの粒子のサイズです。xの各値について、対応するyの値は、サイズがxの値に近い粒子の比率です。
これらの分布をクラスター化したいと思います。現在私は、例えばユークリッド距離による階層的クラスタリングを使用しています。私は距離の選択に満足していません。Kullback-Leiblerなどの情報理論上の距離を試しましたが、データにゼロが多数あり、これにより問題が発生します。適切な距離や他のクラスタリング方法の提案はありますか?