非類似度メジャーの重みを見つける方法
クラスタリングに使用できる非類似度メジャーの属性の重みを学習(推定)したいと思います。 「類似」するオブジェクトのペアのいくつかの例(同じクラスター内にある必要があります)、および「類似していない」オブジェクトのペアのいくつかの例(c i、d i)があります。 "(同じクラスター内にあってはなりません)。各オブジェクトにはいくつかの属性があります。必要に応じて、各オブジェクトをd次元の特徴ベクトルと考えることができます。ここで、各特徴は非負の整数です。そのような類似/非類似オブジェクトの例を使用して、非類似度測定値の最適な特徴の重みをそれらから推定する手法はありますか?(ai,bi)(ai,bi)(a_i,b_i)(ci,di)(ci,di)(c_i,d_i)ddd それが役立つ場合、私のアプリケーションでは、重み付けされたL2ノルムである非類似度の測定に集中することはおそらく妥当でしょう。 d(x,y)=∑jαj(x[j]−y[j])2.d(x,y)=∑jαj(x[j]−y[j])2.d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. どこの重み知られていないと学習されるべきです。(または、重み付きコサイン類似性尺度のいくつかの種類があまりにも合理的であるかもしれない。)の重みを学習することが良いアルゴリズムですα Jを例与えられ、そのような措置のために?または、私が考慮すべき類似性測定値/非類似性測定値を学習する他の方法はありますか?αjαj\alpha_jαjαj\alpha_j ディメンションの数は残念ながら非常に多くなっています(数千以上。バッグオブワード機能から派生しています)。しかし、私は何万もの例を持っています。次に、クラスタ化したいオブジェクトが数十万あるので、優れた非類似度メトリックを学習するには、例から一般化することが重要です。 私はこれが半教師ありクラスタリングのルーブリックに該当することを収集します。これは「類似性適応」の傾向のように聞こえますが、この目的に使用するアルゴリズムの明確な説明を見つけることができませんでした。