非類似度メジャーの重みを見つける方法

クラスタリングに使用できる非類似度メジャーの属性の重みを学習（推定）したいと思います。

「類似」するオブジェクトのペアのいくつかの例（同じクラスター内にある必要があります）、および「類似していない」オブジェクトのペアのいくつかの例があります。 "（同じクラスター内にあってはなりません）。各オブジェクトにはいくつかの属性があります。必要に応じて、各オブジェクトを次元の特徴ベクトルと考えることができます。ここで、各特徴は非負の整数です。そのような類似/非類似オブジェクトの例を使用して、非類似度測定値の最適な特徴の重みをそれらから推定する手法はありますか？ $(a_i,b_i)$ $(c_i,d_i)$ $d$

それが役立つ場合、私のアプリケーションでは、重み付けされたL2ノルムである非類似度の測定に集中することはおそらく妥当でしょう。

d (x, y) = \sum_{j} α_{j} (x [j] - y [j])^{2} .

$d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2.$

どこの重み知られていないと学習されるべきです。（または、重み付きコサイン類似性尺度のいくつかの種類があまりにも合理的であるかもしれない。）の重みを学習することが良いアルゴリズムです例与えられ、そのような措置のために？または、私が考慮すべき類似性測定値/非類似性測定値を学習する他の方法はありますか？ $\alpha_j$ $\alpha_j$

ディメンションの数は残念ながら非常に多くなっています（数千以上。バッグオブワード機能から派生しています）。しかし、私は何万もの例を持っています。次に、クラスタ化したいオブジェクトが数十万あるので、優れた非類似度メトリックを学習するには、例から一般化することが重要です。

私はこれが半教師ありクラスタリングのルーブリックに該当することを収集します。これは「類似性適応」の傾向のように聞こえますが、この目的に使用するアルゴリズムの明確な説明を見つけることができませんでした。

— DW
ソース

非常に興味深い問題。私があなたの問題を正しければ、ペアワイズの類似性または非類似性をエンコードする要素を持つ主に空の行列が与えられます。一部の要素は入力されていますが、ほとんどが欠落しています。最初にそのマトリックスを埋めるようにします（たとえば、低ランクの仮定を使用するなど）。

— Vladislavs Dovgalecs 2015

@xeon、これは1つのアプローチですが、機能は無視されます。私の仮説は、一部の機能は関連性が高く、一部の機能は関連性がないというものであり、関連する機能の違いを見ると妥当な非類似度の指標が得られるというのですが、どのようにしてその指標を見つけるのでしょうか。提案したとおりにマトリックスを完成させようとするだけでは、この構造は無視されるため、保有しているデータを十分に活用できません。

— DW

あなたの最終的な目標は何ですか？距離の指標を学ぶだけではありませんよね？データポイントを分類したいと思いませんか。

— Vladislavs Dovgalecs

よくわからないことがあると思います。例のペアのセット全体が完全なバイナリ（1 =似ている; 0 =似ていない）マトリックスを形成しているか、一部のセル情報が欠落していますか？マトリックスは「矛盾しない」ですか？つまり、サンプルオブジェクトは重複しないクラスに分割されますか？また、学習方法はメジャーのタイプ（たとえば、L2またはL1ノルムなど）をアドバイスすることができない（または使用する必要がある）ことに注意してください。スペース、使用するクラスタリングの方法）。

— ttnphns 2015

これは広すぎるため、ここで合理的に回答することはできません。特徴の重み付け、選択、および距離関数の学習の両方に特化した大量の文献があります。相似学習などのカンファレンスを見たことがあると思います！

— QUITあり-Anony-Mousse 2015年

これは、機械学習の一部の領域で大きな問題です。あまり慣れていないのですが、これで始められると思います。

インバリアントマッピング（DrLIM）の学習による次元削減は、一部のデータセットで非常にうまく機能するようです。
近傍成分分析は非常に優れた線形アルゴリズムであり、非線形バージョンも開発されています。
「カーネルの学習」の観点からこの問題を扱った文献はすべてあります。私はそれについてあまり知りませんが、この論文は非常に引用されています。

$L_2$

— デビッドJ.ハリス
ソース

Q

$Q$

A

$A$

なぜその制限を含めることができなかったのかわかりません。ただし、結果のモデルに名前があるかどうかはわかりません。

— David J. Harris

$a_i$ $1/w_i$

つまり、データの前処理とスケーリングについて質問しているということです。これは広すぎるため、1つの質問で適切に回答できません。探す：

機能選択
機能の重み付け
正規化
次元削減
他の投影法
その他の距離関数
「ランク付けを学ぶ」

膨大な量の文学があり、これに専用のカンファレンストラックさえあります。あなたを始めるためのいくつかの方法：

— QUITあり-匿名ムース
ソース