分類にT-SNEを使用してハイパーパラメーターを選択する


13

私が取り組んでいる特定の問題(競合)には、次の設定があります:21の機能([0,1]の数値)とバイナリ出力。約100 Kの行があります。設定は非常に騒々しいようです。

私と他の参加者はしばらくの間機能生成を適用し、この設定ではt分布の確率的近傍埋め込みがかなり強力であることが判明しました。

私はこの記事「t-SNEを効果的に使用する方法」に出くわしましたが、それでも分類の設定で最適なハイパーパラメーターを選択する方法について結論を出すことはできません。

経験則(特徴の数、埋め込みの次元->困惑の選択)はありますか?

さまざまな設定を繰り返すのに時間がかかりすぎるため、現時点ではアドホック設定を適用します。コメントありがとうございます。


これは素晴らしい質問です!誰かが私の答えを十分に見失い、あなたが別の答えを得られることを願っています(そして、私も新しいことを学びます)。
usεr11852は回復モニック言う

回答:


17

t

t-SNEは、元のドメインのデータ間の距離の分布と縮小次元ドメインのデータ間の距離の分布との間のカルバック・ライブラーの発散の合計を最小化しようとしています(実際には、ターゲット分布は、ポイントが別のポイントをその隣接ポイントとして選択する可能性がありますが、これらは2つのポイント間の距離に直接比例します)。KL発散の値が小さいほど、より良い結果が得られると主張できます。このアイデアは実際にはうまく機能しませんが、理論的には、ある範囲のパープレキシティ値と明らかに最適ではないアルゴリズムの実行を除外するのに役立ちます。このヒューリスティックが万能薬とはほど遠い理由と、それが軽度ではあるがどのように役立つのかを説明します。perplexityパラメーターは、距離/確率の計算に使用されるガウスの分散とともに単調に増加します。したがって、全体としてperplexityパラメーターを大きくすると、絶対値での距離が小さくなり、後続のKL発散値が得られます。それにも関わらず、同じパープレキシティで20の実行があり、それらを見ることができない(したくない)場合、元の距離をより正確に保持することを期待して、常に最小の変数を持つものを選択できます。同じことが それにも関わらず、同じパープレキシティで20の実行があり、それらを見ることができない(したくない)場合、元の距離をより正確に保持することを期待して、常に最小の変数を持つものを選択できます。同じことが それにも関わらず、同じパープレキシティで20の実行があり、それらを見ることができない(したくない)場合、元の距離をより正確に保持することを期待して、常に最小の変数を持つものを選択できます。同じことがθθ

kktt結局のところ、SNEが最初に使用されました。結果の表現が調査対象のプロパティに情報を与えない場合、再構築エラーが少なく、視覚的魅力などがあるにもかかわらず、単に良くありません。

私が説明しているのはヒューリスティックです。私の投稿の冒頭で述べたように、結果を手動で検査することは、結果としての次元削減/クラスタリングの品質を評価するための不可欠な方法です。


これありがとう。クラスタリングが分類にどの程度適合するかというインデックスの考え方は興味深いように思えます。
リック

4

通常、perplexityをデータセットサイズの5%に設定します。したがって、10万行のデータセットの場合、高性能コンピューターを使用できない場合、5000の、または少なくとも1000の複雑さから始めます。私たちのデータセットはフローサイトメトリー分析からのものであり、通常、それぞれが10から20の数値を持つ5万から50万のデータポイントを持っています。


4

CaoとWangによる「t-SNE Perplexityの自動選択」を見ると興味深いかもしれません。

t-Distributed Stochastic Neighbor Embedding(t-SNE)は、データ視覚化で最も広く使用されている次元削減手法の1つですが、手動選択を必要とする複雑なハイパーパラメーターがあります。実際には、t-SNEの複雑さを適切に調整するには、ユーザーがメソッドの内部動作を理解し、実践的な経験を積む必要があります。t-SNE自体のそれを超えた無視できる余分な計算を必要とするt-SNEパープレキシティのモデル選択目標を提案します。私たちのアプローチで見つかった当惑の設定は、多くのデータセットの人間の専門家から引き出された好みと一致していることを経験的に検証します。ベイジアン情報基準(BIC)と最小記述長(MDL)へのアプローチの類似性も分析されます。


2
結論は何でしたか..?
ティム

1
SPerpleバツ=2KLP||Q+ログnPerleバツn
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.