次元を削減するためのt-SNEのパラメーターを決定する方法は？

11

私は単語の埋め込みに非常に慣れていません。学習後のドキュメントの様子を視覚化したい。私はt-SNEがそれを行うためのアプローチであると読みました。埋め込みサイズとして250次元の100Kドキュメントがあります。同様に利用可能ないくつかのパッケージがあります。

ただし、t-SNEの場合、何回反復するか、アルファの値または永続性の値をよく学習するために維持する必要があるかわかりません。

これらのハイパーパラメータはありますか、それともいくつかの属性によって決定できますか？

— silent_dev
ソース

12

記事t-SNEを効果的に使用する方法を強くお勧めします。これは、tsneフィッティングプロセスのアニメーション化された優れたプロットを備えており、tsneの機能を直感的に理解できる最初の情報源でした。

高レベルでは、困惑は重要なパラメータです。5、30、および50のperplexityを試して、結果を確認することをお勧めします。

しかし真剣に、t-SNEを効果的に使用する方法を読んでください。TSNEの使用がより効果的になります。

パッケージの場合、RではRtsne、Python ではsklearn.manifold.TSNEを使用します

— ザック
ソース

2

t-SNEウェブサイトの FAQを引用します。最初に困惑すること：

t-SNEで混乱をどのように設定すればよいですか？

t-SNEのパフォーマンスは、混乱のさまざまな設定の下でかなり堅牢です。最も適切な値は、データの密度によって異なります。大まかに言えば、より大きな/より高密度のデータセットはより大きな混乱を必要とすると言うことができます。perplexityの一般的な値は5〜50の範囲です。

他のすべてのパラメーターについては、これを読むことを検討します。

t-SNEが構築した視覚化の品質をどのように評価できますか？

できれば、それらを見てください！t-SNEは距離ではなく確率を保持するため、高Dと低Dのユークリッド距離間の誤差を測定しても役に立たないことに注意してください。ただし、同じデータと混乱を使用する場合は、t-SNEが報告するカルバックライブラー分岐を比較できます。t-SNEを10回実行し、KLダイバージェンスが最も低いソリューションを選択することは、まったく問題ありません。

つまり、プロットを見て、視覚化が適切であれば、パラメーターを変更しないでください。また、固定された各困難度に対して、KLダイバージェンスが最も低い実行を選択することもできます。

— ダニエル・ファルベル
ソース