t-SNE
メソッドは、重複の削除を必要としません。がデフォルトの機能であることは、Rtsne
その要件を意味するものではありません。いくつかの短期的なイベント監視に役立ちます。ビッグデータセットを使用して長期的な傾向やパターンを特徴付けるために、ほとんど役に立たないようです。Rtsne
デフォルトの設定は、より多くのフーリエドメイン内の任意の研究せずに、時間領域でのイベントを特徴づけるために傾斜させることができます。
時間領域にポイントがあると仮定します。重複チェックは主に時間領域信号に基づいて設計されているため、重複アルゴリズムは大量の誤検知を引き起こします。フーリエ空間は、アルゴリズムの複製によって考慮されるこれらのイベントが不要であることを示すことができます。
したがって、私の観察では、アルゴリズムは時間領域の重複ポイントについて貪欲です。これは、長期的な信号、長期的なトレンド、および長期的なパターンを検討する場合、私には役立ちません。ポイントが時間領域で重複しているという事実は、実際にはフーリエ領域でも重複していることを意味しません。現実のアプリケーションの時間領域で重複している場合、それは偶然でしょう。したがって、機能をオフにしても問題ありません。両方のドメインで実際に重複しているポイントの量を推定することは、ケーススタディによって異なります。多くの実際のアプリケーションで重複チェックを行わずに長期データセットを検討することで、イベントや現象の記述子が大幅に改善されます。
Rtsne
ドキュメントは、[オフにしcheck_duplicates
て]処理能力を無駄にしないでくださいと言った場合については明確ではないと思います。上記のようcheck_duplicates
に、メソッドの他のいくつかの実装でも実現できるようにオフにすることができる理由は、他にもあります。check_duplicates=TRUE
個人的な選択であるRtsne
現時点では、デフォルトでは、開発者。決定の実装理由があるかどうか聞いてみたいです。