タグ付けされた質問 「multidimensional-scaling」

オブジェクト間の観測または計算された(非)類似性を、低次元空間(通常はユークリッド)の距離にレンダリングする手法。したがって、データのディメンションを構築します。オブジェクトはこれらの次元でプロットおよび概念化できます


3
モデルの検証前または検証内で機能の正規化を実行しますか?
機械学習の一般的なグッドプラクティスは、予測変数の特徴の正規化またはデータの標準化を行うことです。つまり、データを中心に減算し、平均値を分散(または標準偏差)で割って正規化します。自己封じ込めと私の理解のために、これを行って主に2つのことを達成します。 数値の安定性のために、余分な小さなモデルの重みを避けます。 共役勾配などの最適化アルゴリズムの迅速な収束を確保し、1つの予測子次元の大きさが他の予測子次元よりも大きい場合、収束が遅くならないようにします。 通常、データはトレーニング、検証、テストセットに分割されます。文献では、通常、特徴の正規化を行うには、予測変数のセット全体の平均と分散(または標準偏差)を使用することがわかります。ここで見た大きな欠点は、それを行うと、実際にはトレーニング予測変数に将来の情報、つまり平均と分散に含まれる将来の情報が導入されることです。 したがって、トレーニングデータの正規化を行い、平均と分散を保存します。次に、トレーニング平均と分散を使用して、検証およびテストデータセットの予測変数に特徴の正規化を適用します。これに根本的な欠陥はありますか?誰もがより良い代替案を推奨できますか?

7
ニューラルネットワークでのデータの正規化と標準化
ニューラルネットワーク(ANN)を使用して複雑なシステムの結果を予測しようとしています。結果(依存)値の範囲は0〜10,000です。異なる入力変数には異なる範囲があります。すべての変数には、ほぼ正規分布があります。 トレーニングの前にデータをスケーリングするさまざまなオプションを検討します。1つのオプションは、各変数の平均値と標準偏差値を個別に使用して累積分布関数を計算することにより、入力(独立)変数と出力(従属)変数を[0、1]にスケーリングすることです。この方法の問題は、出力でシグモイド活性化関数を使用すると、極端なデータ、特にトレーニングセットで見られないデータが失われる可能性が高いことです。 別のオプションは、zスコアを使用することです。その場合、極端なデータの問題はありません。ただし、出力では線形活性化関数に制限されています。 ANNで使用されている他の受け入れられている正規化手法は何ですか?このトピックのレビューを探しましたが、有用なものが見つかりませんでした。

3
LASSOのインジケータ/バイナリ/ダミー予測子を再スケールするかどうか
LASSO(およびその他のモデル選択手順)の場合、予測変数を再スケーリングすることが重要です。一般的な 推奨 私が従うは 0平均、連続変数の1つの標準偏差正規化を使用するだけです。しかし、ダミーとどう関係があるのでしょうか? 例えば、私がリンクした同じ(優秀な)サマースクールのいくつかの応用例は、連続変数を0から1の間にスケールし直します(ただし、外れ値にはあまり適していません)。しかし、それでも係数が同じ桁であることを保証するものではなく、したがって同様にペナルティを課されることを保証しません。

1
t-SNEとMDS
最近、t-SNE(t-Distributed Stochastic Neighbor Embedding)に関するいくつかの質問を読んでおり、MDS(Multidimensional Scaling)に関するいくつかの質問も訪れました。 これらはよく似て使用されることが多いので、ここでは別々に(またはPCAと比較して)両方に多くの質問があるので、この質問をするのは良い考えのように思えました。 要するに、t-SNEとMDSの違いは何ですか?例えば。探索するデータ階層の優れた点、さまざまな仮定など。 収束率?カーネルの使用についてはどうですか、両方とも準拠していますか?

5
ストリーミングデータ用のt-SNEのバージョンはありますか?
t-SNEとBarnes-Hut近似の私の理解は、すべての力の相互作用を同時に計算し、各ポイントを2d(または低次元)マップで調整できるように、すべてのデータポイントが必要であるということです。 ストリーミングデータを効率的に処理できるt-sneのバージョンはありますか?したがって、私の観測が一度に1つずつ到着している場合、新しい観測を配置するのに最適な2Dマップ上の位置を見つけるか、2Dマップ上のすべてのポイントを継続的に更新して新しい観測を考慮します。 これは理にかなっていますか、それともt-sneの設定に反しますか?

3
現代の統計におけるMDSの役割は何ですか?
私は最近、多次元スケーリングに出会いました。このツールと、現代の統計におけるその役割をよりよく理解しようとしています。そこで、ここにいくつかのガイドの質問があります: どの質問に答えますか? どの研究者が頻繁にそれを使用することに興味がありますか? 同様の機能を実行する他の統計的手法はありますか? それについてどのような理論が開発されていますか? 「MDS」と「SSA」の関係 このような複雑な/未組織の質問をしたことを事前に謝罪しますが、この分野での私の現在の段階の性質もそうです。

1
RandomForest-MDSプロットの解釈
randomForestを使用して、8つの変数(さまざまな体の姿勢と動き)に基づいて6つの動物の行動(たとえば、立ち、歩き、水泳など)を分類しました。 randomForestパッケージのMDSplotはこの出力を提供し、結果の解釈に問題があります。私は同じデータでPCAを実行し、PC1とPC2のすべてのクラス間で既に良好な分離を得ましたが、ここではDim1とDim2は3つの動作を分離しているようです。これは、これらの3つの動作が他のすべての動作よりも非類似であることを意味します(したがって、MDSは変数間の最大の非類似性を見つけようとしますが、必ずしも最初のステップですべての変数が一致するわけではありません)?3つのクラスターの配置(Dim1やDim2など)は何を示していますか?私はRIが初めてなので、このプロットに凡例をプロットするのにも問題があります(ただし、さまざまな色が何を意味するかはわかりますが)。どうもありがとう!! RandomForestにClassCenter関数で作成したプロットを追加します。この関数は、プロトタイプのプロットに近接行列(MDSプロットと同じ)も使用します。しかし、6つの異なる動作のデータポイントを見るだけでは、なぜ近接行列がプロトタイプをプロットするのか理解できません。また、虹彩データを使用してclasscenter関数を試しましたが、機能します。しかし、それは私のデータでは機能しないようです... このプロットに使用したコードは次のとおりです be.rf <- randomForest(Behaviour~., data=be, prox=TRUE, importance=TRUE) class1 <- classCenter(be[,-1], be[,1], be.rf$prox) Protoplot <- plot(be[,4], be[,7], pch=21, xlab=names(be)[4], ylab=names(be)[7], bg=c("red", "green", "blue", "yellow", "turquoise", "orange") [as.numeric(factor(be$Behaviour))]) points(class1[,4], class1[,7], pch=21, cex=2, bg=c("red", "green", "blue", "yellow", "turquoise", "orange")) 私のクラス列が最初の列で、8つの予測子がそれに続きます。2つの最良の予測変数をxとyとしてプロットしました。

4
距離行列のみでPCAを実行する
ペアワイズ距離しかない大規模なデータセットをクラスター化したい。k-medoidsアルゴリズムを実装しましたが、実行に時間がかかりすぎるため、PCAを適用して問題の次元を減らすことから始めたいと思います。ただし、この方法を実行するために知っている唯一の方法は、私の状況にはない共分散行列を使用することです。 ペアワイズ距離のみを知っているPCAを適用する方法はありますか?


2
2Dでの多次元データ(LSI)の視覚化
潜在的なセマンティックインデックスを使用して、ドキュメント間の類似点を見つけています(JMSに感謝します) 次元を削減した後、ドキュメントをクラスターにグループ化するためにk平均クラスタリングを試しましたが、これは非常にうまく機能します。しかし、少し先に進んで、ドキュメントをノードのセットとして視覚化します。ここで、任意の2つのノード間の距離は、類似性に反比例します(非常に類似しているノードは互いに接近しています)。 データが2次元を超えるため、類似度行列を2次元のグラフに正確に縮小できないことに不思議に思います。だから私の最初の質問:これを行う標準的な方法はありますか? データを2次元に削減してから、それらをX軸とY軸としてプロットできますか?それは、100から200までのドキュメントのグループに対して十分でしょうか?これが解決策である場合、データを最初から2次元に削減する方が良いですか、それとも多次元データから2つの「最良の」次元を選択する方法はありますか? 私はPythonとgensimライブラリを使用しています。

2
スケーラブルな次元削減
特徴の数が一定であることを考えると、Barnes-Hut t-SNEはの複雑さを持ち、ランダムな投影とPCAは複雑さを持ち、非常に大きなデータセットに対して「手頃」になります。O(nlogn)O(nlog⁡n)O(n\log n)O(n)O(n)O(n) 一方、多次元スケーリングに依存するメソッドは複雑さを持っています。O(n2)O(n2)O(n^2) 複雑さがよりも低い他の次元削減手法(もちろん、最初の列を見るような簡単な手法を除くますか?kkkO(nlogn)O(nlog⁡n)O(n\log n)

1
ReLUニューロンの入力正規化
LeCun et al(1998)による「Efficient Backprop」によれば、すべての入力が0を中心とし、最大2次導関数の範囲内になるように正規化することをお勧めします。たとえば、「Tanh」関数には[-0.5,0.5]を使用します。これは、ヘッセ行列がより安定したときの逆伝播の進行を助けるためです。 しかし、max(0、x)である整流器ニューロンをどうするかわかりませんでした。(それ以降、ロジスティック関数でも[0.1,0.9]のようなものが必要になりますが、0を中心としていません)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.