タグ付けされた質問 「dimensionality-reduction」

データに関する多くの情報を可能な限り保持しながら、データにまたがる多数の変数または次元を少数の次元に削減するための手法を指します。主な手法には、PCA、MDS、Isomapなどがあります。テクニックの2つの主要なサブクラス:特徴抽出と特徴選択。

2
次元削減とクラスタリングを組み合わせるのはいつですか?
ドキュメントレベルのクラスタリングを実行しようとしています。用語ドキュメント頻度行列を作成し、k-meansを使用してこれらの高次元ベクトルをクラスタリングしようとしています。直接クラスタリングの代わりに、最初にLSA(潜在意味解析)特異ベクトル分解を適用してU、S、Vt行列を取得し、スクリープロットを使用して適切なしきい値を選択し、縮小行列(特にVtそれは私に良い結果を与えているように思えた概念ドキュメント情報を提供します)。 SVD(特異ベクトル分解)はクラスタリング(コサイン類似性尺度などを使用)であり、SVDの出力にk-meansを適用できるかどうかわからないと言う人もいます。SVDは次元削減手法であり、多数の新しいベクトルを提供するため、論理的に正しいと考えました。一方、k-meansはクラスターの数を入力として受け取り、これらのベクトルを指定された数のクラスターに分割します。この手順に欠陥はありますか、これを改善できる方法はありますか?助言がありますか?

1
部分最小二乗、縮退ランク回帰、主成分回帰の関係は何ですか?
ランクの低下回帰と主成分回帰は、部分最小二乗の特別な場合にすぎませんか? このチュートリアル(6ページの「目的の比較」)では、XまたはYを投影せずに部分最小二乗(つまり「部分的ではない」)を行うと、ランク回帰または主成分回帰に対応するようになると述べています。 このSASドキュメントページのセクション「ランクの回帰の削減」および「メソッド間の関係」で同様の記述が行われています。 より基本的なフォローアップの質問は、それらが同様の基礎となる確率モデルを持っているかどうかです。

2
順序データまたは名義データのカテゴリをマージ/削減する方法は?
名義データまたは順序データのカテゴリ数を減らす方法を見つけるのに苦労しています。 たとえば、いくつかの名義因子と順序因子を持つデータセットで回帰モデルを構築するとします。このステップには問題はありませんが、名目上の特徴がトレーニングセットに観測されていないが、その後検証データセットに存在するという状況に遭遇することがよくあります。これは、モデルに(これまでに)目に見えないケースが存在する場合、当然、エラーにつながります。カテゴリを組み合わせたいもう1つの状況は、単純に観測値の少ないカテゴリが多すぎる場合です。 だから私の質問は: 以前の実世界の背景情報に基づいて多くの名義(および順序)カテゴリを組み合わせることが最善かもしれないと思いますが、体系的な方法(Rできればパッケージ)が利用可能ですか? どのようなガイドラインと提案、カットオフしきい値などを作成しますか? 文献で最も人気のあるソリューションは何ですか? 小さな名義カテゴリを新しい「OTHERS」カテゴリに結合する以外の戦略はありますか? 他にも提案がある場合は、お気軽にご連絡ください。

4
どの変数がどのPCAコンポーネントを説明し、その逆ですか?
このデータの使用: head(USArrests) nrow(USArrests) 私はこうしてPCAを行うことができます: plot(USArrests) otherPCA <- princomp(USArrests) 新しいコンポーネントを入手できます otherPCA$scores そして、コンポーネントによって説明される分散の割合 summary(otherPCA) しかし、どの変数がほとんどの主成分によって説明されているかを知りたい場合はどうすればよいですか?逆もまた同様です。たとえば、PC1またはPC2は主に説明されていmurderますか?これどうやってするの? たとえば、PC1の80%がmurderまたはで説明されていると言えますかassault? 私はここで負荷が私を助けると思うが、彼らは私がそれを理解するように説明された分散ではなく方向性を示す、例えば otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

3
分類にT-SNEを使用してハイパーパラメーターを選択する
私が取り組んでいる特定の問題(競合)には、次の設定があります:21の機能([0,1]の数値)とバイナリ出力。約100 Kの行があります。設定は非常に騒々しいようです。 私と他の参加者はしばらくの間機能生成を適用し、この設定ではt分布の確率的近傍埋め込みがかなり強力であることが判明しました。 私はこの記事「t-SNEを効果的に使用する方法」に出くわしましたが、それでも分類の設定で最適なハイパーパラメーターを選択する方法について結論を出すことはできません。 経験則(特徴の数、埋め込みの次元->困惑の選択)はありますか? さまざまな設定を繰り返すのに時間がかかりすぎるため、現時点ではアドホック設定を適用します。コメントありがとうございます。

1
教師あり次元削減
15個のラベル付きサンプル(10グループ)で構成されるデータセットがあります。ラベルの知識を考慮して、次元削減を2つの次元に適用します。 PCAなどの「標準」の教師なし次元削減手法を使用する場合、散布図は既知のラベルとは関係がないようです。 私が探しているものには名前がありますか?ソリューションの参考文献をいくつか読みたいです。


1
LDAの代数。変数の線形判別分析と線形判別分析
どうやら、 フィッシャー分析の目的は、クラス内の分散を最小限に抑えながら、クラス間の分離を同時に最大化することです。したがって、変数の識別力の有用な尺度は、対角量与えられます。Bii/WiiBii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html p x pBetween(B)およびWithin-Class(W)行列のサイズ()は、入力変数の数で与えられることを理解していますp。これを考えると、単一変数の「識別力の有用な尺度」にするにはどうすればよいでしょうか。行列BとWを構築するには少なくとも2つの変数が必要であるため、それぞれのトレースは複数の変数を表します。Bii/WiiBii/WiiB_{ii}/W_{ii} 更新:Bii/WiiBii/WiiB_{ii}/W_{ii}は、和が暗示されるトレース上のトレースではなく、マトリックス要素BiiBiiB_{ii}を割ったものだと考えるのは正しいWiiWiiW_{ii}でしょうか?現在、それが式と概念を調和させることができる唯一の方法です。

3
ランダムな森林分類の前の高次元テキストデータのPCA?
ランダムフォレスト分類を実行する前にPCAを行うことは理にかなっていますか? 高次元のテキストデータを扱っており、次元の呪いを回避するために機能の削減を行いたいのですが、ランダムフォレストは既に何らかの次元の削減を行っていませんか?

2
データ削減のために繰り返される対策に対してPCAを実行できますか?
私は、2つのコンテキストのそれぞれで87の動物に対して3つの試験を行っています(データが欠落している、データが欠落している= 64の動物)。文脈の中で、私は多くの具体的な対策(入力する時、避難所に戻った回数など)を持っているので、私は(それらを呼び出すそのコンテキストで動作を説明し、2〜3の複合行動スコアを開発したいですC1、C2、C3)。私C1は、3つの試験すべてと87匹の動物で同じことを意味するので、年齢、性別、血統、および個々の動物が行動に及ぼす影響を調べるために回帰を行うことができます。次にC1、特定の年齢内の他のコンテキストでの行動スコアとの関係を調べたいと思います。(1歳で、コンテキスト1のアクティビティはコンテキスト2のアクティビティを強く予測しますか?) これが繰り返し測定されない場合、PCAはうまく機能します。コンテキストの複数の測定でPCAを実行し、PC1、PC2などを使用して、1つのコンテキストのPC1とPC1(または2または3)他のコンテキスト。問題は反復測定であり、これは疑似複製に分類されます。レビュアーに断りなく「ノーゴー」と言ったことがありますが、データ削減を行うときにこれが問題になるかどうかについて明確な参照を見つけることができません。 私の推論は次のようになります。PCAで私がしていることは、元の測定値に対して純粋に記述的であるため、測定値の繰り返しは問題ではありません。コンテクスト1の「大胆さ」尺度としてアリーナに入る時間を使用していることをフィアットで宣言した場合、すべての年齢のすべての個人に匹敵するコンテクスト1大胆さ尺度があり、誰も目をつぶることはありません。私は私が使用するフィアットで宣言した場合は時間に入る+ 0.5 ⋅タイム・トゥ・遠端、同じことが行きます。私は、還元の目的のために純粋にPCAを使用していますもしそうなら、なぜそれがPC1が(それはあるかもしれないことはできません0.28 ⋅入力+ 0.63 ⋅仕上げ+ 0.02を⋅0.5 ⋅0.5⋅0.5\cdot+ 0.5 ⋅ + 0.5⋅+\ 0.5\cdot0.28 ⋅0.28⋅0.28\cdot+ 0.63 ⋅ + 0.63⋅+\ 0.63\cdot+ 0.02 ⋅ + 0.02⋅+\ 0.02\cdot 合計時間...)、入力する時間が一般的に有益で代表的な特性であると推測する代わりに、少なくとも複数の手段によって通知されますか? (注:対策の基本的な構造には興味がありません ...質問は、コンテキスト固有の動作をどのように解釈するかについてです。「コンテキスト1を使用して、ハリーが他の動物と比較してアクティブであると結論付けた場合、ハリーはコンテキスト2でアクティブですか?年齢が上がるにつれてコンテキスト1のアクティビティとして解釈するものを変更した場合、コンテキスト2のアクティビティも変更しますか?) 私はPARAFACを調べましたが、SEMを調べましたが、これらのアプローチのいずれかがサンプルサイズに適しているとは思いません。誰でも体重を量ることができますか?ありがとう。

1
t-SNEの軸の意味は何ですか?
現在、私は頭をt-SNEに巻き付けようとしています。数学にます。残念ながら、まだ十分に答えられない質問が1つあります。t-SNEグラフの軸の実際の意味は何ですか?このトピックに関するプレゼンテーションを行うか、出版物に含める場合:軸に適切なラベルを付けるにはどうすればよいですか? PS:私はこの Redditの質問を読みましたが、そこに与えられた答え(「解釈と領域の知識に依存する」など)は、本当にこれを理解するのに役立ちません。

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
LLE(ローカル線形埋め込み)アルゴリズムの手順を説明してください。
LLEのアルゴリズムの背後にある基本原則は3つのステップで構成されていることを理解しています。 k-nnなどのメトリックによって各データポイントの近傍を見つける。 近傍がデータポイントに与える影響を示す各近傍の重みを見つけます。 計算された重みに基づいて、データの低次元埋め込みを構築します。 しかし、ステップ2とステップ3の数学的説明は、私が読んだすべての教科書とオンラインリソースで混乱しています。数式が使用される理由を説明することはできません。 これらの手順は実際にはどのように実行されますか?使用されている数式を直感的に説明する方法はありますか? 参照:http : //www.cs.nyu.edu/~roweis/lle/publications.html

1
カーネルPCAのカーネルを選択するには?
カーネルPCA(主成分分析)による最終的なデータ出力で適切なデータ分離をもたらすカーネルを選択する方法と、カーネルのパラメーターを最適化する方法は何ですか? できればレイマンの用語を大いに歓迎し、そのような方法を説明する論文へのリンクもいいでしょう。

4
距離行列のみでPCAを実行する
ペアワイズ距離しかない大規模なデータセットをクラスター化したい。k-medoidsアルゴリズムを実装しましたが、実行に時間がかかりすぎるため、PCAを適用して問題の次元を減らすことから始めたいと思います。ただし、この方法を実行するために知っている唯一の方法は、私の状況にはない共分散行列を使用することです。 ペアワイズ距離のみを知っているPCAを適用する方法はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.