タグ付けされた質問 「dimensionality-reduction」

データに関する多くの情報を可能な限り保持しながら、データにまたがる多数の変数または次元を少数の次元に削減するための手法を指します。主な手法には、PCA、MDS、Isomapなどがあります。テクニックの2つの主要なサブクラス:特徴抽出と特徴選択。

1
次元削減/多次元スケーリングの結果を解釈するにはどうすればよいですか?
データの構造をよりよく理解するために、6次元データマトリックスのSVD分解と多次元スケーリングの両方を実行しました。 残念ながら、すべての特異値は同じ次数であり、データの次元は確かに6であることを意味します。しかし、特異ベクトルの値を解釈できるようにしたいと思います。たとえば、最初のものは各次元でほぼ等しいように見え(つまり(1,1,1,1,1,1))、2番目のものも興味深い構造(のようなもの(1,-1,1,-1,-1,1))を持っています。 これらのベクトルをどのように解釈できますか?この件に関するいくつかの文献を教えていただけませんか?

1
HMC:ディメンションが多すぎますか?
私が読んだハミルトニアンモンテカルロは、MCMC問題が高次元である場合の"goto" メソッドです。 実際には、10、100、1,000、10,000、100,000などのディメンションの数は多すぎますか?計算コストが問題になることは間違いありません。使用するモデルを検討することが重要だと思いますが、それを別にして、目的の分布を使用して適切なサンプルを取得する場合、次元数に実際的な制限はありHMCますか? また、個々のパラメーターのトレースプロット、実行平均、自己相関などをチェックするにはパラメーターの数が多すぎる問題について、収束(または私が推測できないこと)をどのように監視できますか? 更新:非視覚的診断に言及しているこの投稿を見つけました

1
カーディナリティが大きく異なる場合の高カーディナリティ(多カテゴリ)カテゴリカルフィーチャのエンコード
カテゴリ機能のエンコードに関する質問を調べてきましたが、私の問題を説明するものは見つかりませんでした。見逃した場合はお詫びします。 ほぼ同じ重要度のバイナリ変数とノミナル変数のデータセットがあるとします。 ほとんどの分類子はカテゴリ型を直接処理できないため、これらを変換する必要があります。たとえば、この回答で説明されているように、ワンホットエンコーディング(ダミー変数)を使用します。 1つのカテゴリ変数のカーディナリティが高い場合、この方法で他の(たとえばバイナリ)変数を "圧倒"してエンコードしませんか?「カーディナリティー」とは、名目変数内のカテゴリーの数を意味します。 分類子モデルが変数間の関係を認識している場合、同じ変数の導入されたバイナリダミー「コンポーネント」間の関係を不必要に見つけようとしないのではないでしょうか。 もしそうなら、これはどのように対処できますか? 私が考えることができる最良の解決策は、高カーディナリティのプロパティを論理的に「バケット」にグループ化することですが、問題となるのに十分な一意の値がある場合、手動でそれらをグループ化すると、労力もかかります。 編集:これは取るに足らないことであり、部分的にのみ問題に対処しますが、私がやったことの1つは、比較的まれなすべてのカテゴリ値を新しい「その他」のカテゴリに置き換えることです。値を「まれ」と見なす場合、しきい値を最適化するのに時間がかかる可能性がありますが、少なくともこのアプローチは自動化できます。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
人は、3つの中から最も類似する2つのアイテムを繰り返し選択します。アイテム間の知覚距離をモデル化/推定する方法は?
人には3つの項目(顔の写真など)が与えられ、3つの顔のうちどれが最も類似しているかを選択するよう求められます。これは、顔のさまざまな組み合わせで何度も繰り返されます。各顔は多くの組み合わせで発生する可能性があります。この種のデータを考慮して、各面間の距離が2D空間(または3D、4Dなど)に配置され、各面間の距離が参加者。 これをモデル化/推定するための良い(おそらく標準的な)方法は何でしょうか? モデル/論文および/またはソフトウェアパッケージへのポインタは高く評価されます。

1
線形判別分析と非正規分布データ
私が正しく理解している場合、線形判別分析(LDA)は、最適性基準のすべてのクラスについて、正規分布データ、独立特徴、および同一の共分散を想定しています。 平均と分散はトレーニングデータから推定されるため、既に違反ではありませんか? 記事に引用文を見つけました(Li、Tao、Shenghuo Zhu、Mitsunori Ogihara。「判別分析を使用したマルチクラス分類:実験的調査」。Knowledgeand Information Systems 10、no。4(2006):453–72 。) 「線形判別分析は、グループ間の共通の共分散行列と正常性の仮定に違反することが多いにもかかわらず、顔と物体の認識のタスクで優れたパフォーマンスを頻繁に達成します(Duda、et al。、2001)」 -残念ながら、Duda et。に対応するセクションが見つかりませんでした。al。「パターン分類」。 次元削減のコンテキストで非通常のデータにLDA(vs.正則化LDAまたはQDA)を使用することについての経験または考えはありますか?

1
PCAを前処理ステップとして使用するのが適切なのはいつですか?
PCAは、データセットを2Dまたは3Dでプロットできるように次元削減に使用されることを理解しています。しかし、PCAを分類シナリオの前処理ステップとして適用して特徴の数を減らし、新しい特徴としていくつかの主成分(共分散行列の固有ベクトル)を使用する人を見たこともあります。 私の質問: 分類のパフォーマンスにどのような影響がありますか? そのような前処理ステップをいつ適用するのですか? 実数として10個の特徴とカテゴリカル特徴を表す600個のバイナリ特徴を含むデータセットがあり、それらを表すために1対多のエンコーディングを使用しています。ここでPCAを適用すると意味があり、より良い結果が得られますか? 質問が広すぎる場合は、そのようにPCAを使用する方法の詳細をより詳しく説明するペーパーまたはチュートリアルを提供していただければありがたいです。 少し読んだ後、カテゴリ属性のバイナリ機能の数を減らすには、潜在セマンティック分析を使用する方が良いことがわかりましたか?したがって、私は実数値の特徴には触れず、バイナリ特徴を前処理して、実数値の特徴を新しい特徴と組み合わせ、分類器をトレーニングするだけです。どう思いますか?

2
次元削減のための自己組織化マップの使用
過去数日間、私は学校でのプロジェクトの自己組織化マップについていくつかの研究を行ってきました。自己組織化マップを使用してデータの次元を削減できることを理解しました。しかし、私はこれがどのように機能するのか理解していません。たとえば、SOMにニューロンの10x10ネットワークがあり、入力が25次元であるとします。したがって、私の理解では、25Dである各ニューロンの特徴ベクトルを作成します。トレーニングが完了するまでに、100個の25Dベクトルが作成されます。これはどのようにしてデータの次元を正確に削減するのですか?ニューロンの位置に関心があるはずですか? 編集:私はすでに自己組織化マップを使用した次元削減の質問を読みましたが、それが私が持っている質問に答えるとは感じません。

3
分類入力のシリーズ次元削減
私は、結果変数がバイナリで入力が時系列である予測モデルを構築しようとしています。より具体的にするために、モデルは、過去60日間に会社で費やした金額に基づいて、顧客が解約するかどうか(会社を去る、1または0としてコード化)を予測します。したがって、データは行ごとに1人の顧客であり、列は結果因子(1または0)であり、時間t-1、t-2 .... t-60で費やされた金額の60の追加列です。 ここにいくつかのサンプルデータがあります: #create the data a series of length 60 and a class ID sc <- read.table("http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.data", header=F, sep="") #binary class lable classId <- as.factor(c(rep(0,300), rep(1,300))) newSc <- data.frame(cbind(classId, sc)) newSc$ID<-seq(1,600,1) 実際のモデルには、顧客ごとにこれらのシリーズの多くがある可能性があるため、シリーズのデータ​​の次元を減らす必要があります。たとえば、60の値を使用する代わりに、これを一握りに減らす必要があります。もちろん、系列の平均値、最小値、最大値などを使用できますが、離散フーリエ変換の使用について読んでいます。 質問: RのDFFTは私の目的に使用する適切な方法ですか?それがどのように機能するかについてのあらゆる情報がいただければ幸いです。 このR関数が正しいと仮定して、次元削減を実現するために最も意味のある係数だけをどのように抽出しますか? 追加:次元削減にDFFTを使用することは賢明な選択ではないというコンセンサスがあるようですが、データマイニングでは、この関数、DWTおよびSVDがすべて一般的に使用されているようです: 20ページから始まる時系列マイニング。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

4
距離としてのp値?
複数のペアワイズテスト間のp値を類似性/距離の測定と見なすことができ、多次元スケーリングをp値のペアワイズマトリックスに適用して次元を削減できますか?これはソフトな質問ですが、ここで最大の問題は何でしょうか、それをどのようにして克服するのが最善でしょうか?(例:三角不等式?)

3
非常に小さいサンプルサイズの次元削減手法
私は21の社会経済的および態度のマクロレベルの変数を持っています(24歳から54歳の母親の就業していない割合、3歳から5歳の子供の保育園の割合など)。私はまた、集中的な保育を提供した祖父母の割合に関するデータも持っています。私が選択したほとんどの社会経済変数は、保育提供と高い相関があります(たとえば、パートタイムで雇用されている母親の割合と祖父母保育の提供の間には負の相関があります)。 理想的には、さまざまな国の類型を作成したいと思います。私の希望は、コンポーネントや要素が直感的に理解できるようなある種の次元削減手法を使用することです(たとえば、家族や性別に対する態度、労働市場構造、家族政策)。または、代わりに、21のマクロレベルの指標のうちどれが国全体の保育規定の変動性を最もよく説明するかを評価します。 私の主な問題は、ヨーロッパの国が12か国しかないことです。PCAと因子分析は、少数のケースで適切な手法ではないと思います。私は正しいですか?質的比較分析または多重対応分析の使用を試みるように言われましたが、私の理解では、後者の手法はバイナリ(またはカテゴリ)マクロレベルのインジケーターに適しています(マイニングはパーセンテージまたは連続変数です)。

3
データの実際の次元を視覚化する方法は?
名目上16次元のデータセットがあります。あるケースでは約100個、別のケースでは約20,000個のサンプルがあります。PCAとヒートマップを使用して行ったさまざまな探索的分析に基づいて、真の次元(つまり、「信号」のほとんどをキャプチャするために必要な次元の数)は約4であると確信しています。スライドを作成して、プレゼンテーションのためのその効果。私が反証しようとしているこのデータについての「従来の知恵」は、真の次元が1つまたは2つであるということです。 データセットの実際の次元を示すための優れた単純な視覚化とは何ですか?できれば、統計にある程度の経歴はあるが「実際の」統計学者ではない人にも理解できるようにしてください。

5
既知のクラスターの分離を最大化するための次元削減手法?
それで、R ^ nにたくさんのデータポイントがあるとします。nはかなり大きい(50など)。このデータは3つのクラスターに分類され、各データポイントがどのクラスターに属しているかがわかります。私がやりたいのは、これらのクラスターを2Dで視覚化して、クラスター間の分離を最大化することです。Rのデータポイントの位置に基づいてクラスターが簡単に分離できることを証明することが目標です。 ^ nだけ。 これまで私がこれまで行ってきた方法は、データポイントでPCA変換を実行し、クラスターがかなりきれいに分離されているように見えるまでPCのペアをランダムに視覚化することです。このアプローチはかなりアドホックに思えますが、全体的な分散を最大化する代わりに、クラスター間の分離を最大化するPCAスタイルのデータのローテーションを見つける簡単な方法があるはずです。 これを行う標準的な技術はありますか?そうでない場合、そのような変換を作成する方法についてのアイデアはありますか?

2
なぜオートエンコーダデコーダは通常、エンコーダとは逆のアーキテクチャなのですか?
私が見たすべてのオートエンコーダアーキテクチャは、主にデコーダがエンコーダの逆にすぎないという同様のアーキテクチャを持っています。オートエンコーダの目的が低次元の特徴学習である場合、なぜデコーダは単純ではないのですか?例は線形変換ですFWFWFWここで、は観測値による特徴行列(つまり、ボトルネック)であり、は学習された重み行列で、を元の入力特徴サイズにマップします。複数の隠れ層を持つディープオートエンコーダーの場合、上記の例のデコーダーは、エンコーダーと比較して容量が低くなります。FFFんんnfffWWWFFF 私の直感は次のとおりです。 デコーダーがシンプルな場合、自動エンコーダーはボトルネックでより高品質の機能を学習して強制的に補正します。逆に、デコーダーの表現能力が高い場合、学習不足のボトルネックを出力の再構成に効果的にマッピングできます。この場合、再構成エラーは低くなる可能性がありますが、必ずしも学習された機能が実際に優れているという意味ではありません。 私のアプリケーション(グラフでの機能学習)では、単純なデコーダーの方が、エンコーダーをミラーリングしたデコーダーよりも学習機能が優れていることがわかりました。この著者のように非常に単純なデコーダを有するグラフオートエンコーダを設計紙、再構成されたグラフの隣接マトリックスであり、学習地物行列であり、はReLUのような非線形変換です。あ^= σ(ZZT)あ^=σ(ZZT)\hat{A} = \sigma(ZZ^T)あ^あ^\hat{A}ZZZσσ\sigma 私はしばらくの間、この質問への回答を何度も探していましたが、なぜ大容量のデコーダーが低容量のデコーダーよりも望ましいのか(またはその逆も)、説明や理論上の結果は見つかりませんでした。 )。誰かが説明を提供したり、正しい方向に向けてくれたりしたら、感謝します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.