タグ付けされた質問 「dimensionality-reduction」

データに関する多くの情報を可能な限り保持しながら、データにまたがる多数の変数または次元を少数の次元に削減するための手法を指します。主な手法には、PCA、MDS、Isomapなどがあります。テクニックの2つの主要なサブクラス:特徴抽出と特徴選択。

1
データの視覚化とは別に、t-SNEの良い使い方は何ですか?
どのような状況で(データの視覚化は別として)t-SNEを使用する必要がありますか? T-SNEは次元削減のために使用されます。これに対する答えの質問は 、T-SNEのみ可視化のために、私たちは、クラスタリングのためにそれを使用してはならないことを使用すべきであることを示唆しています。では、t-SNEの適切な用途は何ですか?

1
カーネル近似のNystroemメソッド
低ランクのカーネル近似のためのNyströmメソッドについて読んでいます。この方法は、データサンプルをカーネル機能マッピングの低ランクの近似に投影する方法として、scikit-learn [1]に実装されています。 私の知る限り、トレーニングセットとカーネル関数を指定すると、WとCに SVDを適用することにより、n × nカーネル行列Kの低ランクの近似が生成されます。{ x私}んi = 1{xi}i=1n\{x_i\}_{i=1}^nn × nn×nn \times nKKKWWWCCC C = [ W K 21 ]、 W ∈ R L × LK= [ WK21KT21K22]K=[WK21TK21K22]K = \left [ \begin{array}{cc} W & K_{21}^T \\ K_{21} & K_{22} \end{array} \right ] C= [ WK21]C=[WK21]C = \left [\begin{array}{cc} W \\ …


3
PCAおよびLDAにおける「再構築エラー」の意味
PCA、LDA、Naive Bayesをそれぞれ圧縮と分類に実装しています(圧縮と分類にLDAの両方を実装しています)。 私はコードを書いてあり、すべてが動作します。私が知っておく必要があるのは、報告書に関して、再構成エラーの一般的な定義です。 私は多くの数学とその使用法を文献で見つけることができます...しかし、私が本当に必要なのは鳥瞰図/わかりやすい言葉の定義なので、レポートに適合させることができます。

8
高次元データの視覚化
高次元空間のベクトルである2つのクラスのサンプルがあり、それらを2Dまたは3Dでプロットしたい。 次元削減の手法については知っていますが、本当にシンプルで使いやすいツール(MATLAB、Python、またはビルド済みの.exe)が必要です。 また、2Dでの表現は「意味のある」ものになるのでしょうか。(たとえば、2つのクラスがどのように交差するか、または分離可能か)。

3
因子分析の前提条件は何ですか?
[クラシック、線形] 因子分析(FA)、特にFAの前(および場合によっては後で)に行われる仮定を本当に理解しているかどうかを確認したいと思います。 一部のデータは最初に相関する必要があり、それらの間には可能な線形関係があります。因子分析を行った後、データは通常分布され(各ペアの2変量分布)、因子(共通と詳細)の間に相関はなく、1つの因子の変数と他の因子の変数の間に相関はありません。 それが正しいか?

2
回帰の目的で予測子の次元を減らすことの利点は何ですか?
次元削減回帰(DRR)または教師付き次元削減(SDR)技法の、従来の回帰技法(次元削減なし)に対するアプリケーションまたは利点は何ですか?これらのクラスの技法は、回帰問題の特徴セットの低次元表現を見つけます。このような手法の例には、スライスされた逆回帰、主ヘシアン方向、スライスされた平均分散推定、カーネルスライスされた逆回帰、主成分回帰などが含まれます。 交差検証されたRMSEに関して、次元削減を行わない回帰アルゴリズムでアルゴリズムのパフォーマンスが向上した場合、回帰の次元削減の実際の用途は何ですか?これらのテクニックの要点はわかりません。 これらの手法は、たまたま、回帰のための空間と時間の複雑さを減らすために使用されていますか?それが主な利点である場合、この手法を使用する際の高次元データセットの複雑さの軽減に関するリソースが役立つでしょう。これについては、DRRまたはSDR技術自体を実行するにはある程度の時間とスペースが必要であるという事実について議論します。このSDR / DRR +回帰は、低濃度のデータセットで、高濃度のデータセットでの回帰のみよりも高速ですか? この設定は抽象的な関心のみから研究されたもので、実用的なアプリケーションはありませんか? 余談ですが、特徴と応答同時分布が多様体上にあるという仮定が時々あります。回帰問題を解決するために、このコンテキストで観測されたサンプルから多様体を学習することは理にかなっています。YバツXXYYY

2
次元を削減するためのt-SNEのパラメーターを決定する方法は?
私は単語の埋め込みに非常に慣れていません。学習後のドキュメントの様子を視覚化したい。私はt-SNEがそれを行うためのアプローチであると読みました。埋め込みサイズとして250次元の100Kドキュメントがあります。同様に利用可能ないくつかのパッケージがあります。 ただし、t-SNEの場合、何回反復するか、アルファの値または永続性の値をよく学習するために維持する必要があるかわかりません。 これらのハイパーパラメータはありますか、それともいくつかの属性によって決定できますか?

3
最初の主成分はクラスを分離しませんが、他のPCは分離します。そんなことがあるものか?
インスタンスを2つのクラスに分類するための教師付き機械学習で使用される、より小さな変数のセット、つまり主成分を取得するために、17個の量的変数に対してPCAを実行しました。PCAの後、PC1はデータの分散の31%を占め、PC2は17%を占め、PC3は10%を占め、PC4は8%を占め、PC5は7%を占め、PC6は6%を占めます。 ただし、2つのクラス間のPCの平均の違いを見ると、驚いたことに、PC1は2つのクラスの優れた識別器ではありません。残りのPCは優れた弁別子です。さらに、PC1は、決定木で使用されると関係がなくなります。つまり、枝刈り後、PC1はツリーに存在しなくなります。ツリーはPC2-PC6で構成されています。 この現象の説明はありますか?派生変数に何か問題がありますか?


7
国の種類を特定するためのデータ削減手法
私は経済地理学の入門コースを教えています。生徒が現代の世界経済に見られる国の種類をよりよく理解し、データ削減手法を理解できるように、さまざまな国の類型を作成する課題を作成したいと思います(たとえば、高所得の高所得国付加価値製造の平均余命、高所得の天然資源輸出、中高寿命、ドイツが最初のタイプの要素、イエメンが2番目のタイプの例です)。これは、一般に入手可能なUNDPデータを使用します(これを正しく思い出せば、200か国未満の社会経済データが含まれています。申し訳ありませんが、地域データはありません)。 この割り当ての前に、これらに同じ変数間の相関関係を調べるように(同じ間隔(主に間隔または比率レベル)を使用して)要求する別の割り当てがあります。 私の希望は、彼らが最初に異なる変数間の種類の関係(たとえば、平均余命と富の[さまざまな指標]の間の正の関係、富と輸出の多様性の間の正の関係)について直感を養うことです。次に、データ削減手法を使用すると、コンポーネントまたは要素は直感的に理解できます(たとえば、要素/コンポーネント1は富の重要性を捉え、要素/コンポーネント2は教育の重要性を捉えます)。 これらは2年目から4年目の学生であり、より一般的に分析的思考への露出が限られていることが多いので、2番目の課題に最も適切な単一のデータ削減手法はどれですか。これらは人口データであるため、推論統計(p-vlauesなど)は実際には必要ありません。

2
データポイントよりも多くの変数を使用したモデリング
私は機械学習/モデリングの初心者です。この問題の背景を教えてください。私は、観測数があるデータセットを持っているしかし、変数の数があるのp 〜8000。最初に、このようなデータセットでモデルを構築することを検討することは理にかなっていますか、それとも、リッジ回帰や投げ縄などの変数選択手法を最初に検討する必要がありますか?この状況は過剰適合につながる可能性があることを読みました。それはすべてのMLテクニックに当てはまりますか、それともいくつかのテクニックはこれを他のテクニックよりうまく処理しますか?数学が多すぎなければ、p &gt; nで数学が崩壊し始める理由についての簡単な説明をいただければ幸いです。n&lt;200n&lt;200n<200p∼8000p∼8000p\sim 8000p&gt;np&gt;np>n

1
PCAに関する質問:PCはいつ独立しますか?PCAがスケーリングに敏感なのはなぜですか?PCが直交するように制約されているのはなぜですか?
PCAのいくつかの説明を理解しようとしています(最初の2つはWikipediaからのものです)。 主成分が独立していることが保証されるのは、データセットが共同で正規分布している場合のみです。 主成分の独立性は非常に重要ですか?この説明をどのように理解できますか? PCAは、元の変数の相対的なスケーリングに敏感です。 「スケーリング」とはどういう意味ですか?異なる次元の正規化? 変換は、最初の主成分が可能な最大の分散を持ち、後続の各成分が先行する成分に直交するという制約の下で最大の分散を持つように定義されます。 この制約を説明できますか?

3
分類にLDAではなくPCAをいつ使用しますか?
私は、主成分分析と多重判別分析(線形判別分析)の違いについてこの記事を読んでおり、MDA / LDAではなくPCAを使用する理由を理解しようとしています。 説明は次のように要約されます。 PCAで大まかに言えば、データが最も分散している(PCAはデータセット全体を1つのクラスとして扱うため、クラス内で)最大の分散を持つ軸を見つけようとしています。MDAでは、クラス間の分散をさらに最大化しています。 常に分散を最大化し、クラス間の分散を最大化したいと思いませんか?

1
大規模なPCAも可能ですか?
主成分分析(PCA)の古典的な方法は、列の平均がゼロである入力データマトリックスで行う(PCAが「分散を最大化できる」)方法です。これは、列を中央に配置することで簡単に実現できます。ただし、入力マトリックスがスパースの場合、中央に配置されたマトリックスはスパースになり、マトリックスが非常に大きい場合、メモリに収まりません。ストレージの問題に対するアルゴリズム的な解決策はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.