タグ付けされた質問 「dimensionality-reduction」

次元削減とは、できるだけ多くの情報を保持しながら、多くの変数をより小さな数に削減する手法を指します。有名な方法の1つは[タグPCA]です。


6
ビッグデータでSVDとPCAを行う方法は?
大量のデータセット(約8 GB)があります。機械学習を使用して分析したいと思います。したがって、SVDを使用してからPCAを使用して、効率のためにデータの次元を減らす必要があると思います。ただし、MATLABとOctaveはそのような大きなデータセットを読み込むことができません。 このような大量のデータでSVDを実行するために使用できるツールは何ですか?

6
好きなFacebookサイトに基づいてユーザーの年齢を推定するための機械学習手法
Facebookアプリケーションのデータベースがあり、機械学習を使用して、ユーザーが好きなFacebookサイトに基づいてユーザーの年齢を推定しようとしています。 私のデータベースには3つの重要な特徴があります。 私のトレーニングセットの年齢分布(合計で1万2,000ユーザー)は若いユーザーに偏っています(つまり、27歳の1157ユーザーと65歳の23ユーザー)。 多くのサイトには、5人以下のLikerがあります(5人未満のLikerでFBサイトを除外しました)。 サンプルよりも多くの機能があります。 したがって、私の質問は次のとおりです。さらなる分析のためにデータを準備するためにどのような戦略を提案しますか?何らかの次元削減を実行する必要がありますか?この場合、どのMLメソッドを使用するのが最も適切でしょうか? 私は主にPythonを使用しているため、Python固有のヒントをいただければ幸いです。

7
高次元データを視覚化する目的は?
T-SNE、isomap、PCA、教師付きPCAなど、高次元のデータセットを視覚化するための多くの手法があります。また、データを2Dまたは3D空間に投影する動作を行っているため、 「。これらの埋め込み(多様体学習)メソッドのいくつかをここで説明します。 しかし、この「きれいな絵」は実際に意味があるのでしょうか?この埋め込まれた空間を視覚化することで、誰かがどのような洞察をつかむことができますか? この埋め込まれた空間への投影は通常無意味だからです。たとえば、PCAによって生成された主成分にデータを投影する場合、それらの主成分(eiganvectors)はデータセット内のフィーチャに対応しません。それらは独自の機能スペースです。 同様に、t-SNEは、KLの発散を最小限に抑えるためにアイテムが互いに近くにあるスペースにデータを投影します。これはもはや元の機能空間ではありません。(間違っている場合は修正してください。ただし、分類を支援するためにt-SNEを使用するMLコミュニティの大きな努力はないと思います。ただし、これはデータの視覚化とは異なる問題です。) なぜこれらの視覚化のいくつかについて人々がそんなに大したことをするのか、私は非常に大きく混乱しています。


4
膨大なデータのPythonでのt-sne実装の速度を改善する
それぞれ200次元のほぼ100万のベクトルで次元削減を行いたい(doc2vec)。モジュールのTSNE実装を使用していsklearn.manifoldますが、主な問題は時間の複雑さです。でもmethod = barnes_hut、計算速度はまだ遅いです。メモリー不足になることもあります。 130G RAMを搭載した48コアプロセッサで実行しています。並列に実行する方法や、プロセスを高速化するために豊富なリソースを使用する方法はありますか。

3
最近傍データによる非常に高次元のデータの検索
私は、ユーザーと彼らが好むアイテムの大きなまばらなマトリックスを持っています(100万ユーザーと100Kアイテムのオーダーで、非常に低いレベルのスパース性があります)。kNN検索を実行する方法を模索しています。データセットのサイズと実行した初期テストを考えると、使用する方法は並列または分散のいずれかである必要があるという前提があります。そこで、2つのクラスの可能なソリューションを検討しています。1つは単一のマルチコアマシンで利用可能(または合理的に簡単な方法で実装可能)、もう1つはSparkクラスター、つまりMapReduceプログラムとして利用可能です。私が検討した3つの広範なアイデアは次のとおりです。 コサイン類似度メトリックを想定して、正規化された行列とその転置(外積の合計として実装)の完全な乗算を実行します。 局所性依存ハッシュ(LSH)の使用 最初にPCAで問題の次元を減らす この問題に取り組むことができる他の可能な方法についての考えやアドバイスをいただければ幸いです。

1
T-SNEの視覚化では、より近いポイントをより類似していると見なすことができますか?
ヒントンの論文から、T-SNEはローカルの類似性を維持するのに優れた仕事をしており、グローバル構造(クラスター化)を維持するのにまともな仕事をしていることがわかります。 ただし、2D t-sneビジュアライゼーションでより近くに表示されるポイントを「より類似した」データポイントと見なすことができるかどうかはわかりません。25個の機能を持つデータを使用しています。 例として、下の画像を観察すると、青色のデータポイントが緑色のデータポイント、特に最大の緑色のポイントクラスターに似ていると仮定できますか?または、別の質問として、青い点が他のクラスターの赤い点よりも、最も近いクラスターの緑の点に似ていると仮定しても大丈夫ですか?(赤みがかったクラスターの緑の点は無視) sci-kit learn Manifold learningで提示されているような他の例を観察するとき、これを仮定するのは正しいように思えますが、統計的に正しいかどうかはわかりません。 編集 元のデータセットからの距離を手動で計算し(ペアワイズ平均ユークリッド距離)、視覚化は実際にデータセットに関する比例空間距離を表します。しかし、これは単なる偶然ではなく、t-sneの元の数学的定式化から予想されることがかなり許容できるかどうかを知りたいと思います。

2
高次元データ:知っておくと便利なテクニックは何ですか?
次元のさまざまな呪いにより、多くの一般的な予測手法の精度と速度は、高次元データでは低下します。高次元のデータを効果的に処理するのに役立つ最も便利なテクニック/トリック/ヒューリスティックは何ですか?例えば、 特定の統計/モデリング手法は、高次元のデータセットでうまく機能しますか? 特定(距離の代替概念を定義する)またはカーネル(内積の代替概念を定義する)を使用して、高次元データの予測モデルのパフォーマンスを改善できますか? 高次元データの次元削減の最も有用な手法は何ですか?

5
機能選択と機能抽出。いつ使用しますか?
特徴抽出と特徴選択は、データの次元を本質的に減らしますが、私が正しいなら、特徴抽出はデータをより分離可能にします。 どの技術が他よりも優先されますか? 機能選択は元のデータとそのプロパティを変更しないため、トレーニング中の機能を変更しないことが重要である場合は、機能選択を使用すると想定しています。しかし、なぜこのようなものが欲しいのか想像できません。

3
次元削減のための自動エンコーダーが対称的であるのはなぜですか?
私はオートエンコーダーやニューラルネットワークの専門家ではありませんので、これがばかげた質問であればご容赦ください。 次元削減または高次元データのクラスターの視覚化の目的で、オートエンコーダーを使用して、2つのノードを持つネットワークレイヤーの出力を検査することにより、(損失のある)2次元表現を作成できます。たとえば、次のアーキテクチャでは、3番目の層の出力を検査します [ X] → N1= 100 → N2= 25 → (N3= 2 )→ N4= 25 → N5= 100 → [ X][バツ]→N1=100→N2=25→(N3=2)→N4=25→N5=100→[バツ][X] \rightarrow N_1=100 \rightarrow N_2=25 \rightarrow (N_3=2) \rightarrow N_4=25 \rightarrow N_5=100 \rightarrow [X] ここで、入力データとなるN L内のノードの数であり、L層目。バツバツXNlNlN_llll さて、私の質問は、なぜ対称アーキテクチャが必要なのかということです。深い「圧縮」フェーズのミラーは、同様に複雑な「圧縮解除」フェーズがあり、非常に直感的であるように強制されない2ノード出力になる可能性があることを意味しませんか?言い換えると、単純なデコードフェーズを使用すると、2つのノードを持つレイヤーの出力も必然的にシンプルになりませんか? ここでの私の考えは、圧縮解除フェーズが複雑でないほど、2D表現はより単純(線形に近い)でなければならないということです。より複雑な解凍フェーズでは、より複雑な2D表現が可能になります。

4
大きなカテゴリ値のホットエンコーディングの代替手段の1つ?
こんにちは1600カテゴリを超える大きなカテゴリ値を持つデータフレームがあります。1600列を超えないように代替手段を見つける方法はありますか。 私はこれを興味深いリンクの下に見つけましたhttp://amunategui.github.io/feature-hashing/#sourcecode しかし、彼らは私が望まないクラス/オブジェクトに変換しています。さまざまな機械学習モデルでテストできるように、最終出力をデータフレームとして必要ですか?または、生成された行列を使用して、ロジスティック回帰またはXGBoost以外の他の機械学習モデルをトレーニングする方法はありますか? とにかく実装できますか?

4
次元性と多様体
教師なし機械学習でよく聞かれる文章は 高次元の入力は通常、低次元の多様体の上または近くに存在します ディメンションとは何ですか?マニホールドとは何ですか?違いはなんですか? 両方を説明する例を挙げられますか? ウィキペディアのマニホールド: 数学では、多様体は各点の近くのユークリッド空間に似たトポロジー空間です。より正確には、n次元多様体の各点には、n次元のユークリッド空間に同型の近傍があります。 ウィキペディアのディメンション: 物理学と数学では、数学的な空間(またはオブジェクト)の次元は、その内部の任意の点を指定するために必要な座標の最小数として非公式に定義されます。 ウィキペディアは素人の言葉で何を意味していますか?ほとんどの機械学習の定義のような奇妙な定義のように聞こえますか? どちらも空間です。ユークリッド空間(つまり、多様体)と次元空間(つまり、特徴に基づく)の違いは何ですか。

2
大規模なデータセットの効率的な次元削減
約100万行と約500Kのスパースフィーチャのデータセットがあります。次元を1K〜5Kの密集したフィーチャのオーダーのどこかに減らしたい。 sklearn.decomposition.PCAスパースデータでは機能しませんsklearn.decomposition.TruncatedSVD。使用しようとしましたが、メモリエラーがすぐに発生します。このスケールで効率的に次元を削減するための私のオプションは何ですか?

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.