タグ付けされた質問 「pca」

2
PCAを行う際に削減する次元数は?
PCAにKを選択する方法は?Kは、投影する次元の数です。唯一の要件は、多くの情報を失わないことです。データに依存することは理解していますが、Kを選択する際に考慮すべき特性についての簡単な一般的な概要を探しています。
12 pca 

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 


4
PCAは機械学習アルゴリズムと見なされますか
主成分分析は次元削減手法であること、つまり10個の入力特徴が与えられると、元の特徴の直交および線形変換である少数の独立した特徴が生成されることを理解しました。 されPCA、それ自体で学習アルゴリズムとして考えるか、データ前処理ステップです。

4
多変量時系列の分類
約40のディメンションを持つ時系列(8ポイント)で構成されるデータのセットがあります(したがって、各時系列は8 x 40です)。対応する出力(カテゴリの可能な結果)は0または1です。 複数の次元を持つ時系列の分類子を設計するための最良のアプローチは何でしょうか? 私の最初の戦略は、それらの時系列から特徴を抽出することでした:平均、標準、各次元の最大変動。RandomTreeForestのトレーニングに使用したデータセットを取得しました。これの全体的な素朴さを認識していて、悪い結果を得た後、私は今、より改善されたモデルを探しています。 私のリードは次のとおりです。各次元のシリーズを(KNNアルゴリズムとDWTを使用して)分類し、PCAで次元を減らし、多次元カテゴリに沿って最終的な分類子を使用します。MLは比較的新しいので、完全に間違っているかどうかはわかりません。

1
他のハイパーパラメーターと同じように、最適なPCA kパラメーターを見つけようとしても大丈夫ですか?
主成分分析(PCA)は、n次元データをk次元データに変換して、機械学習の速度を上げるために使用されます。PCAが適用された後、元のデータセットの分散が結果のデータセットにどれだけ残っているかを確認できます。一般的な目標は、90%と99%の間の差異を維持することです。 私の質問は、kパラメータの異なる値(結果のデータセットの次元のサイズ)を試してから、選択したのと同じ方法で、いくつかの相互検証データセットに対して結果のモデルの結果を確認することをお勧めします。正則化ラムダやしきい値のような他のハイパーパラメーターの良い値は?

2
分散PCAの仕組みを理解する
ビッグデータ分析プロジェクトの一環として、 クラウドコンピューティングシステムを使用して、一部のデータに対してPCAを実行する必要があります。 私の場合、私は仕事、特にSparkにAmazon EMRを使用しています。 「How to-Perform-PCA-in-Spark」の質問はさておき、クラウドベースのアーキテクチャでPCを計算する場合、舞台裏で物事がどのように機能するかを理解したいと思います。 たとえば、データのPCを決定する手段の1つは、特徴の共分散行列を計算することです。 たとえば、HDFSベースのアーキテクチャを使用している場合、元のデータは複数のノードに分散されており、各ノードがXレコードを受信して​​いると思います。 次に、各ノードに部分的なデータしかない場合、共分散行列はどのように計算されますか? これは単なる例です。私は、このすべての舞台裏のブードゥー教を説明する紙やドキュメントを探していますが、自分のニーズ(おそらく、Googleのスキルが低い)に対して十分なものを見つけることができませんでした。 だから私は基本的に私の質問を要約することができます\は以下でなければなりません: 1.クラウドアーキテクチャ上の分散型PCAの仕組み できれば、いくつかの学術論文またはその他の種類の説明も含みます。 2. D-PCAのSpark実装 Sparkはそれをどのように行うのですか?彼らはそれをより効率的にするために彼らのアーキテクチャに「ひねり」を持っていますか、またはRDDオブジェクトの使用はどのように効率の改善に貢献していますか?等 それに関するオンラインレッスンのプレゼンテーションも素晴らしいでしょう。 いくつかの読書資料を提供できる人には、事前に感謝します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.