タグ付けされた質問 「feature-selection」

さらなるモデリングで使用する属性のサブセットを選択する方法と原則

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3
機能の選択は必要ですか?
データセットでランダムフォレスト、勾配ブースティング、SVMなどの機械学習モデルを実行したいと思います。データセットには200を超える予測変数があり、ターゲットクラスはバイナリ変数です。 モデルフィッティングの前に特徴選択を実行する必要がありますか?すべての予測子変数を使用してモデルを直接当てはめると、モデルのパフォーマンスに大きな影響を与えますか、それとも大きな違いはありませんか?

3

1
ランダムフォレストと線形回帰による機能の重要性が異なります
ラッソを適用して機能をランク付けし、次の結果を得ました。 rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 データセットには3つのラベルがあることに注意してください。異なるラベルの機能のランキングは同じです。 次に、同じデータセットにランダムフォレストを適用しました。 rank feature score =================================== 1 b 0.17504808300002753 6 a 0.05132699243632827 8 c 0.041690685195283385 ラッソが作成したものとは非常に異なるランキングであることに注意してください。 違いをどのように解釈しますか?基礎となるモデルが本質的に非線形であることを意味しますか?

1
サポートベクターマシンの機能選択
私の質問は3つあります 「カーネル化された」サポートベクターマシンのコンテキストでは 変数/機能の選択は望ましいですか-特にパラメーターCを正規化して過剰適合を防止しているため、SVMにカーネルを導入する背後にある主な動機は問題の次元数を増やすことです。 最初の質問への回答が「いいえ」の場合、次に、どの条件で回答を変更すればよいのですか? Pythonのscikit-learnライブラリにSVMの機能削減をもたらすために試された良い方法はありますか?私はSelectFprメソッドを試して、さまざまな方法の経験を持つ人を探しています。

1
信号エンコーディングの学習
マンチェスターでエンコードされたビットストリームをオーディオ信号として表す多数のサンプルがあります。それらがエンコードされる周波数は、それが高い場合の主要な周波数成分であり、バックグラウンドに一定量のホワイトノイズがあります。 これらのストリームを手動でデコードしましたが、なんらかの機械学習手法を使用してエンコードスキームを学習できるかどうか疑問に思っていました。これにより、これらのスキームを手動で認識する時間を大幅に節約できます。難点は、異なる信号は異なる方法でエンコードされることです。 複数のエンコード方式のデコードを学習できるモデルを構築することは可能ですか?そのようなモデルはどの程度堅牢であり、どのような手法を採用したいですか?独立成分分析(ICA)は、気になる周波数を分離するのに役立つようですが、エンコードスキームをどのように学習しますか?


1
ドキュメント分類:機能フィルタリングの前または後のtf-idf?
文書分類プロジェクトで、サイトのコンテンツを取得し、コンテンツに応じて多数のラベルの1つをWebサイトに割り当てています。 これにはtf-idfが非常に役立つことがわかりました。しかし、それをいつ使うべきか正確には分かりませんでした。 特定のトピックに関連するウェブサイトが繰り返し言及していると仮定すると、これは私の現在のプロセスでした: サイトのコンテンツを取得し、プレーンテキストを解析する コンテンツの正規化とステム トークン化してユニグラムにします(おそらくバイグラムも) 指定されたドキュメントの各ユニグラムの数を取得し、長さが短く出現頻度の低い単語をフィルタリングします 結果セットでNaiveBayesなどの分類子をトレーニングします 私の質問は次のとおりです:tf-idfはここにどこに適合しますか?正規化/ステミングの前に?正規化後、トークン化前?トークン化した後? どんな洞察もいただければ幸いです。 編集: よく調べてみると、TF-IDFの動作について誤解していたのではないかと思います。上記のステップ4 で、データ全体を一度にTF-IDF にフィードする必要がありますか?たとえば、私のデータが次のような場合: [({tokenized_content_site1}, category_string_site1), ({tokenized_content_site2}, category_string_site2), ... ({tokenized_content_siten}, category_string_siten)}] ここで、最も外側の構造は、タプルを含み、辞書(またはハッシュマップ)と文字列を含むリストです。 私が養うために必要があります全体所望の効果を達成するために、一度にTF-IDFの計算にそのデータのか?具体的には、これを行うためにscikit-learn TfidfVectorizerを検討してきましたが、例がかなりまばらなので、その使用については少しわかりません。

3
アプリケーション内のユーザーアクティビティを追跡するための機能選択
アプリケーション内のユーザーアクティビティの「コンテキスト」をキャプチャすることを目的としたシステムを開発しています。これは、システムに対して行われたリクエストに基づいてユーザーのアクティビティにタグを付けるためにWebアプリケーションが使用できるフレームワークです。このデータがコンテキスト認識情報検索などのML機能を強化できることが期待されます。 これらのユーザータグに加えて、どの機能を選択するかを決定するのに苦労しています-要求されているURL、任意のリソースで費やされたおおよその時間、システム内の現在の「アクティビティ」の見積もり。 ACM DLをざっと検索したところ、関連する論文がいくつか見つかりましたが、実際に見つかるものはありませんでした。

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

4
常に利用できるとは限らない機能をどのように処理しますか?
機能ベクトルに、常に利用できるとは限らない機能があります(一部のサンプルでは)使用しても意味がありません。この特徴ベクトルをsklearn MLPClassifierに与えます。機能がその決定に使用する意味があるときにニューラルネットワークはそれ自体で学習しますか、または機能ベクトルにフラグを追加する必要がありますか?たとえば、意味がある場合は「1」、意味がない場合は「0」 。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.