タグ付けされた質問 「feature-selection」

さらなるモデリングで使用する属性のサブセットを選択する方法と原則

2
NLPの分類プロセスで解析ツリーのどの機能が一般的に使用されますか?
さまざまなタイプの解析ツリー構造を調査しています。2つの広く知られている解析ツリー構造は、a)Constituencyベースの解析ツリーとb)Dependencyベースの解析ツリー構造です。 スタンフォードNLPパッケージを使用して、両方のタイプの解析ツリー構造を生成できます。ただし、これらのツリー構造を分類タスクに使用する方法がわかりません。 たとえば、感情分析を行い、テキストをポジティブクラスとネガティブクラスに分類したい場合、分類タスクの解析ツリー構造からどのような特徴を導き出すことができますか?


1
回帰のための高カーディナリティのカテゴリカル機能を備えた機能の重要性(数値依存変数)
私はランダムフォレストの機能の重要度を使用して、すべての機能がカテゴリカルであり、それらの多くに多くのレベル(100〜1000のオーダー)がある回帰問題の経験的な機能選択を実行しようとしました。ワンホットエンコーディングでは、各レベルにダミー変数が作成されるため、機能の重要性は各機能(列)ではなく、各レベルにあります。これらの機能の重要性を集計する良い方法は何ですか? 機能のすべてのレベルの平均の重要度を合計または取得することを考えました(おそらく、前者はより多くのレベルの機能に偏っています)。この問題に関する参考資料はありますか? 機能の数を減らすために他に何ができますか?私はグループなげなわを知っています、scikit-learnに使いやすいものを見つけることができませんでした。

1
scikit-learnを使用したランダムフォレストでの機能重要度を使用した機能選択
scikit-learnを使用して、ランダムフォレストの機能の重要性をプロットしました。ランダムフォレストを使用して予測を改善するには、プロット情報を使用してフィーチャを削除するにはどうすればよいですか?つまり、プロット情報に基づいて、フィーチャが無用であるか、ランダムフォレストのパフォーマンスの低下をさらに悪化させるかを特定する方法を教えてください。プロットは属性に基づいておりfeature_importances_、分類子を使用していsklearn.ensemble.RandomForestClassifierます。 機能選択には他にも手法があることは承知していますが、この質問では機能の使い方に焦点を当てたいと思いますfeature_importances_。 そのような特徴重要度プロットの例:

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
特徴抽出手法-データシーケンスの要約
シーケンスであるいくつかの予測変数があるモデル(分類または回帰)を構築することがよくあり、モデルに予測子として含めるために可能な限り最良の方法でそれらを要約するための手法の推奨事項を見つけようとしています。 具体的な例として、顧客が次の90日間(tからt + 90の間のいつでも、したがってバイナリの結果)に会社を去るかどうかを予測するモデルが構築されているとします。利用可能な予測子の1つは、期間t_0からt-1までの顧客の財政収支のレベルです。たぶん、これは過去12か月間の毎月の観測値(つまり、12の測定値)を表します。 このシリーズから機能を構築する方法を探しています。平均、高、低、標準偏差などの各顧客シリーズの説明を使用し、OLS回帰を当てはめて傾向を取得します。彼らの特徴を計算する他の方法はありますか?変化または変動性の他の測定? 追加: 以下の応答で述べたように、動的タイムワーピング(DTW)を使用して、結果の距離行列で階層的クラスタリングを行うことも検討しました(ただし、ここに追加するのを忘れました)。いくつかのクラスターを作成し、機能としてクラスターメンバーシップを使用します。スコアリングテストデータは、新しいケースとクラスターの重心でDTWが実行されたプロセスに従う必要があります-新しいデータシリーズを最も近い重心に一致させる...

4
どちらが先か:アルゴリズムのベンチマーク、機能の選択、パラメーターの調整?
例えば分類をしようとするとき、私のアプローチは現在 最初にさまざまなアルゴリズムを試し、それらをベンチマークする 上記の1から最適なアルゴリズムで特徴選択を実行する 選択した機能とアルゴリズムを使用してパラメーターを調整する ただし、他のアルゴリズムが最適なパラメーター/最適な機能で最適化されている場合、選択したアルゴリズムよりも優れたアルゴリズムがある可能性があることを自分で納得できないことがよくあります。同時に、すべてのアルゴリズム*パラメータ*機能で検索を実行すると、時間がかかりすぎます。 適切なアプローチ/シーケンスに関する提案はありますか?


2
データの線形回帰とスケーリング
次のプロットは、線形回帰で得られた係数を示しています(mpgターゲット変数として、その他すべてを予測子として)。 データをスケーリングする場合としない場合の両方のmtcarsデータセット(こことここ)の場合: これらの結果をどのように解釈しますか?変数hpとdispは、データがスケーリングされている場合にのみ重要です。あるamとqsec同様に重要であるかamよりも重要qsec?どちらの変数が重要な決定要因mpgか? あなたの洞察をありがとう。

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
特徴選択方法のパフォーマンスを比較する方法は?
いくつかの特徴選択 /変数選択アプローチがあります(たとえば、Guyon&Elisseeff、2003 ; Liu et al。、2010を参照): フィルター方法(例:相関ベース、エントロピーベース、ランダムフォレスト重要度ベース)、 ラッパーメソッド(たとえば、前方検索、山登り検索)、および 特徴選択がモデル学習の一部である埋め込みメソッド。 公開されているアルゴリズムの多くは、R、Pythonなどの機械学習ツールにも実装されています。 異なる特徴選択アルゴリズムを比較し、特定の問題/データセットに最適な方法を選択するための適切な方法は何ですか?さらなる質問は、特徴選択アルゴリズムのパフォーマンスを測定する既知のメトリックがあるかどうかです。

4
特徴選択と分類精度の関係
分類器で使用可能な機能のサブセットを選択する方法の1つは、基準(情報ゲインなど)に従ってそれらをランク付けし、分類器とランク付けされた機能のサブセットを使用して精度を計算することです。 たとえば、フィーチャがA, B, C, D, Eであり、次のようD,B,C,E,Aにランク付けされている場合は、精度を計算しD、D, B次にD, B, C、次にD, B, C, E... を使用して、精度が低下し始めます。減少し始めたら、機能の追加を停止します。 例1(上記)ではF, C, D, A、精度を低下させるため、フィーチャを選択し、他のフィーチャをドロップします。 その方法では、モデルに機能を追加すると、特定の時点まで分類子の精度が向上し、その後、機能を追加すると精度が低下すると想定しています(例1を参照)。 しかし、私の状況は異なります。上記の方法論を適用しましたが、機能を追加すると精度が低下し、その後は精度が上がることがわかりました。 このようなシナリオでは、どのように機能を選択しますか?F残りをピックアンドドロップするだけですか?なぜ精度が低下してから上昇するのか、何かご存知ですか


3
GPS座標(緯度と経度)を線形モデルのフィーチャとして使用できますか?
多くの機能の中で、GPS座標(緯度と経度)を含むデータセットがあります。これらのデータセットを使用して、次のような問題を調査したいと思います。(2)特定のポイントの犯罪の量を推定する。 線形回帰モデルを使用したいのですが。ただし、これらのGPS座標を線形モデルで直接使用できますか? 緯度と経度には、人の年齢などの序数プロパティはありません。たとえば、2つのポイント(40.805996、-96.681473)と(41.226682、-95.986587)には意味のある順序がないようです。それらは空間の単なるポイントです。それらを明確な米国の郵便番号に置き換えてから、ワンホットエンコーディングを行うことを考えていましたが、その結果、多くの変数が発生します。

2
テストデータの機能がトレーニングデータよりも少ない場合はどうすればよいですか?
店舗の売上を予測していて、トレーニングデータに2つの機能セットがあるとします。 日付のある店舗の売上に関する1つ(「店舗」フィールドは一意ではありません) 店舗タイプに関する1つ(「店舗」フィールドはここでは一意です) したがって、マトリックスは次のようになります。 +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ | 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 | | 2 | 5 | 2015-07-31 | 6064.0 | 625.0 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.