タグ付けされた質問 「feature-engineering」

データのドメイン知識を使用して、機械学習アルゴリズムを改善する機能を作成するプロセス

3
One Hot Encoding vs LabelEncoder vs DictVectorizo​​rを使用する場合
しばらくの間、カテゴリデータを使用してモデルを構築してきましたが、この状況では、基本的にscikit-learnのLabelEncoder関数を使用して、モデルを構築する前にこのデータを変換します。 私は違いを理解しOHE、LabelEncoderそしてDictVectorizor、彼らはデータに何をしているかという点では、しかし、あなたは他の上にある技術を採用することを選択する可能性がある場合、私には明確ではないものです。 あるものが他のものに対して利点/欠点を持っている特定のアルゴリズムまたは状況はありますか?

6
月と時間などの機能をカテゴリまたは数値としてエンコードしますか?
機械学習モデルで、月や時間などの機能を係数または数値としてエンコードする方が良いでしょうか? 一方で、時間は順方向に進行するプロセスであるため(5か月後に6か月が経過するため)、数値エンコードは合理的であると感じますが、一方で、周期的性質のためにカテゴリーエンコードがより合理的であると思います年と日(12番目の月の後に最初の月が続きます)。 これに一般的な解決策や慣習はありますか?


1
1つのホットベクトルを数値属性でスケーリングする必要があります
カテゴリ属性と数値属性の組み合わせを持つ場合、通常、カテゴリ属性を1つのホットベクトルに変換します。私の質問は、それらのベクトルをそのままにして、標準化/正規化を通じて数値属性をスケーリングするのですか、それとも数値属性とともに1つのホットベクトルをスケーリングするのですか?

3
未知の機能に対して機能エンジニアリングを実行する方法は?
私はkaggleコンテストに参加しています。データセットには約100個のフィーチャがあり、すべてが(実際にそれらが表すものに関して)不明です。基本的にそれらは単なる数字です。 これらの機能に対して多くの機能エンジニアリングが行われています。未知の機能に対してどのように機能エンジニアリングを実行できるのでしょうか?誰かがこれを理解するのを助けてもらえますか?また、未知の機能に対して機能エンジニアリングを実行する方法に関するヒントがありますか?

1
経度/緯度機能を扱う方法[終了]
閉じた。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善したいですか?詳細を追加し、この投稿を編集して問題を明確にします。 閉じた3年前。 25個の機能を持つ架空のデータセットに取り組んでいます。特徴の2つは場所の緯度と経度であり、その他はさまざまな範囲のpH値、標高、windSpeedなどです。他の機能で正規化を実行できますが、緯度/経度機能にどのようにアプローチしますか? 編集:これは、農業の収量を​​予測する問題です。緯度/経度は非常に重要だと思います。ロケーションは予測に不可欠であるため、ジレンマになります。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
歪んだデータを正規分布に変換する理由
Kaggle(住宅価格に関するヒューマンアナログのカーネル:Advance Regression Techniques)での住宅価格競争の解決策を経験していて、この部分に出会いました: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 歪んだ分布を正規分布に変換する必要があるかどうかはわかりません。誰かが詳細に説明できますか: なぜこれがここで行われているのですか?またはこれはどのように役立ちますか? これは機能のスケーリングとどう違うのですか? これは機能エンジニアリングに必要なステップですか?この手順をスキップするとどうなりますか?


4
これは特徴エンジニアリングの良い習慣ですか?
機能エンジニアリングについて実際的な質問があります...ロジスティック回帰を使用して住宅価格を予測し、郵便番号を含む一連の機能を使用したいとします。次に、機能の重要度を確認したところ、zipはかなり優れた機能であることがわかったので、zipに基づいていくつかの機能を追加することにしました。各ジップの病院の。これらの4つの新機能により、モデルのパフォーマンスが向上しました。だから私はさらにzip関連の機能を追加します...そしてこのサイクルが繰り返されます。最終的に、モデルはこれらのzip関連の機能によって支配されますよね? 私の質問: そもそもこれらを行うことには意味がありますか? はいの場合、このサイクルを停止するのに適切なタイミングを知るにはどうすればよいですか? そうでない場合、なぜでしょうか?

4
XGBoostを使用する場合、機能エンジニアリングはまだ有用ですか?
XGBoostに関する資料を読んでいました。この方法はツリーに基づいているため、変数のスケーリングを必要としないようです。この方法では、複雑な非線形パターン、相互作用をキャプチャできます。また、数値変数とカテゴリ変数の両方を処理でき、冗長な変数はこのメソッドにあまり影響を与えないようです。 通常、予測モデリングでは、所有しているすべての機能の中からいくつかを選択し、所有している一連の機能からいくつかの新しい機能を作成することもできます。したがって、機能のサブセットを選択すると、機能のセットに冗長性があると考えられます。現在の機能セットからいくつかの新しい機能を作成するということは、現在の機能に対して機能的な変換を行うことを意味します。次に、これら2つのポイントの両方をXGBoostでカバーする必要があります。では、XGBoostを使用するには、これらの調整パラメーターを賢く選択するだけでよいということですか。XGBoostを使用して機能エンジニアリングを行うことの価値は何ですか?


1
MLのセンサーからの時系列データの使用
小さなサイドプロジェクトについて次のデータがあります。それは、洗濯機/乾燥機の上に座っている加速度計からのものであり、マシンがいつ終了したかを教えてください。 xは入力データ(1つの値としてのx / y / z移動)、yはラベルのオン/オフ y = 1とy = 0のx値は重複しているため、xとローリング3分のウィンドウをSVMの入力として使用することを考えていました。 xyz60=res.xyz.resample("60S").max() X["x"]=xyz60 X["max3"]=xyz60.rolling(window=3, min_periods=1).max() これはこの種の問題に対する良いアプローチですか?より良い結果をもたらす可能性のある代替案はありますか?

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.