タグ付けされた質問 「feature-extraction」

変数または(予測または説明に使用される)回帰または回帰のようなモデル(クラスタリング、判別のような)で使用されます。このタグを使用して、そのような変数の作成またはそれらの中から最適な変数を選択することについて質問します。



6
月と時間などの機能をカテゴリまたは数値としてエンコードしますか?
機械学習モデルで、月や時間などの機能を係数または数値としてエンコードする方が良いでしょうか? 一方で、時間は順方向に進行するプロセスであるため(5か月後に6か月が経過するため)、数値エンコードは合理的であると感じますが、一方で、周期的性質のためにカテゴリーエンコードがより合理的であると思います年と日(12番目の月の後に最初の月が続きます)。 これに一般的な解決策や慣習はありますか?

3
入力データの機能変換
私はこのOTTO Kaggleチャレンジのソリューションについて読んでいましたが、そもそもソリューションは入力データXにいくつかの変換、たとえばLog(X + 1)、sqrt(X + 3/8)などを使用しているようです。どの種類の変換をさまざまな分類子に適用するかに関する一般的なガイドラインは? 平均値と最小値と正規化の概念を理解しています。ただし、上記の変換では、データのダイナミックレンジを圧縮するためにLogとSqrtが使用されていると思います。また、x軸のシフトはデータを再センタリングするためのものです。ただし、著者は、異なる分類器に入力する場合、同じ入力Xに対して異なる正規化方法を使用することを選択します。何か案は?

3
周期的順序属性を変換する良い方法は何ですか?
属性として「時間」フィールドがありますが、周期的な値を取ります。「23」や「0」時間などの情報を保持するように機能を変換するにはどうすればよいでしょうか。 私が考えることができる1つの方法は、変換を行うことです: min(h, 23-h) Input: [0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23] Output: [0 1 2 3 4 5 6 7 8 9 10 11 11 10 9 8 7 6 5 4 …

3
未知の機能に対して機能エンジニアリングを実行する方法は?
私はkaggleコンテストに参加しています。データセットには約100個のフィーチャがあり、すべてが(実際にそれらが表すものに関して)不明です。基本的にそれらは単なる数字です。 これらの機能に対して多くの機能エンジニアリングが行われています。未知の機能に対してどのように機能エンジニアリングを実行できるのでしょうか?誰かがこれを理解するのを助けてもらえますか?また、未知の機能に対して機能エンジニアリングを実行する方法に関するヒントがありますか?

3
Pythonでの画像の特徴抽出
私のクラスでは、2つの分類器を使用してアプリケーションを作成し、画像内のオブジェクトがポルフィラ門(seasponge)または他のオブジェクトの例であるかどうかを判断する必要があります。 しかし、Pythonでの特徴抽出技術に関しては、完全に失われています。私のアドバイザーは、クラスでカバーされていない画像を使用するように私を説得しました。 誰もが意味のある文書や読書を検討したり、検討する方法を提案したりできますか?

2
ニューラルネットワークの機能を選択する方法は?
この質問に対する明確な答えはないことはわかっていますが、大量のデータを持つ巨大なニューラルネットワークがあり、入力に新しい機能を追加したいとします。「最良の」方法は、新しい機能を使用してネットワークをテストし、結果を確認することですが、機能が非常に役立つかどうかをテストする方法はありますか?相関測定(http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf)などが好きですか?

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
歪んだデータを正規分布に変換する理由
Kaggle(住宅価格に関するヒューマンアナログのカーネル:Advance Regression Techniques)での住宅価格競争の解決策を経験していて、この部分に出会いました: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 歪んだ分布を正規分布に変換する必要があるかどうかはわかりません。誰かが詳細に説明できますか: なぜこれがここで行われているのですか?またはこれはどのように役立ちますか? これは機能のスケーリングとどう違うのですか? これは機能エンジニアリングに必要なステップですか?この手順をスキップするとどうなりますか?

5
機能選択と機能抽出。いつ使用しますか?
特徴抽出と特徴選択は、データの次元を本質的に減らしますが、私が正しいなら、特徴抽出はデータをより分離可能にします。 どの技術が他よりも優先されますか? 機能選択は元のデータとそのプロパティを変更しないため、トレーニング中の機能を変更しないことが重要である場合は、機能選択を使用すると想定しています。しかし、なぜこのようなものが欲しいのか想像できません。

2
NLPの分類プロセスで解析ツリーのどの機能が一般的に使用されますか?
さまざまなタイプの解析ツリー構造を調査しています。2つの広く知られている解析ツリー構造は、a)Constituencyベースの解析ツリーとb)Dependencyベースの解析ツリー構造です。 スタンフォードNLPパッケージを使用して、両方のタイプの解析ツリー構造を生成できます。ただし、これらのツリー構造を分類タスクに使用する方法がわかりません。 たとえば、感情分析を行い、テキストをポジティブクラスとネガティブクラスに分類したい場合、分類タスクの解析ツリー構造からどのような特徴を導き出すことができますか?


3
NERの教師なし機能学習
私はCRFアルゴリズムを使用してNERシステムを実装し、非常に良い結果が得られた手作りの機能を使用しました。事は私がPOSタグや補題を含む多くの異なる機能を使用したということです。 今度は、異なる言語で同じNERを作成したいと思います。ここでの問題は、POSタグと補題を使用できないことです。ディープラーニングと教師なし機能学習に関する記事を読み始めました。 私の質問は: CRFアルゴリズムによる教師なし特徴学習の方法を使用することは可能ですか?誰かがこれを試して、良い結果を得ましたか?この問題に関する記事やチュートリアルはありますか? 私はまだこの機能作成方法を完全に理解していないので、機能しないものに多くの時間を費やしたくありません。だからどんな情報も本当に役立つでしょう。ディープラーニングに基づいてNERシステム全体を作成することは、今のところ少し重要です。

3
GPS座標(緯度と経度)を線形モデルのフィーチャとして使用できますか?
多くの機能の中で、GPS座標(緯度と経度)を含むデータセットがあります。これらのデータセットを使用して、次のような問題を調査したいと思います。(2)特定のポイントの犯罪の量を推定する。 線形回帰モデルを使用したいのですが。ただし、これらのGPS座標を線形モデルで直接使用できますか? 緯度と経度には、人の年齢などの序数プロパティはありません。たとえば、2つのポイント(40.805996、-96.681473)と(41.226682、-95.986587)には意味のある順序がないようです。それらは空間の単なるポイントです。それらを明確な米国の郵便番号に置き換えてから、ワンホットエンコーディングを行うことを考えていましたが、その結果、多くの変数が発生します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.