タグ付けされた質問 「encoding」

6
月と時間などの機能をカテゴリまたは数値としてエンコードしますか?
機械学習モデルで、月や時間などの機能を係数または数値としてエンコードする方が良いでしょうか? 一方で、時間は順方向に進行するプロセスであるため(5か月後に6か月が経過するため)、数値エンコードは合理的であると感じますが、一方で、周期的性質のためにカテゴリーエンコードがより合理的であると思います年と日(12番目の月の後に最初の月が続きます)。 これに一般的な解決策や慣習はありますか?

3
トランスフォーマーモデルの位置エンコーディングは何ですか?
私はMLを初めて使用するので、これが私の最初の質問です。私の質問が愚かであるとすみません。 私は紙を読んで理解しようとしています注意はあなたが必要なすべてであり、その中に写真があります: 位置エンコーディングが何であるかわかりません。いくつかのyoutubeビデオを聞いて、それは単語の意味と位置の両方を持つ埋め込みであり、sin(x)sin(x)sin(x)またはと関係があることがわかりましたcos(x)cos(x)cos(x) しかし、それが何であるのか、それがどの程度正確に行われているのか理解できませんでした。だから私はいくつかの助けのためにここにいます。前もって感謝します。

2
Sparse_categorical_crossentropy vs categorical_crossentropy(keras、精度)
どちらが正確性のために優れていますか、それとも同じですか?もちろん、categorical_crossentropyを使用する場合は1つのホットエンコーディングを使用し、sparse_categorical_crossentropyを使用する場合は通常の整数としてエンコードします。また、一方が他方より優れているのはいつですか?

3
OrdinalEncoderとLabelEncoderの違い
MLに関する本を読んだ後、scikit-learn learnの公式ドキュメントを調べていたところ、次のことに遭遇しました。 ドキュメンテーションではそれについて説明されていsklearn.preprocessing.OrdinalEncoder()ますが、本ではそれについて説明さsklearn.preprocessing.LabelEncoder()れていました。誰かが私に2つの違いを教えてくださいませんか?

1
ケラスを使用したマルチクラス分類で文字列ラベルを処理するにはどうすればよいですか?
私は機械学習とケラスの初心者であり、現在ケラスを使用してマルチクラスの画像分類問題に取り組んでいます。入力はタグ付き画像です。いくつかの前処理の後、トレーニングデータはPythonリストで次のように表されます。 [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] 「犬」、「猫」、および「鳥」はクラスラベルです。この問題にはワンホットエンコーディングを使用する必要があると思いますが、これらの文字列ラベルの処理方法についてはあまり明確ではありません。私はこの方法でsklearnのLabelEncoder()を試しました: encoder = LabelEncoder() trafomed_label = encoder.fit_transform(["dog", "cat", "bird"]) print(trafomed_label) そして、出力は[2 1 0]であり、これは[[1,0,0]、[0,1,0]、[0,0,1]]のような気まぐれな出力とは異なります。いくつかのコーディングで行うことができますが、それに対処するための「標準」または「伝統的な」方法があるかどうか知りたいですか?

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
大きなカテゴリ値のホットエンコーディングの代替手段の1つ?
こんにちは1600カテゴリを超える大きなカテゴリ値を持つデータフレームがあります。1600列を超えないように代替手段を見つける方法はありますか。 私はこれを興味深いリンクの下に見つけましたhttp://amunategui.github.io/feature-hashing/#sourcecode しかし、彼らは私が望まないクラス/オブジェクトに変換しています。さまざまな機械学習モデルでテストできるように、最終出力をデータフレームとして必要ですか?または、生成された行列を使用して、ロジスティック回帰またはXGBoost以外の他の機械学習モデルをトレーニングする方法はありますか? とにかく実装できますか?

1
グローバル圧縮方式とユニバーサル圧縮方式の違いは何ですか?
圧縮方法は主に2つのセットに分けられることを理解しています。 グローバル 地元 最初のセットは、処理されるデータに関係なく機能します。つまり、データの特性に依存しないため、データセットのどの部分でも(圧縮自体の前に)前処理を実行する必要はありません。一方、ローカルメソッドはデータを分析し、通常は圧縮率を向上させる情報を抽出します。 これらの方法のいくつかについて読んでいると、単項法は普遍的ではないことに気づきました。「グローバル性」と「普遍性」は同じものを指すと思っていたので驚きました。単項メソッドは、エンコードを生成するためにデータの特性に依存しません(つまり、グローバルメソッドです)。したがって、グローバル/ユニバーサルである必要があります。 私の主な質問: ユニバーサルメソッドとグローバルメソッドの違いは何ですか? これらの分類は同義語ではありませんか?

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.