タグ付けされた質問 「multiclass-classification」

6
マルチクラス分類設定でのマイクロ平均とマクロ平均のパフォーマンス
3つのクラスでマルチクラス分類設定を試しています。クラス分布は歪んでおり、ほとんどのデータは3つのクラスのうち1つに分類されます。(クラスラベルは1,2,3で、データの67.28%がクラスラベル1に含まれ、11.99%のデータがクラス2にあり、クラス3に残ります) このデータセットでマルチクラス分類器をトレーニングしており、次のパフォーマンスが得られています。 Precision Recall F1-Score Micro Average 0.731 0.731 0.731 Macro Average 0.679 0.529 0.565 なぜすべてのマイクロ平均がわからないのか パフォーマンスは同等であり、マクロ平均パフォーマンスが非常に低い理由でもあります。

4
XGBoostを使用した不均衡なマルチクラスデータ
このディストリビューションには3つのクラスがあります。 Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 そして、私はxgboost分類に使用しています。というパラメータがあることを知っていますscale_pos_weight。 しかし、「マルチクラス」の場合はどのように処理され、どのように適切に設定できますか?

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
テキスト分類問題:Word2Vec / NNは最善のアプローチですか?
私は、テキストの段落が与えられれば、それを分類してコンテキストを特定できるシステムを設計しようと考えています。 ユーザーが作成したテキスト段落(コメント/質問/回答など)でトレーニングされている トレーニングセットの各アイテムには、のタグが付けられます。したがって、たとえば( "category 1"、、 "text段落") 何百ものカテゴリがあります そのようなシステムを構築するための最良のアプローチは何でしょうか?私はいくつかの異なるオプションを見てきましたが、以下は可能な解決策のリストです。Word2Vec / NNは現時点で最良のソリューションですか? 平均化されたWord2Vecデータが供給された再帰型ニューラルテンソルネットワーク RNTNとパラグラフベクトル(https://cs.stanford.edu/~quocle/paragraph_vector.pdf)? Deep Belief Networkで使用されるTF-IDF TF-IDFとロジスティック回帰 Bag of WordsとNaive Bayes分類


3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

4
SGDClassifier:以前は未知のラベルを使用したオンライン学習/ partial_fit
私のトレーニングセットには、約5万のエントリが含まれています。毎週、5,000エントリが追加されます。しかし、同じ量が「消えます」(しばらくしてから削除する必要のあるユーザーデータであるため)。 したがって、後で完全なデータセットにアクセスできないため、オンライン学習を使用します。現在は機能するを使用してSGDClassifierいますが、大きな問題があります。新しいカテゴリが表示され、最初のモデルにはなかったため、モデルを使用できなくなりましたfit。 SGDClassifierまたは他のモデルで方法はありますか?ディープラーニング? 今からゼロから始めなければならないかどうか(つまりSGDClassifier、以外のものを使用するかどうか)は関係ありませんが、新しいラベルでオンライン学習を可能にするものが必要です。

1
マルチクラスデータセットで誤った分類を引き起こす不均衡なデータ
39のカテゴリ/クラスと850万件のレコードがあるテキスト分類に取り組んでいます。(将来的にはデータとカテゴリーが増えるでしょう)。 私のデータの構造またはフォーマットは次のとおりです。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

1
時系列データを分類する最良の方法は何ですか?LSTMまたは別の方法を使用する必要がありますか?
生の加速度計データx、y、zを対応するラベルに分類しようとしています。 最良の結果を得るための最良のアーキテクチャは何ですか? または、入力ノードと出力ノードを備えたケラ上に構築されたLSTMアーキテクチャについて何か提案はありますか?

2
SPARK Mllib:マルチクラスロジスティック回帰、上位クラスではなくすべてのクラスの確率を取得する方法は?
LogisticRegressionWithLBFGSマルチクラス分類器のトレーニングに使用しています。 新しい目に見えないサンプルでモデルをテストするときに、すべてのクラス(最上位の候補クラスだけでなく)の確率を取得する方法はありますか? PS私は必ずしもLBFGS分類子を使用する義務があるわけではありませんが、私の問題ではロジスティック回帰を使用したいと思います。したがって、別のLR分類子タイプを使用した解決策がある場合は、それを採用します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.