タグ付けされた質問 「naive-bayes-classifier」

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Naive Bayes Classifierの計算でゼロ係数を処理する方法は?
トレーニングデータセットがあり、その上でNaive Bayes Classifierをトレーニングし、確率がゼロの属性値がある場合。後で新しいデータの分類を予測する場合、これをどのように処理しますか?問題は、計算にゼロがある場合、他の解を見つける可能性のある他の値をいくつ取得しても、製品全体がゼロになることです。 例: P(x|spam=yes)=P(TimeZone=US|spam=yes)⋅P(GeoLocation=EU|spam=yes)⋅ ... =0.004P(x|spam=yes)=P(TimeZone=US|spam=yes)⋅P(GeoLocation=EU|spam=yes)⋅ ... =0.004P(x|spam=yes) = P(TimeZone = US | spam=yes) \cdot P(GeoLocation = EU | spam = yes) \cdot ~ ... ~ = 0.004 P(x | s p a m = n o )= P(Tiは、mはE Zo n e = US| spam=no)⋅ P(G e o L …

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
Pythonで補完的な単純ベイズを実装しますか?
問題 犯罪データのラベルが付けられたデータセットでナイーブベイを使用してみましたが、結果は非常によくありません(7%の精度)。Naive Bayesは、これまで使用してきた他のアルゴリズムよりもはるかに高速に実行されるため、スコアが非常に低い理由を調べてみました。 研究 読んだ後、ナイーブベイは頻度の高いクラスに偏りがあるため、バランスのとれたデータセットで使用する必要があることに気付きました。私のデータは不均衡なので、データスキューを処理するために特別に作成されているので、補完的な単純ベイズを使用してみました。プロセスを説明する論文では、アプリケーションはテキスト分類用ですが、この手法が他の状況で機能しない理由はわかりません。ここで私が言及している論文を見つけることができます。つまり、クラスが表示されない発生に基づいて重みを使用するという考え方です。 いくつかの調査を行った後、Javaでの実装を見つけることができましたが、残念ながらJavaを知りませんし、自分で実装するためのアルゴリズムを十分に理解していません。 質問 Pythonでの実装はどこにありますか?それが存在しない場合、自分で実装するにはどうすればよいですか?

1
マルチラベルテキスト分類の単純ベイズ
Rでマルチラベルテキスト分類にNaive Bayesを使用する方法 e1071ライブラリのnaiveBayes()を使用してみましたが、トレーニング中にマルチラベルクラス変数を受け入れないようです。 テキストドキュメントコーパスを使用してTermDocumentMatrixを作成し、このマトリックスとクラス変数(特定のドキュメントが属するトピックのリスト)を使用してモデルを作成しようとしました。以下は私が使用したコードです。 trainvector <- as.vector(traindata$bodyText) trainsource <- VectorSource(trainvector) traincorpus <- Corpus(trainsource) trainmatrix <- t(TermDocumentMatrix(traincorpus)) model <- naiveBayes(as.matrix(trainmatrix), as.factor(traindata$topics)) 最後の行は以下のエラーを示します: Error in sort.list(y) : 'x' must be atomic for 'sort.list' リストで「並べ替え」を呼び出しましたか? 使ってみた model <- naiveBayes(as.matrix(trainmatrix), as.factor(unlist(traindata$topics))) エラーが発生しました: Error in tapply(var, y, mean, na.rm = TRUE) : arguments must have …

1
単純ベイズの理解:条件付き確率の計算
感情分析のタスクとして、で表されるクラスと機能とします。ccciii 各クラスの条件付き確率は次のように表すことができます ここで、は各特徴を表し、はクラスです我々は持っています。次に、経験的に、 ことができます。ここで:P(c|wi)=P(wi|c)⋅P(c)P(wi)P(c|wi)=P(wi|c)⋅P(c)P(wi)P(c | w_i) = \frac{P(w_i|c) \cdot P(c)}{P(w_i)}wiwiw_icccP(wi|c)=ncincP(wi|c)=ncincP(w_i|c) = \frac{n_{ci}}{n_c} P(wi)=ninP(wi)=ninP(w_i) = \frac{n_{i}}{n}P(c)=ncnP(c)=ncnP(c) = \frac{n_c}{n} nnnは、すべてのクラスの特徴の総数です。 ncincin_{ci}は、クラスその特徴カウント数を表し。iiiccc ncncn_cは、クラスの機能の総数です。 ninin_iは、すべてのクラスの機能の総数です。 上記の私の理解は正しいですか?したがって、各単語のこれらの確率を考えると、私は単純なベイズの仮定です。単語は独立しているため、特定のクラスのドキュメントの各単語を単純に乗算します。つまり、ここで、はドキュメント内の単語数です。これは正しいです?P(c|wi)P(c|wi)P(c|w_i)∏P(c|wi),i∈N∏P(c|wi),i∈N\prod P(c|w_i), i \in NNNN 条件付き確率を数値で実際に計算するには、次のことを行えば十分でしょうか。 P(c|wi)=P(wi|c)⋅P(c)P(wi)=ncinc⋅ncn⋅nni=nciniP(c|wi)=P(wi|c)⋅P(c)P(wi)=ncinc⋅ncn⋅nni=nciniP(c | w_i) = \frac{P(w_i|c) \cdot P(c)}{P(w_i)} = \frac{n_{ci}}{n_c} \cdot \frac{n_c}{n}\cdot \frac{n}{n_i} = \frac{n_{ci}}{n_i} 方程式の最後の部分は、かなり複雑な確率を計算するには単純すぎるように思えるため、私には少し疑わしく見えます。

1
素朴なベイズは欠けている機能を想定して予測を生成する必要があります(scikit学習)
Naive Bayesが確率を使用して予測を行い、特徴を互いに条件付きで独立しているものとして扱うことを考えると、テストデータにいくつかの特徴が欠落している場合、モデルは依然として予測を行うことができます。 欠落しているデータを補完することは一般的な慣行であることは知っていますが、いくつかの欠落している機能があると仮定して、ナイーブベイズが予測を行うことができるはずなのに、なぜこれを行うのですか? これはsci-kit学習に実装できますか?機能の少ないテストセットを試しましたが、形状が整列していないためValueErrorが発生しました。 理論的にはこれは可能ですが、scikit学習では可能ですか?

1
単純ベイズ分類器はトレーニングで欠落データをどのように処理しますか?
Naive Bayesは、トレーニングまたはテスト/分類インスタンスに存在するかどうかに応じて、欠落データを異なる方法で処理します。 インスタンスを分類するとき、欠損値のある属性は確率計算に含まれません(http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf) トレーニングでは、「[値が不足している]インスタンスは、属性値とクラスの組み合わせの頻度カウントに含まれていません。」(http://www.csee.wvu.edu/~timm/cs591o/old/BasicMethods.html) これは、特定のトレーニングレコードがトレーニングフェーズに含まれていないことを意味しますか?それとも別の意味ですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.