データサイエンス naive-bayes-classifier

1

xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか？

私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木（！）1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、下記参照。 XGBoostがこれほど速くなったのはなぜですか？sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか？それとも、「角を切り」、より浅い木を育てるのですか？ PS私はこの議論を知っています：https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

1

Naive Bayes Classifierの計算でゼロ係数を処理する方法は？

13 classification naive-bayes-classifier

3

数学の畳み込みとCNNの関係

畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか？gウェイトをかけるフィルターのような機能ですか？

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

2

Pythonで補完的な単純ベイズを実装しますか？

問題犯罪データのラベルが付けられたデータセットでナイーブベイを使用してみましたが、結果は非常によくありません（7％の精度）。Naive Bayesは、これまで使用してきた他のアルゴリズムよりもはるかに高速に実行されるため、スコアが非常に低い理由を調べてみました。研究読んだ後、ナイーブベイは頻度の高いクラスに偏りがあるため、バランスのとれたデータセットで使用する必要があることに気付きました。私のデータは不均衡なので、データスキューを処理するために特別に作成されているので、補完的な単純ベイズを使用してみました。プロセスを説明する論文では、アプリケーションはテキスト分類用ですが、この手法が他の状況で機能しない理由はわかりません。ここで私が言及している論文を見つけることができます。つまり、クラスが表示されない発生に基づいて重みを使用するという考え方です。いくつかの調査を行った後、Javaでの実装を見つけることができましたが、残念ながらJavaを知りませんし、自分で実装するためのアルゴリズムを十分に理解していません。質問 Pythonでの実装はどこにありますか？それが存在しない場合、自分で実装するにはどうすればよいですか？

9 machine-learning classification python naive-bayes-classifier

1

マルチラベルテキスト分類の単純ベイズ

Rでマルチラベルテキスト分類にNaive Bayesを使用する方法 e1071ライブラリのnaiveBayes（）を使用してみましたが、トレーニング中にマルチラベルクラス変数を受け入れないようです。テキストドキュメントコーパスを使用してTermDocumentMatrixを作成し、このマトリックスとクラス変数（特定のドキュメントが属するトピックのリスト）を使用してモデルを作成しようとしました。以下は私が使用したコードです。 trainvector <- as.vector(traindata$bodyText) trainsource <- VectorSource(trainvector) traincorpus <- Corpus(trainsource) trainmatrix <- t(TermDocumentMatrix(traincorpus)) model <- naiveBayes(as.matrix(trainmatrix), as.factor(traindata$topics)) 最後の行は以下のエラーを示します： Error in sort.list(y) : 'x' must be atomic for 'sort.list' リストで「並べ替え」を呼び出しましたか？使ってみた model <- naiveBayes(as.matrix(trainmatrix), as.factor(unlist(traindata$topics))) エラーが発生しました： Error in tapply(var, y, mean, na.rm = TRUE) : arguments must have …

8 multilabel-classification naive-bayes-classifier

1

単純ベイズの理解：条件付き確率の計算

感情分析のタスクとして、で表されるクラスと機能とします。ccciii 各クラスの条件付き確率は次のように表すことができますここで、は各特徴を表し、はクラスです我々は持っています。次に、経験的に、ことができます。ここで：P(c|wi)=P(wi|c)⋅P(c)P(wi)P(c|wi)=P(wi|c)⋅P(c)P(wi)P(c | w_i) = \frac{P(w_i|c) \cdot P(c)}{P(w_i)}wiwiw_icccP(wi|c)=ncincP(wi|c)=ncincP(w_i|c) = \frac{n_{ci}}{n_c} P(wi)=ninP(wi)=ninP(w_i) = \frac{n_{i}}{n}P(c)=ncnP(c)=ncnP(c) = \frac{n_c}{n} nnnは、すべてのクラスの特徴の総数です。 ncincin_{ci}は、クラスその特徴カウント数を表し。iiiccc ncncn_cは、クラスの機能の総数です。 ninin_iは、すべてのクラスの機能の総数です。上記の私の理解は正しいですか？したがって、各単語のこれらの確率を考えると、私は単純なベイズの仮定です。単語は独立しているため、特定のクラスのドキュメントの各単語を単純に乗算します。つまり、ここで、はドキュメント内の単語数です。これは正しいです？P(c|wi)P(c|wi)P(c|w_i)∏P(c|wi),i∈N∏P(c|wi),i∈N\prod P(c|w_i), i \in NNNN 条件付き確率を数値で実際に計算するには、次のことを行えば十分でしょうか。 P(c|wi)=P(wi|c)⋅P(c)P(wi)=ncinc⋅ncn⋅nni=nciniP(c|wi)=P(wi|c)⋅P(c)P(wi)=ncinc⋅ncn⋅nni=nciniP(c | w_i) = \frac{P(w_i|c) \cdot P(c)}{P(w_i)} = \frac{n_{ci}}{n_c} \cdot \frac{n_c}{n}\cdot \frac{n}{n_i} = \frac{n_{ci}}{n_i} 方程式の最後の部分は、かなり複雑な確率を計算するには単純すぎるように思えるため、私には少し疑わしく見えます。

7 machine-learning nlp naive-bayes-classifier sentiment-analysis natural-language-process

1

素朴なベイズは欠けている機能を想定して予測を生成する必要があります（scikit学習）

Naive Bayesが確率を使用して予測を行い、特徴を互いに条件付きで独立しているものとして扱うことを考えると、テストデータにいくつかの特徴が欠落している場合、モデルは依然として予測を行うことができます。欠落しているデータを補完することは一般的な慣行であることは知っていますが、いくつかの欠落している機能があると仮定して、ナイーブベイズが予測を行うことができるはずなのに、なぜこれを行うのですか？これはsci-kit学習に実装できますか？機能の少ないテストセットを試しましたが、形状が整列していないためValueErrorが発生しました。理論的にはこれは可能ですが、scikit学習では可能ですか？

7 scikit-learn naive-bayes-classifier missing-data

1

単純ベイズ分類器はトレーニングで欠落データをどのように処理しますか？

Naive Bayesは、トレーニングまたはテスト/分類インスタンスに存在するかどうかに応じて、欠落データを異なる方法で処理します。インスタンスを分類するとき、欠損値のある属性は確率計算に含まれません（http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf）トレーニングでは、「[値が不足している]インスタンスは、属性値とクラスの組み合わせの頻度カウントに含まれていません。」（http://www.csee.wvu.edu/~timm/cs591o/old/BasicMethods.html）これは、特定のトレーニングレコードがトレーニングフェーズに含まれていないことを意味しますか？それとも別の意味ですか？

7 machine-learning data-mining classification naive-bayes-classifier

タグ付けされた質問 「naive-bayes-classifier」

タグ付けされた質問「naive-bayes-classifier」