タグ付けされた質問 「naive-bayes」

単純ベイズ分類器は、強い独立性の仮定を使用してベイズの定理を適用することに基づく単純な確率的分類器です。基礎となる確率モデルをより説明する用語は、「独立した特徴モデル」です。

1
単純ベイズ分類器が0-1損失に最適なのはなぜですか?
Naive Bayes分類器は、クラスメンバーシップの事後の最大化に基づいてアイテムバツバツxをクラス割り当て、アイテムの特徴が独立していると仮定する分類器です。P (C | x )CCCP(C| x)P(C|バツ)P(C|x) 0-1の損失は、分類ミスに「1」の損失を割り当て、正しい分類に「0」の損失を割り当てる損失です。 私はよく(1)「単純ベイズ」分類器が0-1の損失に最適であることを読みました。なぜこれが本当ですか? (1)1つの典型的なソース:ベイズ分類器とベイズエラー

3
Naive Bayesは確率を特徴としています:単語を二重にカウントすべきですか?
私は自分のNaive Bayesのバッグo '単語モデルのプロトタイプを作成していますが、機能の確率の計算について質問がありました。 私は2つのクラスを持っているとしましょう、それは誰もが使用するものなので、私はただスパムと非スパムを使用します。そして、「バイアグラ」という言葉を例に取りましょう。トレーニングセットには10​​通のメールがあり、5通のスパムと5通の非スパムがあります。「viagra」は、5つのスパム文書すべてに表示されます。トレーニングドキュメントの1つで、3回表示されます(これが私の質問です)。これは、合計で7回表示されます。非スパムトレーニングセットでは、1回表示されます。 p(viagra | spam)を推定したい場合、それは単純です: p(viagra | spam)= 5つのスパム文書にviagraが含まれる/合計5つのスパム文書= 1 言い換えれば、1つのドキュメントが1回ではなく3回バイアグラについて言及しているという事実は本当に重要ではないのでしょうか? 編集:ここに著者が私がちょうどレイアウトしたアプローチを使用するブログ投稿があります:http: //ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/ そして、ここに著者が言うブログ投稿があります:p(viagra | spam)= 7 viagra spam言及/合計8言及 http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -単純なベイズ分類器からドキュメント分類問題へ そして、以下の答えの1つは、それがあるべきだと言っています:p(viagra | spam)= 7 viagra言及のスパム/スパムの合計用語数 これについて意見を述べるソースに誰でもリンクできますか?


2
Akinator.comおよびNaive Bayes分類器
コンテキスト:私は、uniコースの統計で(半分忘れられた)経験があるプログラマーです。最近、私はhttp://akinator.comにつまずき、それを失敗させようといくつかの時間を費やしました。そして、誰がそうではなかったのですか?:) 私はそれがどのように機能するかを調べることにしました。グーグルで関連するブログ投稿を読んで、結果のミックスに私の(限られた)知識の一部を追加した後、次のモデルを思いつきます(間違った表記法を使用することを確信しています。そのために私を殺さないでください): サブジェクト(S)と質問(Q)があります。予測子の目標は、これまでに収集された質問と回答が与えられると、ユーザーが考えている主題である最大の事後確率を持つ主題Sを選択することです。 ゲームGを質問と回答のセットとします:。{q1,a1},{q2,a2}...{qn,an}{q1,a1},{q2,a2}...{qn,an}\{q_1, a_1\}, \{q_2, a_2\} ... \{q_n, a_n\} 次に、予測子はP (S | G )= P (G | S )∗ P (S )を探します。P(S|G)=P(G|S)∗P(S)P(G)P(S|G)=P(G|S)∗P(S)P(G)P(S|G) = \frac{P(G|S) * P(S)}{P(G)} 被験者の事前確率()は、被験者が推測された回数をゲームの総数で割ったものになります。P(S)P(S)P(S) すべての回答が独立しているという仮定を立てると、ゲームGが与えられた場合に被験者Sの尤度を次のように計算できます。 P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S) = \prod_{i=1..n} P(\{q_i, a_i\} | S) 使用者が与えられた主題を持っているときにどの質問と回答が与えられたかを追跡すれば、計算できます。P({qi,ai}|S)P({qi,ai}|S)P(\{q_i, a_i\} | S) P(q,a|S)=answer a was given to question q in the game …

2
単純なベイジアン分類器でどのようなことが予測できますか?
私は統計学の初心者です(大学のコースを1つだけ受講)、プログラミングの経験があります。 私はRubyのベイジアン分類子ライブラリを使い始めたばかりで、分析するためのアイデアを探しています。 今私はツイートの分類をいじっていますが、何かアイデアはありますか? さらに重要なことに、単純なベイジアン分類に役立つデータのタイプについてどのようにして知ることができますか。 ありがとう。

3
「良い」分類子は私の精密再現率曲線を破壊しました。どうした?
私は不均衡なデータを処理しています。そこでは、すべてのclass = 1に対して約40のclass = 0ケースがあります。個々の機能を使用してクラスを合理的に区別することができ、6つの機能でナイーブベイズとSVM分類器をトレーニングし、データのバランスをとることで、より良い識別が得られました(以下のROC曲線)。 それは結構です、そして私はうまくやっていると思いました。ただし、この特定の問題の慣例は、通常50%から90%の間の精度レベルでヒットを予測することです。例:「90%の精度でいくつかのヒットを検出しました。」これを試したところ、分類子から得られる最大精度は約25%でした(黒い線、下のPR曲線)。 PR曲線は不均衡に敏感でROC曲線はそうではないので、これをクラスの不均衡問題として理解できました。ただし、不均衡は個々の機能に影響を与えていないようです。個々の機能(青とシアン)を使用すると、かなり高い精度を得ることができます。 何が起こっているのかわかりません。結局のところ、データが非常に不均衡であるため、PRスペースですべてがうまく機能していなければ、それを理解できました。分類子がROC と PRの領域で見た目が悪い場合にも、それを理解できました。しかし、ROCによって判断されると分類子をより良くするために何が起こっているのですか? 編集:TPR /リコールの低い領域(TPRが0から0.35の間)では、個々の機能がROC曲線とPR曲線の両方の分類子を常に上回っていることに気付きました。多分私の混乱は、ROC曲線が高いTPR領域(分類器がうまく機能している場合)を「強調」し、PR曲線が低いTPR(分類器が悪い場合)を強調しているためです。 編集2:バランスの取れていないデータ、つまり生データと同じ不均衡でのトレーニングにより、PR曲線が復活しました(以下を参照)。私の問題は分類子の不適切なトレーニングだったと思いますが、何が起こったのか完全には理解できません。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
ナイーブベイズの人気は高まっていますか?どうして?
これは、2004年1月から2017年4月までの「ナイーブベイズ」のフレーズで取得したGoogleのトレンド結果です(リンク)。この図によると、2017年4月の「ナイーブベイズ」の検索率は、全期間の最大値よりも約25%高くなっています。これは、この単純で古い方法が注目を集めていることを意味しますか?どうして? (Sycoraxのコメントによる)合理的な説明は、この人気は機械学習への関心の高まりの間接的な影響であるということです。しかし、Naive Bayesなどのいくつかの方法は、決定木やSVMなどの他の方法よりも注目されているようです。これは、次の図から明らかです。

1
代数的分類子、詳細情報?
代数的分類器:高速交差検証、オンライントレーニング、並列トレーニングへの一般的なアプローチを読み、派生したアルゴリズムのパフォーマンスに驚かされました。ただし、Naive Bayes(およびGBM)を超えると、フレームワークに適応したアルゴリズムは多くないようです。 異なる分類子を扱った他の論文はありますか?(SVM、ランダムフォレスト)

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

4
ベイズ分類器の誤差を分析的に計算する
2つのクラスとw 2が既知のパラメーター(それらの平均として、と、はそれらの共分散)を持つ正規分布を持っている場合、それらのベイズ分類器の誤差を理論的にどのように計算できますか?w1w1w_1w2w2w_2M 2 Σ 1 Σ 2M1M1M_1M2M2M_2Σ1Σ1\Sigma_1Σ2Σ2\Sigma_2 また、変数がN次元空間にあるとします。 注:この質問のコピーはhttps://math.stackexchange.com/q/11891/4051からも入手できますが、未回答です。これらの質問のいずれかが回答されると、他の質問は削除されます。

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
連続変数の単純ベイズ
基本的な質問をさせてください。離散変数に対する単純ベイズのメカニズムを理解しており、計算を「手動」でやり直すことができます。(HouseVotes84のコードは以下の通りです)。 ただし-連続変数のメカニズムがどのように機能するかを確認するのに苦労しています(以下のコード例)。パッケージはどのように条件付き確率[, 1]を計算し[, 2]ますか、以下の表を参照してください 個々のX値は一意であるため、各ポイントの周囲に範囲を作成し、これらの範囲内の相対頻度を計算しますか(たとえば、ポイントが+0.311の場合、0.1および+0.5?)これは基本的な質問かもしれません-もしそうなら謝罪します。 テーブル A-priori probabilities: Y blue orange 0.5 0.5 Conditional probabilities: values Y [,1] [,2] blue 0.08703793 0.9238799 orange 1.33486433 0.9988389 コード blue=rep("blue",50); orange=rep("orange",50); colour=c(blue,orange); values1=rnorm(50,0,1); values2=rnorm(50,1,1); values=c(values1,values2) df=data.frame(colour,values) (model <- naiveBayes(colour ~ ., data = df)) (predict(model, df[1:10,])) (predict(model, df[1:10,], type = "raw")) (pred <- …
8 r  naive-bayes  bayes 

4
ベイジアン分類子は、数値メタデータを含むテキストに適したアプローチですか?
私のウェブサイトで詐欺広告を検出するためのアプローチを考え出そうとしています。詐欺を示す信号の多くは広告のテキスト内に見つかるので、問題はスパムメールの検出(多くの場合、単純なベイジアン分類器が一般的な解決策です)と多くの共通点があると思います。 ただし、他にも特定の詐欺インジケーターになる可能性のある情報がありますが、ベイズ分類器がそれらを使用できるかどうか/どのように使用できるかはわかりません。数値が関係しているためです(範囲の両端の値が疑わしいため)。テキスト内の単語の有無に対応する単純なバイナリ値よりも。 たとえば、多くの詐欺広告では、アイテムの価格が非常に低く設定されている(多くの視聴を引き付けるため)ので、広告が詐欺である可能性があることを示す強力な指標として、通常よりも低い価格を設定します。 ベイズはまだ私の要件に適していますか?そうでない場合は、別のアプローチをお勧めできますか?

3
アンサンブル分類器で分類はどのようにマージされますか?
アンサンブル分類器は、構成要素である分類器の予測をどのようにマージしますか?明確な説明が見つからない。私が見つけたいくつかのコード例では、アンサンブルは予測を平均化するだけですが、これがどのようにして「より良い」全体的な精度を実現できるかはわかりません。 次のケースを考えてください。アンサンブル分類子は、10個の分類子で構成されています。1つの分類子の精度は、データサブセットXの時間の100%、それ以外の時間はすべて0%です。他のすべての分類子の精度は、データサブセットXでは0%、その他の場合はすべて100%です。 分類器の精度が無視される平均化式を使用すると、集団分類器の精度はせいぜい50%になります。これは正しいですか、それとも何か不足していますか?N個の潜在的に無知な分類子から平均予測を取得すると、特定のドメインの専門家である単一の分類子よりも優れた予測を作成できる可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.