タグ付けされた質問 「naive-bayes」

単純ベイズ分類器は、強い独立性の仮定を使用してベイズの定理を適用することに基づく単純な確率的分類器です。基礎となる確率モデルをより説明する用語は、「独立した特徴モデル」です。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
単純ベイズについて
StatSoft社(2013)、電子統計教科書、「ナイーブベイズ分類器」: 単純ベイズ分類の概念を示すために、上の図に表示されている例を考えてください。前述のように、オブジェクトは緑または赤に分類できます。私のタスクは、新しいケースが到着したときに分類することです。つまり、現在終了しているオブジェクトに基づいて、どのクラスラベルに属するかを決定します。 GREENオブジェクトはREDの2倍であるため、新しいケース(まだ観察されていない)がREDではなくGREENのメンバーシップを持っている可能性が2倍であると考えるのが合理的です。ベイジアン分析では、この信念は事前確率として知られています。事前確率は、過去の経験、この場合は緑と赤のオブジェクトの割合に基づいており、実際に発生する前に結果を予測するためによく使用されます。 したがって、次のように記述できます。 合計60個のオブジェクトがあり、そのうち40個が緑、20個が赤であるため、クラスメンバーシップの事前確率は次のとおりです。 事前確率を定式化したので、新しいオブジェクト(白丸)を分類する準備ができました。オブジェクトは十分にクラスター化されているため、Xの近くに緑(または赤)のオブジェクトが多いほど、新しいケースがその特定の色に属する可能性が高いと想定するのが妥当です。この尤度を測定するために、クラスラベルに関係なく(事前に選択される)多数のポイントを含むXの周りに円を描きます。次に、各クラスラベルに属する円内のポイントの数を計算します。これから、尤度を計算します: 上記の図から、GREENが与えられたXの尤度は、REDが与えられたXの尤度よりも小さいことが明らかです。副<文>この[前述の事実の]結果として、それ故に、従って、だから◆【同】consequently; therefore <文>このような方法で、このようにして、こんなふうに、上に述べたように◆【同】in this manner <文>そのような程度まで<文> AひいてはB◆【用法】A and thus B <文>例えば◆【同】for example; as an example: XがGREENに属している可能性があることを事前確率が示していますが(REDと比較して2倍のGREENがあると仮定)、そうでない可能性は示されます。XのクラスメンバーシップがREDであること(Xの近くにGREENよりも多くのREDオブジェクトがあると仮定)。ベイズ分析では、いわゆるベイズの規則(トーマス・ベイズ牧師1702-1761にちなんで名付けられた)を使用して事後確率を形成するために、両方の情報源、つまり事前確率と尤度を組み合わせることによって最終分類が生成されます。 最後に、クラスメンバーシップが最大の事後確率を達成するため、XをREDとして分類します。 これが私の数学の理解の難しさの出番です。 p(Cj | x1、x2、x ...、xd)は、クラスメンバーシップの事後確率、つまり、XがCjに属する確率ですが、なぜこのように書くのですか? 尤度の計算? 事後確率? 私は数学を学んだことは一度もありませんが、単純なベイズに対する私の理解は大丈夫です。これらのメソッドの視覚化と、わかりやすい方法で数学を書き出す方法を教えてください。

3
単純なベイジアン分類器のパフォーマンスが優れているのはなぜですか?
単純ベイズ分類器は、分類問題の一般的な選択肢です。これには、次のような多くの理由があります。 「Zeitgeist」-約10年前のスパムフィルターの成功後の広範な認識 書きやすい 分類子モデルの構築は高速です モデルを再構築することなく、新しいトレーニングデータでモデルを変更できます。 しかし、それらは「素朴」です-つまり、特徴が独立していると仮定します-これは、最大エントロピー分類器(計算が遅い)などの他の分類器とは対照的です。 独立性の仮定は通常仮定することができず、スパムフィルターの例を含む多くの(ほとんど?)場合、それは単に間違っています。 では、なぜ機能が互いに独立していない場合でも、Naive Bayes Classifierはそのようなアプリケーションで非常に優れたパフォーマンスを発揮するのでしょうか?

3
Naive Bayesはどのように線形分類器ですか?
私はここで他のスレッドを見ましたが、答えが実際の質問を満たしたとは思いません。私が絶えず読んでいるのは、Naive Bayesが線形分類器であるということです(例:ここ対数オッズデモンストレーションを使用し)である(線形決定境界を描画する)ことです。 ただし、2つのガウス雲をシミュレートし、決定境界に適合させて、そのような結果を得ました(naiveBayes()を使用してrのライブラリe1071) ご覧のとおり、決定境界は非線形です。パラメーター(条件付き確率)は、分類子自体がデータを線形に分離するというよりも、対数空間における線形結合であると言っているのですか?

2
単純ベイズと多項式単純ベイズの違い
以前、単純ベイズ分類器を扱ったことがあります。私は最近、多項ナイーブベイズについて読んでいます。 また、事後確率=(事前*尤度)/(証拠)。 Naive BayesとMultinomial Naive Bayesの間で見つけた唯一の主な違い(これらの分類子のプログラミング中)は、 多項ナイーブベイズする可能性を算出し、単語/トークンの数(確率変数)とナイーブベイズは、以下のことが可能性を計算します。 私が間違っている場合は修正してください!

7
Naive Bayesでは、テストセットに未知の単語があるのに、なぜラプラススムージングに悩まされるのですか?
今日は、単純ベイズ分類について読んでいた。追加のスムージングを使用したパラメーター推定の見出しの下で読みました: してみましょう(例えば正または負など)クラスを参照してください、としましょうトークンまたは単語を参照してください。cccwww の最尤推定量は、P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. この推定は、未知の単語を含むドキュメントに対して確率を与えるため、問題になる可能性があります。この問題を解決する一般的な方法は、ラプラス平滑化を使用することです。P(w|c)P(w|c)P(w|c)000 Vをトレーニングセット内の単語セットとし、単語セットに新しい要素(不明)を追加します。UNKUNKUNK 定義P(w | c )= カウント(w 、c )+ 1カウント(c )+ | V| +1、P(w|c)=カウント(w、c)+1カウント(c)+|V|+1、P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + …

3
クラスの確率を予測する機械学習
例が2つのクラスのいずれかに属する確率を出力する分類子を探しています。 ロジスティック回帰と単純ベイズを知っていますが、同様の方法で機能する他の製品について教えてください。つまり、例が属するクラスではなく、例が特定のクラスに適合する確率を予測する分類子ですか? これらのさまざまな分類器の長所と短所(ロジスティック回帰と単純ベイズを含む)について共有できる考えのボーナスポイント。たとえば、マルチクラス分類の方が良いでしょうか?

3
SVM以外に、どのアルゴリズムが機能のスケーリングを必要としますか?
RandomForest、DecisionTrees、NaiveBayes、SVM(kernel = linear and rbf)、KNN、LDA、XGBoostなどの多くのアルゴリズムを使用しています。SVMを除き、それらはすべて非常に高速でした。それは、機能のスケーリングを高速化する必要があることを知ったときです。それから、他のアルゴリズムにも同じことをすべきかと思い始めました。

1
Naive BayesはSVMよりも優れたパフォーマンスを発揮しますか?
私が探していた小さなテキスト分類の問題で、Naive BayesはSVMと同等以上のパフォーマンスを示しており、非常に混乱していました。 あるアルゴリズムが他のアルゴリズムよりも勝つことを決定する要因は何かと思いまして。SVMでNaive Bayesを使用しても意味がない状況はありますか?誰かがこれに光を当てることができますか?

3
Kneser-Neyスムージングでは、見えない単語はどのように処理されますか?
私が見たものから、(二次)Kneser-Ney平滑化式は何らかの形で次のように与えられます P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} 正規化係数次のように与えられますλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} および単語w_nの継続確率Pcont(wn)Pcont(wn)P_{cont}(w_n)wnwnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} ここで、N1+(∙w)N1+(∙w)N_{1+}\left(\bullet w\right)は、コンテキストwの数www、または単純に、特定の単語wの前にある個別の単語\ bulletの数です。私が理解したことから、式は再帰的に適用できます。∙∙\bulletwww 現在、これはさまざまなnグラム長の未知のコンテキストで既知の単語を適切に処理しますが、説明されていないのは、辞書にない単語がある場合の対処方法です。ユニグラムの再帰ステップでP_ {cont}(/)= P ^ 0_ {KN}(/)= \ …

3
なぜ誰もベイジアン多項式ナイーブベイズ分類器を使用しないのですか?
(教師なし)テキストモデリングでは、潜在ディリクレ割り当て(LDA)は確率的潜在セマンティック分析(PLSA)のベイジアンバージョンです。基本的に、LDA = PLSA + Dirichletはそのパラメーターよりも優先されます。私の理解では、LDAは現在、参照アルゴリズムであり、さまざまなパッケージに実装されていますが、PLSAはもう使用すべきではありません。 ただし、(教師付き)テキスト分類では、多項分布のナイーブベイズ分類器に対してまったく同じことを行い、パラメーターよりも先にディリクレを置くことができます。しかし、私は誰もそれをするのを見たことがないと思います、そして多項式のNaive Bayesの「ポイント推定」バージョンはほとんどのパッケージで実装されたバージョンのようです。その理由はありますか?

2
機能の数を増やすと精度は低下しますが、prec / recallは増加します
機械学習は初めてです。現時点では、NLTKとpythonを使用して、ナイーブベイズ(NB)分類器を使用して、3つのクラスの小さなテキストをポジティブ、ネガティブ、またはニュートラルとして分類しています。 300,000のインスタンス(16,924のポジティブ7,477のネガと275,599のニュートラル)で構成されるデータセットを使用していくつかのテストを行った後、フィーチャの数を増やすと、精度は低下しますが、ポジティブおよびネガティブクラスの精度/リコールは増加することがわかりました。これは、NB分類器の通常の動作ですか?より多くの機能を使用する方が良いと言えますか? 一部のデータ: Features: 50 Accuracy: 0.88199 F_Measure Class Neutral 0.938299 F_Measure Class Positive 0.195742 F_Measure Class Negative 0.065596 Features: 500 Accuracy: 0.822573 F_Measure Class Neutral 0.904684 F_Measure Class Positive 0.223353 F_Measure Class Negative 0.134942 前もって感謝します... 2011/11/26を編集 Naive Bayes分類器を使用して、3つの異なる機能選択戦略(MAXFREQ、FREQENT、MAXINFOGAIN)をテストしました。最初に、精度とクラスごとのF1メジャーを示します。 次に、トップ100およびトップ1000の機能でMAXINFOGAINを使用するときに、トレーニングセットを増分してトレインエラーとテストエラーをプロットしました。 したがって、FREQENTを使用すると最高の精度が得られますが、MAXINFOGAINを使用したものが最適な分類器であるように思えますが、これは正しいですか?上位100個の機能を使用する場合、バイアスがあり(テストエラーはトレーニングエラーに近い)、トレーニングサンプルを追加しても役に立ちません。これを改善するには、さらに機能が必要です。1000個の機能を使用すると、バイアスは減少しますが、エラーは増加します... さらに機能を追加する必要がありますか?私はこれをどう解釈するか本当にわかりません... 再度、感謝します...

5
1クラスのテキスト分類を行う方法
テキスト分類の問題に対処する必要があります。Webクローラーは、特定のドメインのWebページをクロールします。Webページごとに、特定の1つのクラスのみに属しているかどうかを確認します。つまり、このクラスをPositiveと呼ぶと、クロールされた各WebページはPositiveクラスまたはNon-Positiveクラスに属します。 クラスPositiveのWebページの大きなトレーニングセットが既にあります。しかし、可能な限り代表的な非陽性クラスのトレーニングセットを作成する方法は?つまり、基本的にそのクラスにすべてを使用できます。確実にクラスPositiveに属さない任意のページを収集できますか?テキスト分類アルゴリズム(私はNaive Bayesアルゴリズムを使用することを好みます)のパフォーマンスは、Non-Positiveクラスに選択したWebページに大きく依存すると確信しています。 だから私は何をしますか?誰かアドバイスをください。どうもありがとうございました!

2
Naive Bayesは連続変数をどのように処理しますか?
私の(非常に基本的な)理解では、Naive Bayesはトレーニングデータの各特徴のクラス頻度に基づいて確率を推定します。しかし、連続変数の頻度をどのように計算するのでしょうか?また、予測を行う場合、トレーニングセットのどの観測値とも同じ値でない可能性がある新しい観測値をどのように分類しますか?ある種の距離測定を使用していますか、それとも1NNを見つけていますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.