線形判別分析とベイズ規則:分類


12

線形判別分析とベイズ規則の関係は何ですか?LDAは、グループ内分散とグループ分散間の比を最小化しようとすることで分類に使用されることを理解していますが、ベイズルールがどのように使用されるかわかりません。


判別関数は、グループ間変動とグループ内変動率を最大化するように抽出されます。LDAの2番目のスタンドアロン段階である分類とは関係ありません。
ttnphns

回答:


16

LDAの分類は次のようになります(ベイズの規則アプローチ)。[判別式の抽出については、こちらをご覧ください。]

ベイズの定理によれば、現在の点xを観察しながらクラスを処理している求められる確率はP k | x = P k P x | k / P x であり、kxP(k|x)=P(k)P(x|k)/P(x)

–クラス kの無条件(バックグラウンド)確率。P x –点 xの無条件(バックグラウンド)確率。P X | K -点の存在確率 xはクラスで Kとdealedているクラスである場合、 KP(k)kP(x)xP(x|k)xkk

「現在のポイント観測する」が基本条件であるP x = 1であるため、分母は省略できます。したがって、P k | x = P k P x | k xP(x)=1P(k|x)=P(k)P(x|k)

は、 xのネイティブクラスが kである事前(分析前)確率です。P k はユーザーが指定します。通常、デフォルトでは、すべてのクラスは等しい P k = 1 / number_of_classesを受け取ります。計算するために、 P K | X のネイティブクラスということ、すなわち後部(後分析)確率 xがある kは、1が知っておくべき P X | KをP(k)xkP(k)P(k)P(k|x)xkP(x|k)

-確率それ自体-見つけることができません、判別式の場合、LDAの主な問題は連続変数であり、離散変数ではありません。この場合に P x | k を表し、それに比例する量が確率密度(PDF関数)です。ここに我々は、ポイントのために計算PDFに必要 Xクラスで K P D F X | K において、 Pの値によって形成された次元の正規分布 PP(x|k)P(x|k)xkPDF(x|k)pp判別式。[ウィキペディアの多変量正規分布を参照]

PDF(x|k)=ed/2(2π)p/2|S|)

ここで、 –点xからクラス重心までの判別式空間でのマハラノビス距離の2乗[Wikipediaマハラノビス距離を参照] 。S – そのクラス内で観察される判別間の共分散行列。dxS

この方法で各クラスのを計算します。P k P D F x | k )は、ポイントxおよびクラスkに対して、求められているP k P x | k 表します。しかし、PDFはそれ自体が確率ではなく、それに比例するだけなので、P k P Dを正規化する必要があります。PDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k)、すべてのクラスの P k P D F x | k sの合計で除算します。たとえば、全部で3つのクラスがある場合、 k l mP(k)PDF(x|k)P(k)PDF(x|k)klm

P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

ポイントは、LDAによってP k | x が最も高いクラスに割り当てられます。xP(k|x)

Note. This was the general approach. Many LDA programs by default use pooled within-class matrix S for all classes in the formula for PDF above. If so, the formula simplifies greatly because such S in LDA is identity matrix (see the bottom footnote here), and hence |S|=1 and d turns into squared euclidean distance (reminder: the pooled within-class S we are talking about is covariances between the discriminants, - not between the input variables, which matrix is usually designated as Sw).

Addition. Before the above Bayes rule approach to classification was introduced to LDA, Fisher, LDA pioneer, proposed computing the now so called Fisher's linear classification functions to classify points in LDA. For point x the function score of belonging to class k is linear combination bkv1V1x+bkv2V2x+...+Constk, where V1,V2,...Vp are the predictor variables in the analysis.

Coefficient bkv=(ng)wpsvwV¯kw, g being the number of classes and svw being the element of the pooled within-class scatter matrix of p V-variables.

Constk=log(P(k))(vpbkvV¯kv)/2.

Point x gets assigned to the class for which its score is the highest. Classification results obtained by this Fisher's method (which bypasses extraction of discriminants engaged in the complex eigendecomposition) are identical with those obtained by Bayes' method only if pooled within-class covariance matrix is used with Bayes' method based on discriminants (see "Note" above) and all the discriminants are being used in the classification. The Bayes' method is more general because it allows using separate within-class matrices as well.


This is Bayesian approach right? What is the Fisher's approach for this?
zca0

1
Added to the answer upon your request
ttnphns

+1 for distinguishing between Bayes' and Fisher's approach of LDA. I'm a new-comer in LDA, and the books I read teach me LDA in Bayes' approach, which classifies X to class K with the highest p(K|X), so I have to compute all the p(K|X) for each class K, right? By Fisher's approach, I just need to figure out the discriminants and their corresponding coefs, and no need to compute the posterior for each class, right?
avocado

And I think the Bayes' approach is more understandable, and why do we need to use the Fisher's approach?
avocado

We don't need. Just for historical matter.
ttnphns

1

Assume equal weights for the two error types in a two class problem. Suppose the two classes have a multivariate class conditional density of the classification variables. Then for any observed vector x and class conditional densities f1(x) and f2(x) the Bayes rule will classify x as belonging to group 1 if f1(x)f2(x) and as class 2 otherwise. The Bayes rule turns out to be a linear discriminant classifier if f1 and f2 are both multivariate normal densities with the same covariance matrix. Of course in order to be able to usefully discriminate the mean vectors must be different. A nice presentation of this can be found in Duda and Hart Pattern Classification and Scene Analysis 1973 (the book has recently been revised but I like particularly the presentation in the original edition).

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.