KNNは識別学習アルゴリズムですか?


16

KNNは差別的な学習アルゴリズムのようですが、これを確認するオンラインソースを見つけることができないようです。

KNNは識別学習アルゴリズムですか?

回答:


18

KNNは、特定のクラスに属するサンプルの条件付き確率モデル化するため、判別アルゴリズムです。これを確認するには、kNNの決定規則に到達する方法を考えてください。

クラスラベルは、特徴空間ある領域に属するポイントのセットに対応します。実際の確率分布からサンプルポイントを独立して描画する場合、そのクラスからサンプルを描画する確率は、 P X P = R P X D XRp(x)

P=Rp(x)dx

ポイントがある場合はどうなりますか?それらの点の点が領域入る確率は、二項分布に従います K N R P r o b K = NNKNR

Prob(K)=(NK)PK(1P)NK

この分布をシャープにする確率は、その平均値によって近似することができるように、ピークに達している\ FRAC {K} {N} 。追加の近似として、R上の確率分布はほぼ一定のままであるため、 P = \ int_ {R} p(x)dx \ approx p(x)V で積分を近似できます。 ここで、Vは領域。この近似の下で、p(x)\ approx \ frac {K} {NV}KNKNP = R P X D X P X のV VのP X KR

P=Rp(x)dxp(x)V
Vp(x)KNV

ここで、複数のクラスがある場合、各クラスに対して同じ分析を繰り返すことができます。これにより、 ここで、はその領域内にあるクラスからのポイントの量であり、はクラス属するポイントの総数です。注意してください。 KkkNkCkkNk=N

p(x|Ck)=KkNkV
KkkNkCkkNk=N

二項分布で分析を繰り返すと、事前のを推定できることが簡単にわかります。P(Ck)=NkN

ベイズ規則を使用して、 はkNNのルールです。

P(Ck|x)=p(x|Ck)p(Ck)p(x)=KkK

2
この参照には、KNNに関する情報は含まれていません。それは正しいものですか?
バイエルジ

1
差別的アルゴリズムと生成的アルゴリズムで理解されることを強調することを意味しました。
jpmuc 14

5

@jpmucによる回答は正確ではないようです。生成モデルは、基礎となる分布P(x / Ci)をモデル化し、後でベイズの定理を使用して事後確率を見つけます。それがまさにその答えに示されていることであり、正反対の結論を下します。:O

KNNを生成モデルにするには、合成データを生成できる必要があります。これは、初期トレーニングデータを取得したら可能になるようです。しかし、トレーニングデータなしから始めて合成データを生成することはできません。そのため、KNNは生成モデルにうまく適合しません。

分類のために判別境界を描くことができるか、事後P(Ci / x)を計算できるため、KNNは判別モデルであると主張するかもしれません。しかし、これらはすべて生成モデルの場合にも当てはまります。真の判別モデルは、基礎となる分布については何も伝えません。しかし、KNNの場合、基礎となる分布について多くのことを知っています。実際、トレーニングセット全体を保存しています。

したがって、KNNは生成モデルと識別モデルの中間にあるようです。おそらくそれが、KNNが評判の高い記事の生成モデルまたは識別モデルのいずれにも分類されない理由です。それらをノンパラメトリックモデルと呼びましょう。


私は同意しない。「生成分類器は、入力xとラベルyの結合確率p(x、y)のモデルを学習し、ベイズ規則を使用してp(ylx)を計算し、最も可能性の高いラベルyを選択して予測を行います。 。判別分類器は、事後p(ylx)を直接モデル化するか、入力xからクラスラベルへの直接マップを学習します。「識別分類子と生成分類子について:ロジスティック回帰と単純ベイズの比較。」
jpmuc


1

kNNは差別的であることに同意します。理由は、データを説明する(確率的)モデルを明示的に保存したり、学習しようとしないためです(たとえば、Naive Bayesとは対照的です)。

juampa混乱私が答えは以来、私の理解に、生成的分類器は、試みは(例えばモデルを使用して)データが生成される方法を説明することを一つであり、そしてその答えは、それがあると言う差別ためにこのような理由で...


1
生成モデルはP(Ck、X)を学習するため、その共同分布を使用してより多くのデータを生成できます。対照的に、判別モデルはP(Ck | X)を学習します。これは、@ juampaがKNNで指しているものです。
ジュバル14年

1
分類時には、生成的および判別的の両方が条件付き確率を使用して予測を行います。ただし、生成分類器は結合確率を学習し、ベイズ規則によって条件を計算しますが、判別では、分類器は条件を直接計算するか、可能な限り近似を提供します。
ラパイオ14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.