LDA決定境界の計算とグラフ化


19

The Statistics Learning of Elementsの決定境界を持つLDA(線形判別分析)プロットを見ました。ここに画像の説明を入力してください

データは低次元の部分空間に投影されることを理解しています。ただし、元の次元で決定境界を取得する方法を知りたいので、決定境界を低次元のサブスペースに投影できます(上の画像の黒い線のように)。

元の(より高い)次元の決定境界を計算するために使用できる式はありますか?はいの場合、この式にはどのような入力が必要ですか?


3
決定の境界よりも、クラスメンバーシップの事後確率を考慮する際に、おそらくより多くの有用性を見つけるでしょう。これは、多項(多項)ロジスティック回帰を使用してより少ない仮定で実行できますが、LDA(事後確率)でも実行できます。
フランクハレル14

2
LDA内では、これらの分類境界は、テリトリアルマップと呼ばれるものを構成します。私はSPSSを使用しており、テキスト形式ですが、それをプロットします。よる 1人のSPSSデザイナーに、境界は、実用的なアプローチによって容易に発見されています
ttnphns

3
(続き)細かいグリッドのすべてのポイントはLDA分類されており、ポイントが隣接ノードとして分類された場合、そのポイントは表示されません。したがって、「曖昧さの帯」としての境界のみが最後に残されます。引用:they (bondaries) are never computed. The plot is drawn by classifying every character cell in it, then blanking out all those surrounded by cells classified into the same category
ttnphns 14年

回答:


21

Hastieらのこの特定の図。クラス境界の方程式を計算せずに作成されました。代わりに、コメントで@ttnphnsで概説されているアルゴリズムが使用されました。110ページのセクション4.3の脚注2を参照してください。

この図および本の多くの同様の図について、網羅的な等高線法により決定境界を計算します。点の細かい格子で決定ルールを計算し、輪郭アルゴリズムを使用して境界を計算します。

ただし、LDAクラス境界の方程式を取得する方法の説明に進みます。

簡単な2Dの例から始めましょう。Irisデータセットのデータを次に示します。花弁の測定値を破棄し、がく片の長さとがく片の幅のみを考慮します。3つのクラスには、赤、緑、青の色が付いています。

アイリスデータセット

クラス平均(重心)をとして示しましょう。LDAは、すべてのクラスが同じクラス内共分散を持つと仮定します。データが与えられると、この共有共分散行列はとして推定されます(スケーリングまで)、ここで合計はすべてのデータポイントに渡り、それぞれのクラスの重心が各ポイントから減算されます。μ1,μ2,μ3W=i(xiμk)(xiμk)

クラスの各ペア(例えば、クラスと)には、それらの間にクラス境界があります。境界が2つのクラス重心の中点を通過する必要があることは明らかです。中央LDAの結果の1つは、この境界が直交する直線であることです。この結果を得る方法はいくつかありますが、それは質問の一部ではありませんでしたが、以下の付録でそのうちの3つについて簡単に示唆します。2 μ 1 + μ 2/ 2 W - 1μ 1 - μ 212(μ1+μ2)/2W1(μ1μ2)

上記の記述は、すでに境界の正確な仕様であることに注意してください。標準形式直線方程式が必要な場合、係数とを計算でき、いくつかの厄介な式で与えられます。これが必要になる状況はほとんど想像できません。a by=ax+bab

この式をアイリスの例に適用してみましょう。クラスのペアごとに、中点を見つけて、垂直な線をプロットします。W1(μiμj)

IrisデータセットのLDA、決定境界

予想されるように、3つの線が1つのポイントで交差します。決定境界は、交差点から始まる光線によって与えられます。

IrisデータセットのLDA、最終決定境界

クラスの数がである場合、クラスのペアと非常に多くの線が存在し、すべてが絡み合っていることに注意してください。Hastie et al。のような素敵な絵を描くには、必要なセグメントのみを保持する必要があり、それ自体は別のアルゴリズムの問​​題です(LDAとは関係ありません。分類;ポイントを分類するには、各クラスへのマハラノビス距離を確認し、最も低い距離を選択するか、シリーズまたはペアワイズLDAを使用します)。K2K(K1)/2

寸法式ステーまったく同じ:境界である直交する及び通過。ただし、高次元では、これはもはや線ではなく、次元の超平面です。説明のために、データセットを最初の2つの判別軸に単純に投影し、2Dケースに問題を減らすことができます(Hastieらがその図を作成するために行ったことです)。D>2W1(μ1μ2)(μ1+μ2)/2D1

付録

境界が直交する直線であることを確認する方法は?この結果を取得するいくつかの可能な方法は次のとおりです。W1(μ1μ2)

  1. 派手な方法:は平面上にマハラノビスメトリックを誘導します。境界は、このメトリックQEDのに直交する必要があります。W1μ1μ2

  2. 標準的なガウスの方法:両方のクラスがガウス分布で記述される場合、点がクラス属する対数尤度は。境界では、クラスとクラスに属する可能性は等しくなります。書き留めて、簡単にすると、すぐにに。 QED。xk(xμk)W1(xμk)12xW1(μ1μ2)=const

  3. 面倒だが直感的な方法。が単位行列である、つまりすべてのクラスが球体であると想像してください。解は明らかです:境界は単に直交しています。クラスが球体でない場合は、球体化によってクラスを作成できます。の固有分解が場合、行列がトリックを実行します(たとえば、こちらを参照)。したがって、適用した後、境界は直交します。この境界をとる場合、次のように変換しますμ 1 - μ 2 W W = U D US = D - 1 / 2 US Sμ 1 - μ 2S - 1 SSμ 1 - μ 2SWμ1μ2WW=UDUS=D1/2USS(μ1μ2)S1そしてそれが今何に直交しているかを尋ねると、答え(演習として残っている)は次のとおりです:to。式をプラグインすると、QEDが得られます。SS(μ1μ2)S


私はあなたの答えを勉強していません。洗練されているようで、正しいかもしれません。コメントで概説した、実用的で簡単な「点を振りかけ、分類し、境界を推定する」アプローチについてはどうですか?あなたのアプローチは結果と比較できますか(明らかに正しいですか)?どう思いますか?
ttnphns 14年

1
@ttnphns:私の答えの技術的な部分(3項目の番号付きリスト)は、いくつかの証拠を提供することであり、安全にスキップできます。残りは特に洗練されたものではないと思います!付録として、その「余分な」部分を下に移動する必要がありますか?あなたのコメントに関して:私はこれが有効なアプローチだと思います、そして私はSPSSの「地域マップ」のASCIIの見た目が好きです。コメントを別の回答に移動する(そしてそこにSPSSマップの模範図を示す)こともできますが、今後の参考に役立つと思います。もちろん、結果は同等でなければなりません。
アメーバは2014

@ttnphns:Hastie et al。ここで説明した方法を使用して、OPで再現されたものも含め、それらの図をプロットしました。まさにそれを言っている脚注を見つけました(そして、最初に引用して、私の答えを更新しました)。
アメーバは、モニカーを復活させる

わお!優れた回答(3年後!)
ザビエルバレットシコット
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.