Hastieらのこの特定の図。クラス境界の方程式を計算せずに作成されました。代わりに、コメントで@ttnphnsで概説されているアルゴリズムが使用されました。110ページのセクション4.3の脚注2を参照してください。
この図および本の多くの同様の図について、網羅的な等高線法により決定境界を計算します。点の細かい格子で決定ルールを計算し、輪郭アルゴリズムを使用して境界を計算します。
ただし、LDAクラス境界の方程式を取得する方法の説明に進みます。
簡単な2Dの例から始めましょう。Irisデータセットのデータを次に示します。花弁の測定値を破棄し、がく片の長さとがく片の幅のみを考慮します。3つのクラスには、赤、緑、青の色が付いています。
クラス平均(重心)をとして示しましょう。LDAは、すべてのクラスが同じクラス内共分散を持つと仮定します。データが与えられると、この共有共分散行列はとして推定されます(スケーリングまで)、ここで合計はすべてのデータポイントに渡り、それぞれのクラスの重心が各ポイントから減算されます。μ1,μ2,μ3W=∑i(xi−μk)(xi−μk)⊤
クラスの各ペア(例えば、クラスと)には、それらの間にクラス境界があります。境界が2つのクラス重心の中点を通過する必要があることは明らかです。中央LDAの結果の1つは、この境界が直交する直線であることです。この結果を得る方法はいくつかありますが、それは質問の一部ではありませんでしたが、以下の付録でそのうちの3つについて簡単に示唆します。2 (μ 1 + μ 2)/ 2 W - 1(μ 1 - μ 2)12(μ1+μ2)/2W−1(μ1−μ2)
上記の記述は、すでに境界の正確な仕様であることに注意してください。標準形式直線方程式が必要な場合、係数とを計算でき、いくつかの厄介な式で与えられます。これが必要になる状況はほとんど想像できません。a by=ax+bab
この式をアイリスの例に適用してみましょう。クラスのペアごとに、中点を見つけて、垂直な線をプロットします。W−1(μi−μj)
予想されるように、3つの線が1つのポイントで交差します。決定境界は、交差点から始まる光線によって与えられます。
クラスの数がである場合、クラスのペアと非常に多くの線が存在し、すべてが絡み合っていることに注意してください。Hastie et al。のような素敵な絵を描くには、必要なセグメントのみを保持する必要があり、それ自体は別のアルゴリズムの問題です(LDAとは関係ありません。分類;ポイントを分類するには、各クラスへのマハラノビス距離を確認し、最も低い距離を選択するか、シリーズまたはペアワイズLDAを使用します)。K≫2K(K−1)/2
寸法式ステーまったく同じ:境界である直交する及び通過。ただし、高次元では、これはもはや線ではなく、次元の超平面です。説明のために、データセットを最初の2つの判別軸に単純に投影し、2Dケースに問題を減らすことができます(Hastieらがその図を作成するために行ったことです)。D>2W−1(μ1−μ2)(μ1+μ2)/2D−1
付録
境界が直交する直線であることを確認する方法は?この結果を取得するいくつかの可能な方法は次のとおりです。W−1(μ1−μ2)
派手な方法:は平面上にマハラノビスメトリックを誘導します。境界は、このメトリックQEDのに直交する必要があります。W−1μ1−μ2
標準的なガウスの方法:両方のクラスがガウス分布で記述される場合、点がクラス属する対数尤度は。境界では、クラスとクラスに属する可能性は等しくなります。書き留めて、簡単にすると、すぐにに。 QED。xk(x−μk)⊤W−1(x−μk)12x⊤W−1(μ1−μ2)=const
面倒だが直感的な方法。が単位行列である、つまりすべてのクラスが球体であると想像してください。解は明らかです:境界は単に直交しています。クラスが球体でない場合は、球体化によってクラスを作成できます。の固有分解が場合、行列がトリックを実行します(たとえば、こちらを参照)。したがって、適用した後、境界は直交します。この境界をとる場合、次のように変換しますμ 1 - μ 2 W W = U D U ⊤ S = D - 1 / 2 U ⊤ S S(μ 1 - μ 2)S - 1 S ⊤ S(μ 1 - μ 2)SWμ1−μ2WW=UDU⊤S=D−1/2U⊤SS(μ1−μ2)S−1そしてそれが今何に直交しているかを尋ねると、答え(演習として残っている)は次のとおりです:to。式をプラグインすると、QEDが得られます。S⊤S(μ1−μ2)S