LDA対パーセプトロン


9

LDAが他の教師あり学習手法にどのように「適合する」かを感じ取ろうとしています。LDAに関するLDA風の投稿のいくつかをここで読みました。私はすでにパーセプトロンに精通していますが、今はLDAを学習しています。

LDAは教師あり学習アルゴリズムのファミリーにどのように「適合」しますか?これらの他の方法と比べてその欠点は何ですか?それは何のためによりよく使用されるでしょうか?たとえばパーセプトロンを使用するだけでよいのに、なぜLDAを使用するのでしょうか。


1
教師あり学習とは何か混乱しているかもしれません。K-meansは、教師なし学習クラスタリングアルゴリズムです。パーセプトロンは、負の観測値と正の観測値を分離する超平面を見つけようとする教師あり学習分類アルゴリズムです。LDAは、教師付き分類に使用できる方法ですが、教師付き特徴選択に一般的に使用されます。LDA分類器の仮定については、@ AdamOの回答を参照してください。
ビットワイズ2013

@Bitwiseおっと!そこにK-meansを入れた理由がわかりません。はい、監視なしのアルゴリズムです。編集で削除します。
Creatron 2013

@ビットワイズLDAとパーセプトロンについてあなたが言ったことに関して、はい、それは私を混乱させているものです。LDAは、データを投影する超平面を見つけようとします。これにより、クラスター内の分散を最小化しながら、クラスター間分散を最大化します。次に境界に、分類子があります。パーセプトロンは、ラベル付けされたデータを分解するための最適な超平面も見つけようとするという点で、似たようなことを行います。では、なぜ一方をもう一方に使用するのでしょうか。
Creatron 2013

回答:


15

AdamOが上記のコメントで示唆しているように、LDAを他の線形分類法と比較し、多くの例を示し、その使用法についても論じる統計学習の要素(私はHTFと呼びます)の第4章を読むより、実際にうまくやることはできません。LDAは、ttnphnsが指摘しているように、PCAの脈絡における次元削減手法としてかなり人気があります。

分類の観点から、私は主な違いはこれだと思います。2つのクラスがあり、それらを分離したいとします。各クラスには確率密度関数があります。可能な最良の状況は、これらの密度関数を知っている場合です。これは、そのポイントでクラス固有の密度を評価することにより、ポイントがどのクラスに属するかを予測できるためです。

一部の種類の分類器は、クラスの密度関数の近似を見つけることによって動作します。LDAはこれらの1つです。それは、密度が同じ共分散行列をもつ多変量正規であると仮定します。これは強力な仮定ですが、おおよそ正しい場合は、適切な分類子が得られます。他の多くの分類子もこの種のアプローチを採用していますが、正規性を仮定するよりも柔軟にしようとしています。たとえば、HTFの108ページを参照してください。

一方、210ページでは、HTFは次のように警告しています。

分類が最終的な目標である場合、個別のクラス密度を正しく学習することは不要であり、実際には誤解を招く可能性があります。

別のアプローチは、2つのクラス間の境界を探すことです。これは、パーセプトロンが行うことです。これのより洗練されたバージョンはサポートベクターマシンです。これらの方法は、カーネル化と呼ばれる手法を使用して、データに機能を追加することと組み合わせることもできます。これは、正規性を保持しないため、LDAでは機能しませんが、分離超平面を探すだけの分類子では問題ありません。

LDAと分離超平面を探す分類子の違いは、通常の統計におけるt検定といくつかの非パラメーター代替の違いと似ています。後者は(たとえば、外れ値に対して)より堅牢ですが、前者は、その仮定が満たされている場合に最適です。

もう1つ注意してください。LDAやロジスティック回帰などの方法を使用する文化的な理由があり、ANOVA表、仮説検定、およびそのようなことを安心させる可能性があることに言及する価値があるかもしれません。LDAはフィッシャーによって発明されました。パーセプトロンはもともと人間または動物のニューロンのモデルであり、統計とは関係がありませんでした。他の方法でも機能します。20世紀の手法では対応できない最先端のヒップスタークレディがあるため、サポートベクターマシンのような手法を好む人もいます。それは彼らがより良いという意味ではありません。(この良い例は、正しく思い出せば、ハッカーの機械学習で説明されています。)


「サポートベクターマシンのような方法を好む人もいるでしょう。彼らには、20世紀の方法では対応できない最先端のヒップスタークレディがあるからです。」笑!仰るとおり。ところで、あなたは物事を非常に明確かつ正確に説明するコツがあります。ありがとうございました!私は物事がどのように組み合わさるかについての「地図」を必要としていて、あなたはそれを提供しました。
Creatron 2013

2

直感的に、この場合を考えてください:

ここに画像の説明を入力してください

この線は、2つのクラスoとxの間の「最適な境界」を表します。

LDAは、クラスター間分散を最小化し、クラスター内分散を最大化する超平面を見つけようとします。次に、は境界をその超平面に直交するようにします。ここでは、クラスターが同じ方向に大きな変動を持っているため、これはおそらく機能しません。

一方、パーセプトロンは、適切な分離超平面を見つける可能性が高くなります。

ただし、ガウス分布を持つクラスの場合、パーセプトロンはデータと一致する分離超平面しか検出せず、選択する超平面についての保証を与えないため、LDAはおそらくより適切に機能します(無限数になる可能性があります)一貫した超平面の)。ただし、より洗練されたバージョンのパーセプトロンは、クラス間のマージンを最大化するなど、いくつかの最適なプロパティを持つ超平面を選択できます(これは、基本的にサポートベクターマシンが行うことです)。

また、LDAとパーセプトロンの両方は、カーネルトリックを介して非線形の決定境界に拡張できることに注意してください。


1

LDAと他の方法との最大の違いの1つは、LDAが正規分布であると想定されるデータの単なる機械学習手法であることです。これは、非常に奇妙な状況や興味深い状況でEMアルゴリズムを使用して可能性を最大化できるデータの欠落や切り捨ての場合に最適です。警告の買い手などマルチモーダルデータなどのモデルmisspecificationsは、クラスタリングK-手段は良く行っているでしょう貧しい実行の予測につながる可能性があるため。マルチモーダルデータは、EMを使用してLDAの潜在変数やクラスタリングを検出することもできます。

たとえば、CD4数に基づいて、5年間でAIDSの陽性診断が出る確率を測定するとします。さらに、CD4数に大きな影響を与え、さらなる免疫抑制に関連する特定のバイオマーカーの値がわからないとします。400未満のCD4カウントは、最も手頃なアッセイの検出下限を下回っています。EMアルゴリズムにより、LDAとバイオマーカーの割り当て、および切り捨てられていないDFのCD4の平均と共分散を繰り返し計算できます。


アダムに感謝しますが、私は今より混乱しています。:-) LDAは、パーセプトロン、または他の教師付き学習手法と言って、どのように改善されていますか?EMアルゴに関して、あなたはLDAを解くことができると言う範囲でそれを使用しています、EMアルゴを使用して、正しいですか?
Creatron 2013

1
@AdamO、明確にするために、PCAとは異なり、LDAはデータ削減手法が正規性に依存しないことを明確にしたいと思います。LDA内の正規性は、1)統計的検定(ボックスのM検定など)、2)分類の仮定です。
ttnphns 2013

@ttnphnsが正規性を想定しているということは、LDAがML手法であることを意味します。MLは良いことです。私が言及した例の特定の警告は、難しい問題を解決するためにMLを利用します。これらのソリューションは、高度なシミュレーションやバグでのみ可能です。
AdamO 2013

@TheGrapeBeyond LDAは、2つのグループのマハル距離を最大化します。SLP(単層パーセプトロン、またはnnet)は、特徴空間に超平面を描画して、最高の分類精度を作成します...と思います。良い出発点はTibs / Hastieの本を読むことです。私はそれを自分でブラッシュアップする必要があるかもしれません。
AdamO 2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.