LDAが他の教師あり学習手法にどのように「適合する」かを感じ取ろうとしています。LDAに関するLDA風の投稿のいくつかをここで読みました。私はすでにパーセプトロンに精通していますが、今はLDAを学習しています。
LDAは教師あり学習アルゴリズムのファミリーにどのように「適合」しますか?これらの他の方法と比べてその欠点は何ですか?それは何のためによりよく使用されるでしょうか?たとえばパーセプトロンを使用するだけでよいのに、なぜLDAを使用するのでしょうか。
LDAが他の教師あり学習手法にどのように「適合する」かを感じ取ろうとしています。LDAに関するLDA風の投稿のいくつかをここで読みました。私はすでにパーセプトロンに精通していますが、今はLDAを学習しています。
LDAは教師あり学習アルゴリズムのファミリーにどのように「適合」しますか?これらの他の方法と比べてその欠点は何ですか?それは何のためによりよく使用されるでしょうか?たとえばパーセプトロンを使用するだけでよいのに、なぜLDAを使用するのでしょうか。
回答:
AdamOが上記のコメントで示唆しているように、LDAを他の線形分類法と比較し、多くの例を示し、その使用法についても論じる統計学習の要素(私はHTFと呼びます)の第4章を読むより、実際にうまくやることはできません。LDAは、ttnphnsが指摘しているように、PCAの脈絡における次元削減手法としてかなり人気があります。
分類の観点から、私は主な違いはこれだと思います。2つのクラスがあり、それらを分離したいとします。各クラスには確率密度関数があります。可能な最良の状況は、これらの密度関数を知っている場合です。これは、そのポイントでクラス固有の密度を評価することにより、ポイントがどのクラスに属するかを予測できるためです。
一部の種類の分類器は、クラスの密度関数の近似を見つけることによって動作します。LDAはこれらの1つです。それは、密度が同じ共分散行列をもつ多変量正規であると仮定します。これは強力な仮定ですが、おおよそ正しい場合は、適切な分類子が得られます。他の多くの分類子もこの種のアプローチを採用していますが、正規性を仮定するよりも柔軟にしようとしています。たとえば、HTFの108ページを参照してください。
一方、210ページでは、HTFは次のように警告しています。
分類が最終的な目標である場合、個別のクラス密度を正しく学習することは不要であり、実際には誤解を招く可能性があります。
別のアプローチは、2つのクラス間の境界を探すことです。これは、パーセプトロンが行うことです。これのより洗練されたバージョンはサポートベクターマシンです。これらの方法は、カーネル化と呼ばれる手法を使用して、データに機能を追加することと組み合わせることもできます。これは、正規性を保持しないため、LDAでは機能しませんが、分離超平面を探すだけの分類子では問題ありません。
LDAと分離超平面を探す分類子の違いは、通常の統計におけるt検定といくつかの非パラメーター代替の違いと似ています。後者は(たとえば、外れ値に対して)より堅牢ですが、前者は、その仮定が満たされている場合に最適です。
もう1つ注意してください。LDAやロジスティック回帰などの方法を使用する文化的な理由があり、ANOVA表、仮説検定、およびそのようなことを安心させる可能性があることに言及する価値があるかもしれません。LDAはフィッシャーによって発明されました。パーセプトロンはもともと人間または動物のニューロンのモデルであり、統計とは関係がありませんでした。他の方法でも機能します。20世紀の手法では対応できない最先端のヒップスタークレディがあるため、サポートベクターマシンのような手法を好む人もいます。それは彼らがより良いという意味ではありません。(この良い例は、正しく思い出せば、ハッカーの機械学習で説明されています。)
直感的に、この場合を考えてください:
この線は、2つのクラスoとxの間の「最適な境界」を表します。
LDAは、クラスター間分散を最小化し、クラスター内分散を最大化する超平面を見つけようとします。次に、は境界をその超平面に直交するようにします。ここでは、クラスターが同じ方向に大きな変動を持っているため、これはおそらく機能しません。
一方、パーセプトロンは、適切な分離超平面を見つける可能性が高くなります。
ただし、ガウス分布を持つクラスの場合、パーセプトロンはデータと一致する分離超平面しか検出せず、選択する超平面についての保証を与えないため、LDAはおそらくより適切に機能します(無限数になる可能性があります)一貫した超平面の)。ただし、より洗練されたバージョンのパーセプトロンは、クラス間のマージンを最大化するなど、いくつかの最適なプロパティを持つ超平面を選択できます(これは、基本的にサポートベクターマシンが行うことです)。
また、LDAとパーセプトロンの両方は、カーネルトリックを介して非線形の決定境界に拡張できることに注意してください。
LDAと他の方法との最大の違いの1つは、LDAが正規分布であると想定されるデータの単なる機械学習手法であることです。これは、非常に奇妙な状況や興味深い状況でEMアルゴリズムを使用して可能性を最大化できるデータの欠落や切り捨ての場合に最適です。警告の買い手などマルチモーダルデータなどのモデルmisspecificationsは、クラスタリングK-手段は良く行っているでしょう貧しい実行の予測につながる可能性があるため。マルチモーダルデータは、EMを使用してLDAの潜在変数やクラスタリングを検出することもできます。
たとえば、CD4数に基づいて、5年間でAIDSの陽性診断が出る確率を測定するとします。さらに、CD4数に大きな影響を与え、さらなる免疫抑制に関連する特定のバイオマーカーの値がわからないとします。400未満のCD4カウントは、最も手頃なアッセイの検出下限を下回っています。EMアルゴリズムにより、LDAとバイオマーカーの割り当て、および切り捨てられていないDFのCD4の平均と共分散を繰り返し計算できます。