この場合、最小二乗解法の結果が悪いのはなぜですか?


21

ビショップによる「パターン認識と機械学習」の第4章の204ページに画像がありますが、ここで最小二乗解法が悪い結果を与える理由がわかりません。

ここに画像の説明を入力してください

前の段落では、次の画像に見られるように、最小二乗法は外れ値に対するロバスト性に欠けているという事実についてでしたが、他の画像で何が起こっているのか、LSがそこに悪い結果を与える理由はわかりません。

ここに画像の説明を入力してください


これはセット間の差別に関する章の一部のようです。グラフの最初のペアでは、左のグラフは3つのポイントセットを明確に区別していません。それはあなたの質問に答えますか?そうでない場合は、明確にできますか?
ピーターフロム-モニカの復職

@PeterFlom:LSソリューションは最初の結果に対して悪い結果をもたらします。理由を知りたいです。そして、はい、それはLS分類に関するセクションの最後の段落であり、章全体が線形判別関数に関するものです。
ジギリ

回答:


6

Bishops図4.5の最小二乗解で見られる特定の現象は、クラスの数が場合にのみ発生する現象です。3

ESL、105ページの図4.2、現象と呼ばれているマスク。ESL図4.3も参照してください。最小二乗解では、middelクラスの予測子が生成されますが、ほとんどの場合、他の2つのクラスの予測子が優勢です。LDAまたはロジスティック回帰はこの問題の影響を受けません。マスキングを引き起こすのは、クラス確率の線形モデルの剛性構造(最小二乗近似から得られるもの)であると言えます。

2つのクラスだけの現象が発生しない LDA溶液と2つのクラスの場合における最小二乗解との関係の詳細については、また、ESLでの練習4.2、135ページを参照してください。

編集:マスキングはおそらく2次元の問題で最も簡単に視覚化されますが、1次元の場合の問題でもあり、ここで数学は特に理解しやすいです。1次元の入力変数が次のように順序付けられているとします

バツ1<<バツk<y1<ym<z1<<zn

「クラス1からS、」クラス2〜Sおよび一緒に、我々は次のように編成されたデータを有する三次元のバイナリーベクターとしてクラスの符号化方式を有するクラス3からのy zバツyz

110000TT001100000011バツTバツ1バツky1ymz1zn

最小二乗解は、上のの各列の3つの回帰として与えられます。最初の列であるクラスでは、勾配は負になり(すべてが左上にあります)、最後の列であるクラスでは、勾配は正になります。中央の列では、Tバツバツzy-class、線形回帰は、2つの外部クラスのゼロと中間クラスのゼロのバランスをとる必要があり、結果としてかなり平坦な回帰線と、このクラスの条件付きクラス確率の適合度が特に低くなります。結局のところ、2つの外部クラスの回帰直線の最大値は、入力変数のほとんどの値の中間クラスの回帰直線を支配し、中間クラスは外部クラスによってマスクされます。

ここに画像の説明を入力してください

実際、場合、入力変数が上記の順序であるかどうかにかかわらず、1つのクラスは常に完全にマスクされます。クラスサイズがすべて等しい場合、3つの回帰直線はすべてポイント通過しここで、 したがって、3本の線はすべて同じポイントで交差し、そのうち2本の最大線が3本目の線を支配します。k=m=nバツ¯1/3

バツ¯=13kバツ1++バツk+y1++ym+z1++zn

2

以下のリンクに基づいて、LS判別式が左上のグラフでうまく機能しない理由は次のとおりです
。-外れ値に対する堅牢性の欠如。
-最小二乗分類に適さない特定のデータセット。
-決定境界は、ガウス条件付き分布のMLソリューションに対応します。ただし、バイナリターゲット値の分布はガウス分布とは大きく異なります。

最小二乗の欠点の 13ページをご覧ください


1

最初のグラフの問題は「マスキング」と呼ばれ、「統計学習の要素:データマイニング、推論、予測」(Hastie、Tibshirani、Friedman、Springer 2001)、83〜84ページで言及されていると思います。

直感的に(私ができる最善の方法)これは、OLS回帰の予測が[0,1]に制約されていないためだと思います。したがって、本当に0のようにしたい場合は-0.33の予測になります。 1、2つのクラスの場合は細かく処理できますが、クラスが多いほど、この不一致が問題を引き起こす可能性が高くなります。おもう。


1

最小二乗はスケールに敏感です(新しいデータは異なるスケールであるため、決定境界をゆがめます)、通常は重みを適用する必要があります(最適化アルゴリズムに入力するデータは同じスケールです)か、適切な変換を実行します(平均センター、log(1 + data)...など)そのような場合のデータ。3つの分類操作を実行し、最終的に2つの出力クラスをマージするように依頼すると、最小二乗は完璧に機能するようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.