絶対偏差の合計の最小化(


15

データセットあり、合計最小化するようなパラメーターを見つけたい mx1,x2,,xkm

i=1k|mxi|.
あれは

minmi=1k|mxi|.

2
少し詳しく説明していただけますか?
ジェフオックスベリー

その場合、解は最大値と最小値の中間点になりませんか?
ポール

@ポール中央値は合計を最小化できますが、分析、特にl1最小化の方法を知りたい
-mayenew

@kaduそうです、中央値が解決策です。分析的に中央値を計算するのは簡単です。並べ替えてから、中間値を取ります。
デビッドケッチャソン

回答:


22

おそらく、中央値が問題を解決するという証拠を求めますか?さて、これは次のように行うことができます:

目的は区分的に線形であるため、点を除いて微分可能です。対物レンズの勾配は、ある点m x iですか?まあ、斜面は、マッピングの斜面の和であるmは| m x j | そして、これは+ 1m >の場合)です。mよりも小さいおよび大きいx iが同数存在する場合、傾きはゼロであることがわかります(m=ximxim|mxj|+1)または1 m < x jの場合)のいずれかです。したがって、勾配は、 x i mより小さい数を示しますm>xj1m<xjximximます。奇数個存在する場合、X Iの次に傾きがある - 1『middlest』一および左 + 1、それの権利は、それゆえmiddlest一つは最小です。xixi1+1


16

この問題を複数の次元に一般化したものは、幾何学的中央値問題と呼ばれます。Davidが指摘しているように、中央値は1次元の場合の解決策です。そこでは、ソートよりも効率的な中央値検出選択アルゴリズムを使用できます。ソートは、選択アルゴリズムはO n です。ソートは、複数の選択が必要な場合にのみ効率的です。その場合、一度(一度だけ)ソートしてから、ソートされたリストから繰り返し選択できます。O(nlogn)O(n)

幾何学的中央値問題へのリンクは、多次元の場合の解決策に言及しています。


6

中央値の観点からの明示的な解決策は正しいですが、mayenewのコメントに応じて、別のアプローチがあります。

これは、ことはよく知られている一般的に最小化問題、特に掲示問題は、線形計画法によって解くことができます。1

次のLP定式化は、未知のを使用して所定の運動を行います。zm

ように: Z IM - X I のZ I

mnz
zmバツ
zバツm

明らかには等しくなければなりません| x iz最低限、エラーの絶対値の合計を最小化するように求められます。|バツm|


2

これを示すための過剰な凸解析方法は、サブグラディエントを取るだけです。実際、これは、勾配に関する他の回答のいくつかで使用されている推論と同等です。

最適化問題は凸です(目的が凸であり、制約がないため)。また、の部分勾配 m x i | |mバツ|

-1(m < x iの場合m<バツ

[-1,1] m = x iの場合m=バツ

場合、+ 1 。m>バツ

凸関数は、サブグラデーションにゼロが含まれる場合にのみ最小化され、凸関数の合計のサブグラデーションがサブグラデーションの(セット)合計であるため、が中央値の場合にのみ0がサブグラデーションに含まれますX 1... X Kmバツ1バツk


0

argm=1N|mバツ|

d|バツ|dバツ=符号バツL1
=1N符号mバツ
m=中央値{バツ1バツ2バツN}

median個別のグループは一意に定義されていないことに注意してください。
さらに、必ずしもグループ内のアイテムではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.