OLS推定器がスケール同変であることを示していますか?


11

スケールの等分散性の正式な定義はありませんが、統計学習の概要でこれについてp。217:

標準的な最小二乗係数...であるスケールequivariant:乗算Xj定数c倍最小二乗係数推定値のスケーリングに単にリード1/c

簡略化のため、の一般線形モデル仮定するy=Xβ+ϵ、ここで、yRNXであるN×(p+1)行列(p+1<Nのすべてのエントリを持つ)RβRp+1、及びϵあるNと実数値の確率変数の次元ベクトルE[ϵ]=0N×1

OLS推定から、我々は知っているならばXフル(列)ランク持っている β X = X T X - 1 X T Yを

β^X=(XTX)1XTy.
我々はの列乗算仮定X、言うxkいくつかについてk{1,2,,p+1}定数によって、c0。これは、行列
X[111c11]S=[x1x2cxkxp+1]X~
行列の他のすべてのエントリは、ここでS上であり0、及びcであるkの対角のエントリ番目S。次に、X~同様に、完全な(列)のランクを有する、得られたOLSを用いて推定器X~新しいデザインマトリックスとしては β
β^X~=(X~TX~)1X~Ty.
いくつかの仕事の後、一方が表示できるよう
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
X~Ty=[x1Tyx2TycxkTyxp+1Ty]
どのように私は(すなわち、その上に引用された請求示すために、ここから行くんββ^X~=1cβ^X)?どのように計算するか私にははっきりしていない(X~TX~)1

私はあなたの考える右、それが欠けているされていないCの行全体で乗数を。X~TX~c
Firebug

1
また、クマは心の中で主張があるβ K 新しい = 1、必ずしもすべてのββ^k,new=1cβ^k,oldβ
Firebug 2017年

@Firebugうん、私はそれを理解した。回答を投稿しています。
クラリネット奏者、

2
あなたは置き換えることができ、すべての乗算ので、はるかに簡単ユニット解析することによって、この代数をによりcは単に測定の単位を変更するため、その係数に関連付けられたユニットの対応する変化β jは、によってそれを分割することである、C。それは証明されませんβ jがで割っしなければならないC残念ながら、。しかし、思考のこのチェーンは、複数の回帰は、あることは明らかである時、に一つの説明変数に対する回帰の連続によって行うことができるということを思い出させてくれるかもしれないβ jがで割って、C、およびその証明が完了しています。Xjcβjcβ^jcβ^jc
whuber

@whuber、結果の直観は明らかですが、証明を提供する際に少し代数が必要なだけのようです。結局のところ、スケーリング係数は逆にする必要があります。c
user795305 2017年

回答:


11

引用のアサーションはXの列の再スケーリングに関するステートメントのコレクションであるため、一度にすべてを証明することもできます。実際、アサーションの一般化を証明するためにこれ以上の作業は必要ありません。X

場合正則行列の右乗算されるA、新しい係数推定値β Aは、に等しいβにより左乗算A - 1XAβ^Aβ^A1

必要な唯一の代数的事実は、(容易に証明され、よく知られている)であり、任意の行列A Bに対しておよび可逆行列に対してA B 1 = B 1 A 1 AB。(一般化された逆行列を使用する場合は、後者の微妙なバージョンが必要です:可逆ABおよび任意のXの場合A X B (AB)=BAAB(AB)1=B1A1ABABX(AXB)=B1XA1


代数によって証明β A = X A 'X A - X A '、Y = A - 1X ' X - A ' - 1 A ' Y = A - 1 β

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

QED。 (この証明は十分一般的であるためには、-上付き文字は、一般逆のことをいいます。)


ジオメトリによる証明

R nおよびR pの基底およびE nがそれぞれ与えられた場合、XR pからR nへの線形変換を表します。XAの右乗算は、この変換を固定しまま、E pA E pに(つまり、Aの列に)変更することと見なすことができます。基礎のその変化の表現の下で任意のベクトルβREpEnRnRpXRpRnXAEpAEpAは、 A - 1QEDによる左乗算を介して変更する必要があります。β^RpA1

(この証明作品は、変更されていない、場合でも、可逆ではありません。)XX


引用は、具体的に対角行列の場合を指すA iがiは = 1のためのI JA J 、J = CAAii=1ijAjj=c


最小二乗法による接続

ここでの目的は、結果を取得するための最初の原則を使用することです。原則は最小二乗の原則です。残差の二乗の合計を最小化する係数を推定します。

ϕ:VpWn
QWnUVpvQ(ϕ(v))

UQϕEpVp

証明: QED。

証明するものは何もありません!

FRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rpβ^vUx=Xβ^F(y,x)XRpXAβ^A1


6

β^=argminβRpyXβ22XRn×pSRp×p

この新しいスケーリングされた推定器を定義します。つまり、すべてのに対してとなります。定義すると、上記の表示された不等式をとしてすべての。したがって、であり、最小二乗推定量 スケーリング行列可逆性のためα~=argminαRpyXSα22

yXSα~22<yXSα22
αα~β~=Sα~
yXβ~22<yXβ22
ββ~β~=argminβRpyXβ22
β^=β~=Sα~.
S、つまります。我々の場合において、こののみ異なるによってによってスケーリングされるエントリ。α~=S1β^β^kth1c

1
や同様の関数を扱うことに慣れていません。2行目から3行目の方程式への遷移を説明できますか?arg min
クラリネット奏者、

手順をより明確にするために、少し異なる方法で記述しました。
user795305 2017年

これは本当に賢いです。(+1)
クラリネット奏者、

4

質問を投稿した後、私はこれを理解しました。しかし、私の仕事が正しければ、主張を誤って解釈しました。のみスケーリングの一の成分で発生の列に対応によって乗算される1cβXc

上記の表記法のは、対角の対称行列であり、逆(対角であるため)であることに 注意してください なお、は行列です。と仮定しましょう S(p+1)×(p+1)

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
したがって、 とこれにを乗算は、に乗算した場合と同様の効果があり、同じままです。が乗算されることを除いて
S1(XTX)1=[z1z21czkzp+1]
S1XS1czk1c: したがって、
S1(XTX)1S1=[z1z21c2zkzp+1].
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]
必要に応じて。

タイプミスがあります。を転置する必要があります。S1(XTX)1S1(XS)y(XS)
JohnK、2017年

3

これまでで最も些細な証明

次の線形方程式から始めます ここで、リグレッサのスケールを変更します。おそらく、メートル法からインペリアルに変換します。キログラムからポンド、メートルからヤードなどです。したがって、変換行列ここで、各は、計画行列変数(列)変換係数です。

Y=Xβ+ε
S=diag(s1,s1,,sn)siiX

方程式を書き直してみましょう:

Y=(XS)(S1β)+ε

これで、スケーリングが方程式の線形性のプロパティであり、係数のOLS推定方法ではないことが明確になりました。線形方程式を使用した推定方法に関係なく、リグレッサがとしてスケーリングされる場合、新しい係数はとしてスケーリングされる必要があります。XSS1β

代数によるOLSのみの証明

スケーリングは次のとおりです ここで、各変数(列)のスケールファクター、はスケールバージョンです。対角スケール行列呼び出しましょう。あなたのOLS推定量は です代わりに スケーリングされた行列接続し、いくつかの行列代数を使用しましょう: これで、新しい係数が期待どおりに単純に古い係数に縮小されたことがわかります。

Z=Xdiag(s1,s2,...,sn)
siZXSdiag(s1,s2,...,sn)
β^=(XTX)1XTY
ZX
(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1β^

2
私はあなたのアプローチが好きですが、「これまでで最も些細な証明」には納得できません。暗黙的に、書き換えたモデルは元のモデルと同じフィットでなければならないことを想定し、さらに示す必要があります。より厳密に言うと、フィット手順を関数として表示する場合、ここではすべての可能なデータのセット(順序付きペアとして書き込むことができます)であり、はすべての可能な係数推定値のセットです。すべての反転可能な、すべての、およびすべての。(これは常に正しいとは限りません!)δ:MRpM(X,Y)Rpδ(X,Y)=S1δ(XS,Y)SXY
whuber

@whuber、実際にはそれは別の方法です:適切なフィッティング手順はこの条件を満たす必要があります。そうでない場合、測定単位を単純に変更すると、異なる予測/推定値が生成されます。私は私の答えを更新します、それについて少し考えます
Aksakal

私は同意します-しかし、がフルランクでない場合の例外は想像できます。それは私に示唆されたものであり、状況はそれがそうであるように見えるかもしれないほど簡単ではありません。X
whuber

3
帝国メイトではなく、高貴な ...:D(ニースの答えは、1)
usεr11852

@usεr11852、私は今日何かを学びました:)
Aksakal

2

この結果を得る簡単な方法は、がの列空間でのの射影であることを覚えておくことですは、が線形として表現される場合の係数のベクトルですの列の組み合わせ。一部の列が係数でスケーリングされている場合、線形結合の対応する係数をスケーリングする必要があることは明らかです。y^yX. β^y^Xc1/c

ましょうの値で及び一つの列をによってスケーリングされるときOLS溶液の値であるbiβ^aic.

b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

の列が線形独立であると仮定すると、およびである意味します。 j i b i = a i c Xbj=ajjibi=aicX

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.