1
エラーサーフェスコンベックスの原因は何ですか?それはコバリンス行列またはヘッセ行列によって決定されますか?
現在、回帰の最小二乗(および他の)推定について学習しています。また、いくつかの適応アルゴリズムの文献でも読んでいるところから、「... and error surface isconvex ...」というフレーズが表示され、そもそも凸である理由についての深さはどこにも見当たりません。 ...だから、それを正確に凸状にするのは何ですか? 私は自分のコスト関数で自分の適応アルゴリズムを設計できるようにしたいので、この繰り返しの省略はやや面倒ですが、コスト関数が凸誤差曲面を生成するかどうかわからない場合、私はすることができませんグローバルな最小値はないので、勾配降下のようなものを適用するのは遠すぎます。たぶん私は創造的になりたい-たぶん、私はエラー基準として最小二乗を使いたくないでしょう さらに掘り下げてみると(そして私の質問はここから始まります)、凸状のエラーサーフェスがあるかどうかを判断するには、ヘッセ行列が正の半正定行列であることを確認する必要があります。対称行列の場合、このテストは簡単です-ヘッセ行列のすべての固有値が非負であることを確認してください。(行列が対称でない場合、Gramianにより、行列を独自の転置に追加して同じ固有値検定を実行することで対称にすることができますが、ここでは重要ではありません)。 ヘッセ行列とは何ですか?ヘッセ行列は、コスト関数の部分の可能なすべての組み合わせを成文化します。パーシャルはいくつありますか?フィーチャベクトル内のフィーチャの数。パーシャルの計算方法は?元のコスト関数から「手動」で偏導関数を取得します。 それがまさに私がやったことです:マトリックスXで示されるmmm x nnnデータマトリックスがあると仮定します。ここで、mは例の数を示し、nは例ごとの特徴の数を示します。(これはパーシャルの数にもなります)。私は、我々が持っていると言うことができると仮定メートルの時間サンプルおよびnは、センサからの空間サンプルを、物理的なアプリケーションは、ここではあまり重要ではありません。XXXmmmnnnmmmnnn さらに、サイズm x 1のベクトルもあります。(これは「ラベル」ベクトル、またはXのすべての行に対応する「答え」です)。簡単にするために、この特定の例ではm = n = 2と仮定しました。したがって、2つの「例」と2つの「機能」です。yyymmm111XXXm=n=2m=n=2m=n=2 ここで、ここで最適な「ライン」または多項式を確認したいとします。つまり、コスト関数が次のようになるように、多項式係数ベクトルに対して入力データフィーチャを投影します。θθ\boldsymbol{\theta} J(θ)=12m∑i=1m[θ0x0[i]+θ1x1[i]−y[i]]2J(θ)=12m∑i=1m[θ0x0[i]+θ1x1[i]−y[i]]2 J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} \bigg[\theta_{0}x_{0}[i] + \theta_{1}x_{1}[i] - y[i]\bigg]^{2} 今、私たちが最初の偏微分WRTみましょうしたがって、(機能0):θ0θ0\theta_{0} δJ(θ)δθ0=1m∑i=1m[θ0x0[i]+θ1x1[i]−y[i]]x0[i]δJ(θ)δθ0=1m∑i=1m[θ0x0[i]+θ1x1[i]−y[i]]x0[i] \frac{\delta J(\theta)}{\delta\theta_0} = \frac{1}{m}\sum_{i=1}^{m} \bigg[\theta_{0}x_{0}[i] + \theta_{1}x_{1}[i] - y[i]\bigg] x_{0}[i] δJ(θ)δθ0=1m∑i=1m[θ0x20[i]+θ1x1[i]x0[i]−y[i]x0[i]]δJ(θ)δθ0=1m∑i=1m[θ0x02[i]+θ1x1[i]x0[i]−y[i]x0[i]] \frac{\delta J(\theta)}{\delta\theta_0} = \frac{1}{m}\sum_{i=1}^{m} \bigg[\theta_{0}x_{0}^{2}[i] + …