タグ付けされた質問 「taylor-series」

1
XGBoost損失関数テイラー展開による近似
例として、番目の反復でXGBoostモデルの目的関数を使用します。ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) ここで、は損失関数、は番目のツリー出力、は正則化です。高速計算のための(多くの)重要なステップの1つは近似です:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), ここで、およびは損失関数の1次および2次導関数です。gigig_ihihih_i 私が求めているのは、上記の近似がなぜ機能するのかを説明する説得力のある説得です: 1)上記の近似のXGBoostは、完全な目的関数のXGBoostと比較してどうですか?どのような潜在的に興味深い、高次の動作が近似で失われますか? 2)視覚化するのは少し難しい(損失関数に依存する)が、損失関数に大きな3次成分がある場合、近似は失敗する可能性が高い。これがXGBoostに問題を引き起こさないのはどうしてですか?

1
近似
私は何気なく、次のような記事(経済学)を読んでいました。ログ(E(X))log⁡(E(X))\log(E(X)) 、ログ(E(X))≈ E(ログ(X))+ 0.5 v a r(ログ(X))log⁡(E(X))≈E(log⁡(X))+0.5var(log⁡(X))\log(E(X)) \approx E(\log(X))+0.5 \mathrm{var}(\log(X)) Xが対数正規であれば(筆者は知っています)、著者が言っていることは正確です。 私が知らないのは、この近似をどのように導出するかです。2次のテイラー近似を計算してみましたが、思いついたのは次の式だけです。 ログ(E(X))≈ E(ログ(X))+ 0.5 v a r(X)E(X)2log⁡(E(X))≈E(log⁡(X))+0.5var(X)E(X)2\log(E(X)) \approx E(\log(X))+0.5\frac{\mathrm{var}(X)}{E(X)^2}
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.