タグ付けされた質問 「hessian」

8
ニュートンの方法が機械学習で広く使用されていないのはなぜですか?
これはしばらくの間私を悩ませてきたものであり、満足のいく答えをオンラインで見つけることができなかったので、ここに行きます: 凸最適化に関する一連の講義をレビューした後、Newtonの方法は、勾配降下よりもはるかに優れたアルゴリズムであり、グローバルに最適なソリューションを見つけることができます。これは、Newtonの方法は、はるかに少ないステップ。ニュートン法などの2次最適化アルゴリズムが、機械学習問題で確率的勾配降下ほど広く使用されないのはなぜですか?


1
xgboostアルゴリズムのmin_child_weightの説明
xgboostのmin_child_weightパラメーターの定義は次のとおりです。 子に必要なインスタンスの重み(ヘシアン)の最小合計。ツリーパーティションのステップの結果、インスタンスの重みの合計がmin_child_weightより小さいリーフノードが生成される場合、構築プロセスはさらにパーティションを放棄します。線形回帰モードでは、これは単に各ノードに必要なインスタンスの最小数に対応します。アルゴリズムが大きくなるほど、保守的になります。 元の論文(式8と式9の直後のもの)、この質問、およびGoogle検索の最初の数ページに表示されるxgboostで行うほとんどのことを含め、xgboostでかなり多くのことを読みました。;) 基本的に、ヘシアンの合計に制約を課している理由について、私はまだ満足していませんか?元の論文からの私の唯一の考えは、それが各インスタンスの「重み」としてを持つ重み付き分位点スケッチセクション(および式3の重み付き2乗損失の再定式化)にているということです。hihih_i さらなる質問は、それが単に線形回帰モードのインスタンスの数である理由に関するものですか?これは二乗和方程式の二次導関数に関係していると思いますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.