統計とビッグデータ gradient

2

勾配ブースティングについて学習している間、このメソッドがモデルの構築とアンサンブルに使用する「弱い分類器」のプロパティに関する制約について聞いたことがありません。しかし、線形回帰を使用するGBのアプリケーションを想像することはできませんでした。実際、いくつかのテストを実行したとき、それは機能しません。私は、残差の平方和の勾配で最も標準的なアプローチをテストし、後続のモデルを一緒に追加していました。明らかな問題は、最初のモデルからの残差が、もはや適合する回帰線が実際に存在しないような方法で取り込まれることです。私の別の観察では、後続の線形回帰モデルの合計も単一の回帰モデルとして表現できるため（すべての切片と対応する係数を追加）、モデルをどのように改善できるか想像できません。最後の観察結果は、線形回帰（最も一般的なアプローチ）は損失関数として二乗残差の合計を使用していることです-GBが使用しているものと同じです。また、学習率を下げるか、各反復で予測子のサブセットのみを使用することも考えましたが、それでも最終的には単一のモデル表現にまとめることができるため、改善はないと思います。ここで何が欠けていますか？Gradient Boostingで使用するのに線形回帰は何らかの形で不適切ですか？それは、線形回帰が損失関数として残差の二乗和を使用しているからでしょうか？グラディエントブースティングに適用できるように、弱い予測子には特定の制約がありますか？

35 regression machine-learning boosting ensemble gradient

1

勾配ブースティングは、1％のような低いイベント率のデータに適していますか？

Enterprise Minerを使用して、イベント率が約1％のデータセットで勾配ブーストを試行していますが、出力を生成できません。私の質問は、ディシジョンツリーベースのアプローチなので、このような低いイベントで勾配ブースティングを使用することは適切ですか？

14 boosting unbalanced-classes rare-events gradient

2

単層ニューラルネットワークの勾配をその入力に対して導出する場合、チェーンルールの演算子は何ですか？

問題は：クロスエントロピー損失のある入力->非表示、非表示->出力にシグモイドを使用する単一の非表示層ニューラルネットワークの入力層に関する勾配を導出します。チェーンルールを使用してほとんどの派生を通過できますが、実際にそれらを「チェーン」する方法については不明です。いくつかの表記法を定義する r=xW1+b1r=xW1+b1 r = xW_1+b_1 h=σ(r)h=σ(r) h = \sigma\left( r \right) 、はシグモイド関数ですσσ\sigma θ=hW2+b2θ=hW2+b2 \theta = hW_2+b_2 、 y^=S(θ)y^=S(θ) \hat{y} = S \left( \theta \right) 、はソフトマックス関数SSS J(y^)=∑iylogy^iJ(y^)=∑iylog⁡y^i J\left(\hat{y}\right) = \sum_i y \log\hat{y}_i 、は実際のラベルのワンホットベクトルyyy 次に、連鎖ルールによって、 ∂J∂x=∂J∂θ⋅∂θ∂h⋅∂h∂r⋅∂r∂x∂J∂x=∂J∂θ⋅∂θ∂h⋅∂h∂r⋅∂r∂x \frac{\partial J}{\partial \boldsymbol{x}} = \frac{\partial J}{\partial \boldsymbol{\theta}} \cdot \frac{\partial \boldsymbol{\theta}}{\partial \boldsymbol{h}} \cdot \frac{\partial …

9 neural-networks gradient

3

非凸関数の勾配降下

非凸関数について、勾配降下が収束する（臨界点または局所/大域最小値のいずれかに）示される可能性がある場所について、私たちはどのような状況を知っていますか？非凸関数のSGDについては、1種類の証明がここで確認されています。http：//www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf

9 gradient-descent gradient sgd non-convex

1

バギング技術を使用して、多くの勾配ブースティングツリーを組み合わせることができますか？

勾配ブースティングツリーとランダムフォレストに基づいています。GBDTとRFは、バイアスと分散に取り組むために異なる戦略を使用しています。私の質問は、複数のGBDTをトレーニングし、それらの予測を最終結果として組み合わせるために、データセットを（置き換えて）リサンプリングできるということです。 GBDTを基本学習者として使用してランダムフォレストを構築するのと同じですアイデアは、GBDTがデータセットをオーバーフィットする可能性があることです（完全に成長する決定木と同様、低バイアス、高分散）。バギング手法を使用することでこの問題も軽減でき、パフォーマンスを向上させたいと思います。なにか提案を？

8 random-forest cart boosting bagging gradient

3

数値勾配チェック：どれくらい近いですか？

たたみ込みニューラルネットワークを作成し、数値勾配チェックを使用して勾配が正しく計算されていることを確認したいと思いました。問題は、どれだけ近いかということです。私のチェック機能は、計算された導関数、数値的に近似された導関数、2つの値の差、および2つの値が同じ符号を持っているかどうか（1つは正でもう1つは負であるかどうか）重量。私の主な懸念は、完全に接続されたすべてのレイヤーと最初のレイヤーを除くすべての畳み込みレイヤーの違いが似ていることです。2つの数字の最初の9〜13文字が一致します。いいですね。しかし、最初の畳み込み層の重みでは、一致する小数点以下の桁数が最大で12になる場合がありますが、3の場合もあります。それで十分ですか、それともエラーの可能性がありますか？注意すべき1つの良い点は、2つの値の符号が常に一致していることです。これは、動きの大きさが少しずれていても、ネットワークは常に正しい方向に動きます。しかし、それが問題です...それがオフになっている可能性はありますか？

8 neural-networks conv-neural-network gradient

タグ付けされた質問 「gradient」

タグ付けされた質問「gradient」