統計とビッグデータ convex

6

私は博士号のために、理論的な機械学習、具体的には転移学習に取り組んでいます。好奇心から、なぜ凸最適化のコースを取る必要があるのですか？理論的機械学習の研究で、凸最適化から得られることは何ですか？

27 machine-learning optimization convex transfer-learning

6

凸問題の場合、確率的勾配降下（SGD）の勾配は常にグローバルな極値を指しますか？

最適化にSGDを使用する凸型コスト関数を考えると、最適化プロセス中の特定のポイントに勾配（ベクトル）があります。私の質問は、凸面上の点を考えると、勾配は関数が最も速く増加/減少する方向だけを指すのですか、それとも勾配は常にコスト関数の最適/極値を指すのですか？前者はローカルコンセプトであり、後者はグローバルコンセプトです。 SGDは、最終的にコスト関数の極値に収束できます。凸面上の任意の点に与えられた勾配の方向と、グローバルな極値を指す方向との違いについて疑問に思っています。グラデーションの方向は、関数がそのポイントで最も速く増加/減少する方向である必要がありますよね？

25 neural-networks optimization gradient-descent sgd convex

1

ニューラルネットワークのコスト関数が非凸であるのはなぜですか？

ここにも同様のスレッドがあります（ニューラルネットワークのコスト関数は非凸状ですか？）差の二乗コスト関数の合計を使用している場合、最終的にという形式の何かを最適化します。ここではトレーニング中の実際のラベル値ですphaseおよびは予測ラベル値です。これは正方形の形をしているので、これは凸コスト関数でなければなりません。それでは、NNで非凸になる可能性があるのは何ですか？ΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2yyyy^y^\hat{y}

22 machine-learning neural-networks optimization loss-functions convex

3

線形回帰を解くときに、複数の局所最適解が存在しますか？

私は1つの古いtrue / false試験でこの声明を読みました。勾配降下を使用して二乗誤差の合計を最小化することにより線形回帰問題を解くと、複数の局所最適解を得ることができます。解決策：False 私の質問は、この質問のどの部分が間違っているのですか？なぜこの声明は偽ですか？

19 least-squares gradient-descent convex

3

PCA最適化は凸型ですか？

主成分分析（PCA）の目的関数は、セクション2.12を参照してください（L2ノルムに再構成誤差を最小化され、ここで。別のビューが投影上の分散を最大化しようとしている我々はまた、ここでは優れた記事があります。PCAの目的関数とは何ですか？）。私の質問は、PCA最適化は凸ですか？（ここでいくつかの議論を見つけましたが、CVで誰かがここで素晴らしい証拠を提供できることを願っています）。

12 machine-learning pca optimization convex

4

LASSOモデルに反復再加重最小二乗法（IRLS）を適用する方法は？

IRLSアルゴリズムを使用してロジスティック回帰をプログラムしました。適切な機能を自動的に選択するために、LASSOペナルティを適用したいと思います。各反復で、以下が解決されます。 (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} してみましょうλλ\lambda非負実数であること。The Elementsで提案されているように、インターセプトにペナルティを課していません。統計学習。すでにゼロの係数についても同様です。そうでなければ、右側から項を引きます： XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} ただし、IRLSアルゴリズムの変更については不明です。それは正しい方法ですか？編集：私はそれについて自信がありませんでしたが、ここで私がついに思いついた解決策の一つです。興味深いのは、このソリューションがLASSOについて私が今理解していることに対応していることです。実際、各反復には1つではなく2つのステップがあります。最初のステップは以前と同じです：アルゴリズムの反復を行います（上の勾配の式でように）、λ=0λ=0\lambda=0 第二のステップは、新しいものである：我々は、（成分以外の各構成要素に軟判定閾値を適用ベクトルの切片に相当）β第一工程で得られました。これは、反復ソフトしきい値アルゴリズムと呼ばれます。β0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)

12 logistic generalized-linear-model feature-selection lasso convex

3

ニューラルネットワークのクロスエントロピーコスト関数は凸ですか？

私の先生は、クロスエントロピーの2次導関数が常に正であることを証明したので、クロスエントロピーを使用するニューラルネットワークのコスト関数は凸になります。これは本当ですか？私はいつもANNのコスト関数が非凸であることを学んできたので、これについてはかなり混乱しています。誰かがこれを確認できますか？大いに感謝する！ http://z0rch.com/2014/06/05/cross-entropy-cost-function

9 neural-networks convex

1

関連する

イメージセンサーのピクセルでのフォトンの到着はポアソン分布確率変数であり、入力はポアソンrvとしてモデル化できます。X∼Poisson(λ)X∼Poisson(λ)X\sim \mathrm{Poisson}(\lambda) 入力はポアソンであるため、平均と分散は次のように等しくなります。 E[X]Var[X]=1E[X]Var[X]=1\begin{equation} \frac{\mathbb{E}[X]}{\mathrm{Var}[X]}=1 \end{equation} これで、フォトン入力がリニアイメージセンサー（カメラ）を通過してデジタル出力が生成されると、これを線形変換として扱い、出力がます。XXXYYYY=X/gY=X/gY=X/g このリニアセンサの場合には、私は`変換利得を抽出することができ、光子の、すなわち数として表され、一方のデジタル出力を生成するために必要な（光子/デジタル＃）の単位で、としてggg E[Y]Var[Y]=E[X/g]Var[X/g]=1gE[X]1g2Var[X]=gE[Y]Var[Y]=E[X/g]Var[X/g]=1gE[X]1g2Var[X]=g\begin{equation} \frac{\mathbb{E}[Y]}{\mathrm{Var}[Y]}=\frac{\mathbb{E}[X/g]}{\mathrm{Var}[X/g]}=\frac{\frac{1}{g}\mathbb{E}[X]}{\frac{1}{g^2}\mathrm{Var}[X]}=g \end{equation} ただし、変換ゲインが入力に線形に依存するセンサーを考えてみたとえば、でおよびです。これは、ゲインが信号増加関数であることを意味します。Y=X/(aX+b)Y=X/(aX+b)Y=X/(aX+b)a>0a>0a>0b>0b>0b>0g(x)=ax+bg(x)=ax+bg(x)=ax+b この非線形センサーの場合、出力の平均と分散の比からゲインを見つけることはできません。 E[Y]Var[Y]≠g(x)E[Y]Var[Y]≠g(x)\begin{equation} \frac{\mathbb{E}[Y]}{\mathrm{Var}[Y]}\neq g(x) \end{equation} 実際、測定された変換ゲインは、どの入力信号レベルでも実際の変換ゲインよりも大きいことがわかります。 E[Y]Var[Y]>g(x)E[Y]Var[Y]>g(x)\begin{equation} \frac{\mathbb{E}[Y]}{\mathrm{Var}[Y]}> g(x) \end{equation} これについての説明の一部は、ランダム入力増加する凹型変換について、つまりあると述べているジェンセンの不等式です。XXXY=f(X)Y=f(X)Y=f(X) E[Y]=E[f(X)]≤f(E[X])E[Y]=E[f(X)]≤f(E[X])\begin{equation} \mathbb{E}[Y]=\mathbb{E}[f(X)]\leq f(\mathbb{E}[X]) \end{equation} 私の場合、は実際には増加する凹関数であり、出力で測定された平均が入力の変換平均よりも小さいことを意味します。出力で測定されたゲインが過大評価され、測定された平均が過小評価されていることがわかっているため、測定された分散が平均よりもさらに過小評価されていることを意味します。Y=X/(aX+b)Y=X/(aX+b)Y=X/(aX+b) これを証明したり、数学的にこれを書くにはどうすればよいですか？分散に対するジェンセンの不等式の一般化はありますか？この例でゲインが過大評価されている理由を正確に示すことはできますか？

8 variance poisson-distribution probability-inequalities convex

タグ付けされた質問 「convex」

タグ付けされた質問「convex」