タグ付けされた質問 「deep-learning」

主にディープニューラルネットワークで行われる、データの階層表現の学習に関係する機械学習の領域。

2
ピアソンの相関係数を機械学習の最適化目標として使用する
機械学習(回帰問題の場合)では、最小化する誤差関数(および正則化項)として平均二乗誤差(MSE)または平均絶対誤差(MAE)が使用されることがよくあります。相関係数を使用する方が適切な状況があるのでしょうか。そのような状況が存在する場合: MSE / MAEと比較して、どのような状況で相関係数が優れたメトリックになりますか? これらの状況で、MSE / MAEはまだ使用するのに適したプロキシコスト関数ですか? 相関係数の最大化は直接可能ですか?これは使用する安定した目的関数ですか? 相関係数が直接最適化の目的関数として使用されるケースは見つかりませんでした。このエリアの情報を教えていただければ幸いです。

3
ニューラルネットワークのエンコード日付/時刻(循環データ)
ニューラルネットワークのイベントの日付と時刻をエンコードする方法 連続した時系列はありませんが、日付と時刻のあるイベントがいくつかあります。ある種の興味を分析します。この関心は、朝と夕方で異なり、平日と夏と冬の間、およびクリスマスとイースターの前などにも異なります。そして、イベント自体は、時間の経過とともに強い不均一な分布を示します(夜よりも日中の方が多く、平日にもっと多く、週末にもっと多くの種類があります)。 私はそれを年間の週数、曜日1〜7、時間帯としてエンコードしてみました。しかし、まばらなオートエンコーダーをいじってみると、私のデータはニューラルネットワークにとって意味がなく、大きな隠れ層があっても、入力の近くには何も再現できないという印象がありました。カテゴリー0-1としても、正規化された値としても。 しかし、ニューラルネットワークの時間のエンコーディングを検索すると、ほとんどの場合、時系列に関する情報が得られます。そのため、森によって少し目隠しされていますが、木を探しています。 もちろん、私はデータを見て、それをだいたいの独裁的なものに大まかに分類することができました。しかし、ディープラーニングの概念は、すべての手作りの手動による特徴抽出を一掃するようです。また、分類により、自然に連続する入力変数に大きなジャンプが挿入されます。 私の頭の中での「自然なエンコーディング」は、「夜」、「朝」、「平日」などのいくつかのカテゴリのあいまいなメンバーシップのようなものです。 全体をより興味深いものにするために、dependend変数にもこれらの日付/時刻データが含まれていますが、それは別の問題です。 編集:どういうわけかデータの循環的な種類に関連して、次のような最近の質問があります この時刻データセットで妥当な統計検定はどれですか。

4
ディープラーニングにおけるMLEとクロスエントロピーの関係はどの程度意味がありますか?
一連の独立した観測 が与えられたことを理解してい最尤推定(または、平坦と同等に、MAP /均一前)ことを識別するパラメータ\ mathbf {θ}モデル分布生成 P_ {モデル} \ これらの観測に最もよく一致するleft(\、\ cdot \、; \ mathbf {θ} \ right)は、mmmO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ‎‎∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=arg⁡maxθ‎‎∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}‎‎\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) または、より便利に θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)θML(O)=arg⁡minθ∑i=1m−log⁡pmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= \underset{\mathbf{θ}}{\arg\min}\sum_{i=1}^{m} -\log p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) その役割を参照θMLθML\mathbf{θ}_{ML}、マルチクラスの深いニューラルネットワークを損失関数を定義する際に再生することができますがこれでθθ\mathbf{θ}ネットワークのトレーニング可能パラメータ(例えば、に相当するθ={W,b})θ={W,b})\mathbf{θ} = \{\mathbf{W}, \mathbf{b}\} )と観測は、入力アクティベーションxx\mathbf{x}と対応する正しいクラスラベルy∈[1,k]y∈[1,k]y \in [1, k]、\ mathbf {oのペアです。} ^ {(i)}o(i)o(i)\mathbf{o}^{(i)} = { …

2
Google Inceptionモデル:複数のソフトマックスがあるのはなぜですか?
Google Inceptionモデルのトポロジは、次の場所にあります。GoogleInception Netowrk このモデルには3つのソフトマックスレイヤー(#154、#152、#145)があり、そのうちの2つはこのモデルの初期のエスケープです。 私が知っていることから、softmaxレイヤーは最終出力用ですが、なぜそれほど多くあるのですか?他の2つのレイヤーの目的は何ですか?

2
Keras:val_lossが増加する一方で損失が減少するのはなぜですか?
一連のパラメーターのグリッド検索を設定しました。バイナリ分類を行うKerasニューラルネットに最適なパラメーターを見つけようとしています。出力は1または0です。約200の機能があります。グリッド検索を行ったとき、一連のモデルとそのパラメーターを取得しました。最良のモデルには次のパラメーターがありました。 Epochs : 20 Batch Size : 10 First Activation : sigmoid Learning Rate : 1 First Init : uniform そしてそのモデルの結果は: loss acc val_loss val_acc 1 0.477424 0.768542 0.719960 0.722550 2 0.444588 0.788861 0.708650 0.732130 3 0.435809 0.794336 0.695768 0.732682 4 0.427056 0.798784 0.684516 0.721137 5 0.420828 0.803048 0.703748 0.720707 …


5
CNNの顔/非顔検出のバイナリ検出に使用する損失関数は何ですか?
ディープラーニングを使用して顔/非顔のバイナリ検出をトレーニングします。どの損失を使用する必要がありますか、それはSigmoidCrossEntropyLossまたはHinge-lossであると思います。 それは正しいですが、ソフトマックスを2つのクラスだけで使用する必要があるのでしょうか?

1
損失関数の2次近似(ディープラーニングブック、7.33)
ディープラーニングに関するGoodfellow(2016)の本で、彼はL2正則化への早期停止の同等性について話しました(https://www.deeplearningbook.org/contents/regularization.html 247ページ)。 コスト関数jjj 2次近似は、次の式で与えられます。 J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

4
尤度のない推論-それはどういう意味ですか?
最近、私は「可能性のない」方法が文学で取り残されていることに気づきました。ただし、推論または最適化の方法が尤度フリーであることの意味は明確ではありません。 機械学習の目的は、通常、一部のパラメーターがニューラルネットワークの重みなどの関数に適合する可能性を最大にすることです。 では、正確に尤度フリーのアプローチの哲学は何であり、なぜGANsのような敵対的なネットワークがこのカテゴリーに該当するのでしょうか?

3
空間の任意の点に向けてL2正則化を実装する方法は?
これは、Ian Goodfellowの本「Deep Learning」で読んだものです。 ニューラルネットワークのコンテキストでは、「L2パラメータのノルムペナルティは一般的に重み減衰として知られています。この正則化戦略は、重みを原点に近づけます[...]。より一般的には、パラメータを任意の特定の点の近くに正則化できます空間内」ですが、モデルパラメータをゼロに向けて正則化するのがはるかに一般的です。(ディープラーニング、グッドフェロー他) 気になるだけです。コスト関数に正則化項を追加するだけで、この合計コストJJJを最小化することで、モデルのパラメーターを小さく保つことができることを理解しています。 J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} しかし、パラメーターを任意のポイントに導くこの正則化戦略のバージョンをどのように実装しますか?(たとえば、ノルムを5に向けたいとしましょう)

2
残差ネットワークは勾配ブースティングに関連していますか?
最近、Residual Neural Netが登場しました。各レイヤーは、計算モジュールと、i番目のレイヤーの出力などのレイヤーへの入力を保持するショートカット接続で構成されています: ネットワークは、残差の特徴を抽出し、より深い深度を可能にすると同時に、消失する勾配の問題に対してより堅牢になり、最先端のパフォーマンスを実現します。y i + 1 = c i + y icicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i 機械学習の世界で非常に強力な技術である勾配ブースティングを掘り下げましたが、これも損失の残差に対して勾配の最適化の形式を実行しているようです。何らかの形の類似性を確認することは困難です。 私はそれらが類似しているが同じではないことを知っています -私が気付いた1つの大きな違いは、残差ネットがネットワーク全体を最適化する一方で、勾配ブースティングが加法項で最適化を実行することです。 彼が元の論文で彼らの動機の一部としてこれに言及しているのを見なかった。だから私はこのトピックに関するあなたの洞察は何であるかと思っていて、あなたが持っている興味深いリソースを共有するようにお願いしました。 ありがとうございました。

3
Word2Vecのスキップグラムモデルはどのように出力ベクトルを生成しますか?
Word2Vecアルゴリズムのスキップグラムモデルを理解できません。 連続する単語のバッグでは、基本的にワンホットエンコーディング表現と入力行列Wを乗算した後にそれらを平均化するため、ニューラルネットワークでコンテキストワードがどのように「適合する」かを簡単に確認できます。 ただし、スキップグラムの場合、ワンホットエンコーディングと入力行列を乗算して入力ワードベクトルを取得するだけで、コンテキストワードのC(=ウィンドウサイズ)ベクトル表現を乗算して、出力行列W 'を使用した入力ベクトル表現。 つまり、サイズボキャブラリとサイズエンコーディング、入力行列、およびエンコーディングがあります。出力行列として。ワード所与ワンホットエンコーディングとコンテキスト言葉ではと(ワンホット担当者が有する及びあなたが乗算場合)、入力行列によってあなたが得る、これからスコアベクトルをどのように生成しますか?VVVNNNW∈RV×NW∈RV×NW \in \mathbb{R}^{V\times N}W′∈RN×VW′∈RN×VW' \in \mathbb{R}^{N\times V}wiwiw_ixixix_iwjwjw_jwhwhw_hxjxjx_jxhxhx_hxixix_iWWWh:=xTiW=W(i,⋅)∈RNh:=xiTW=W(i,⋅)∈RN{\bf h} := x_i^TW = W_{(i,\cdot)} \in \mathbb{R}^NCCC

2
部分的に「不明な」データによる分類
入力として数値のベクトルを取り、出力としてクラスラベルを与える分類子を学びたいとしましょう。私のトレーニングデータは、多数の入出力ペアで構成されています。 ただし、新しいデータをテストする場合、このデータは通常、部分的にしか完成していません。たとえば、入力ベクトルの長さが100の場合、30個の要素にのみ値が与えられ、残りは「不明」です。 この例として、画像の一部が隠れていることがわかっている画像認識を考えてみます。または、データの一部が破損していることがわかっている一般的な意味で分類を検討してください。すべての場合において、データベクトルのどの要素が未知の部分であるかを正確に把握しています。 この種類のデータで機能する分類子をどのようにして学習できるのでしょうか。「未知の」要素を乱数に設定することもできますが、既知の要素よりも未知の要素の方が多いことが多いので、これは良い解決策のようには聞こえません。または、トレーニングデータの要素をランダムに「不明」に変更し、完全なデータではなくこれらでトレーニングすることもできますが、これには既知の要素と未知の要素のすべての組み合わせの徹底的なサンプリングが必要になる場合があります。 特に、ニューラルネットワークについて考えていますが、他の分類器を利用できます。 何か案は?ありがとう!

3
ニューラルネットワークをグラフィカルモデルとして数学的にモデル化する
ニューラルネットワークとグラフィカルモデルを数学的に結びつけるのに苦労しています。 グラフィカルモデルでは、アイデアは単純です。確率分布はグラフのクリークに従って因数分解され、ポテンシャルは通常指数関数的ファミリーです。 ニューラルネットワークに同等の推論はありますか?制限付きボルツマンマシンまたはCNNのユニット(変数)の確率分布を、それらのエネルギー、またはユニット間のエネルギーの積の関数として表現できますか? また、確率分布は、指数ファミリーのRBMまたはディープビリーフネットワーク(CNNなど)によってモデル化されていますか? ジョーダン&ウェインライトがグラフィカルモデル、指数ファミリ、変分推論を使用してグラフィカルモデルに対して行ったのと同じ方法で、これらの最新タイプのニューラルネットワークと統計の間の接続を形式化するテキストを見つけたいと思っています。どんなポインタでも素晴らしいでしょう。

2
CNNでフィルターサイズやストライドなどを選択しますか?
私はスタンフォード大学からのCS231N講義を見てきました。CNNアーキテクチャーのいくつかの問題に頭を抱えようとしています。私が理解しようとしているのは、畳み込みフィルターのサイズやストライドのようなものを選ぶための一般的なガイドラインがあるか、またはこれは科学というより芸術なのかということです。 私が理解しているプーリングは、主に何らかの形の翻訳不変性をモデルに誘導するために存在します。一方、歩幅のサイズの選び方については、よくわかりません。現在の層サイズを圧縮しようとすること、またはニューロンにより大きい受容野を達成しようとすることを除いて、他のガイドラインはありますか?これについて議論している良い論文や類似のものを知っている人はいますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.