タグ付けされた質問 「neural-networks」

人工ニューラルネットワーク(ANN)は、生物学的ニューラルネットワークに大まかに基づいた広範なクラスの計算モデルです。これらには、フィードフォワードNN(「ディープ」NNを含む)、畳み込みNN、反復NNなどが含まれます。

2
ニューラルネットワークの強化
つい最近、私はアダブースト、勾配ブーストなどのブースティングアルゴリズムの学習に取り組んでおり、最も一般的に使用される弱学習器はツリーであるという事実を知っています。基本学習者としてニューラルネットワークを使用するための最近の成功例(論文または記事を意味します)があることを本当に知りたいです。

3
パーセプトロン規則から勾配降下へ:シグモイド活性化関数を持つパーセプトロンはロジスティック回帰とどのように異なりますか?
本質的に、私の質問は、多層パーセプトロンにおいて、パーセプトロンがシグモイド活性化機能とともに使用されるということです。更新ルールでは、は次のように計算されます。y^y^\hat{y} y^= 11 + exp(− wTバツ私)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} この「シグモイド」パーセプトロンは、ロジスティック回帰とどのように違いますか? 単一層のシグモイドパーセプトロンは、両方とも更新ルールの。また、両方とも予測でをます。ただし、多層パーセプトロンでは、シグモイド活性化関数を使用して、ロジスティック回帰と単層パーセプトロンとは対照的に、オンオフ信号ではなく確率を返します。記号( Y =1y^= 11 + exp(− wTバツ私)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}符号(y^= 11 + exp(− wTバツ私))sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}) 「パーセプトロン」という用語の使用法は少し曖昧かもしれないと思うので、単層パーセプトロンについての私の現在の理解に基づいて背景を説明しましょう。 古典的なパーセプトロン規則 まず、ステップ関数があるF. Rosenblattによる古典的なパーセプトロン: Δのワットd= η(y私− y私^)xI Dy私、y私^∈ { - 1 、1 }Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\} 重みを更新するには wk:= wk+ …



5
独自のトポロジを構築する最新のニューラルネットワーク
標準的なニューラルネットアルゴリズム(backpropなど)の制限は、必要な隠れ層と層ごとのニューロンの数を設計で決定する必要があることです。通常、学習率と一般化はこれらの選択に非常に敏感です。これが、カスケード相関などのニューラルネットアルゴリズムが関心を集めている理由です。最小限のトポロジ(入力ユニットと出力ユニットのみ)で開始し、学習が進むにつれて新しい隠れユニットを募集します。 CC-NNアルゴリズムは、1990年にFahlmanによって、1991年にリカレントバージョンとして導入されました。最小トポロジで始まる最近(1992年以降)のニューラルネットアルゴリズムは何ですか? 関連する質問 CogSci.SE:神経発生の生物学的にもっともらしい説明を伴うニューラルネットワーク

5
正弦波の予測でニューラルネットワークを改善するにはどうすればよいですか?
ここでは、見て: あなたは場所を正確にトレーニングデータの終了を確認することができます。トレーニングデータから行くまで1。−1−1-1111 Kerasと、tanhアクティベーションを使用した1-100-100-2の高密度ネットワークを使用しました。pとqの2つの値pとqから結果を計算します。このように、1より小さい値のみを使用して、任意のサイズの数値を実現できます。 私はまだこの分野の初心者であるため、簡単に説明してください。

3
トレーニング損失は時間とともに増加します[複製]
この質問にはすでに回答があります: コスト関数の変化はどのようにプラスになりますか? (1つの答え) ニューラルネットワークが学習しない場合はどうすればよいですか? (5つの答え) 先月閉鎖されました。 モデル(リカレントニューラルネットワーク)をトレーニングして、4種類のシーケンスを分類しています。トレーニングを実行すると、トレーニングバッチのサンプルの90%以上を正しく分類するまで、トレーニングの損失が減少します。しかし、数エポック後に、トレーニングの損失が増加し、精度が低下することに気付きました。トレーニングセットでは、パフォーマンスが時間の経過とともに悪化することなく改善されると予想されるため、これは私にとって奇妙に思えます。クロスエントロピー損失を使用しており、学習率は0.0002です。 更新:学習率が高すぎることが判明しました。学習率が十分に低い場合、この動作は観察されません。しかし、私はまだこの奇妙なことを見つけます。これが起こる理由についての良い説明は大歓迎です

2
アクティベーション機能としてsoftplusよりもReLUを使用する利点は何ですか?
整流線形ユニット(ReLU)は、softplusユニットが線形であり、計算が高速であるため、softplusユニットに取って代わりました。 softplusには、スパース性を誘発するという利点がまだありますか、それともReLUに制限されていますか? 私が尋ねる理由は、ReLUのゼロ勾配の負の結果について疑問に思うからです。このプロパティは、再アクティブ化の可能性を与えることが有益な場合に、ゼロでユニットを「トラップ」しませんか?

2
バッチ正規化では、移動平均を使用して、トレーニング中のモデルの精度を追跡する方法と理由を教えてください。
私はバッチ正規化(BN)論文(1)を読んでいて、モデルの精度を追跡するために移動平均を使用する必要があることを理解していませんでした。彼らがまさにやっていること。 私の理解(これは間違っている)に、論文では、モデルがトレーニングを終了した後、ミニバッチ統計ではなく人口統計を使用していることに言及しています。偏りのない推定についての議論の後(それは私には接線のようであり、なぜそれについて話すのか理解できない)、彼らは行って言う: 代わりに移動平均を使用して、トレーニング中のモデルの精度を追跡します。 それは私を混乱させている部分です。なぜ移動平均を行ってモデルの精度とどのデータセットを推定するのですか? 通常、人々はモデルの一般化を推定するために行うことで、モデルの検証エラーを追跡します(そして、勾配降下を早期に停止して正則化する可能性があります)。ただし、バッチの正規化はまったく異なることを行っているようです。誰かが何を、なぜ違うことをしているのかを明確にできますか? 1:Ioffe S.およびSzegedy C.(2015)、 「バッチ正規化:内部共変量シフトの削減によるディープネットワークトレーニングの加速」、 第32回機械学習に関する国際会議の議事録、リール、フランス、2015年。 機械学習研究ジャーナル: W&CPボリューム37

2
各値をベクトルの合計で除算できるのに、softmax関数を使用して確率を計算するのはなぜですか?
ベクター上にソフトマックス関数を適用する間に、「確率」との値を生成する及び。 000111 しかし、我々はまた、ベクトルの和によって各値を分割することができ、それは間確率と値を生成する及び。000111 私はここで答えを読みましたが、理由はそれが微分可能であるためだと言いますが、両方の関数は微分可能です。


1
ベイジアンネットワークからニューラルネットワークへ:多変量回帰を多出力ネットワークに変換する方法
私はベイジアン階層線形モデルを扱っています。ここではそれを説明するネットワークです。 は、スーパーマーケットでの製品の毎日の販売を表します(観測)。YYY は、価格、プロモーション、曜日、天気、休日を含む、回帰変数の既知のマトリックスです。XXX 私は、各製品のバイナリ変数のベクトル一検討最も問題とさせる、各製品、未知の潜在在庫レベルである 1つのを示す欠品や製品の利用できないようにします。 理論的には不明であったとしても、各製品のHMMを使用して推定したため、Xとして知られていると見なされます。適切な形式のためにシェーディングを解除することにしました。SSS111 は、単一の製品の混合効果パラメーターであり、考慮される混合効果は製品価格、プロモーション、在庫切れです。ηη\eta は固定回帰係数のベクトルで、 b 1と b 2は混合効果係数のベクトルです。1つのグループはブランドを示し、もう1つのグループはフレーバーを示します(これは例であり、実際には多くのグループがありますが、ここではわかりやすくするために2つだけ報告しています)。ββ\betab1b1b_1b2b2b_2 、 Σ B 1及び ΣのB 2は、混合効果を超えるハイパーです。ΣηΣη\Sigma_{\eta}Σb1Σb1\Sigma_{b_1}Σb2Σb2\Sigma_{b_2} カウントデータがあるので、各製品の売り上げをリグレッサーに条件付きポアソン分布として扱うとしましょう(一部の製品では線形近似が成り立ち、他の製品ではゼロ膨張モデルが優れている場合でも)。そのような場合、私は製品を持っています(これはベイジアンモデル自体に興味がある人のためのものです、それが面白くないまたは些細ではない場合は質問にスキップしてください:)):YYY Ση∼IW(α0,γ0)Ση∼IW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σb1∼IW(α1,γ1)Σb1∼IW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) 、 α 0、γ 0、α 1、γ 1、α 2、γ 2知ら。Σb2∼IW(α2,γ2)Σb2∼IW(α2,γ2)\Sigma_{b_2} \sim IW(\alpha_2,\gamma_2)α0,γ0,α1,γ1,α2,γ2α0,γ0,α1,γ1,α2,γ2\alpha_0,\gamma_0,\alpha_1,\gamma_1,\alpha_2,\gamma_2 η∼N(0,Ση)η∼N(0,Ση)\eta \sim N(\mathbf{0},\Sigma_{\eta}) b1∼N(0,Σb1)b1∼N(0,Σb1)b_1 \sim N(\mathbf{0},\Sigma_{b_1}) b2∼N(0,Σb2)b2∼N(0,Σb2)b_2 \sim N(\mathbf{0},\Sigma_{b_2}) 、 Σはβ知られています。β∼N(0,Σβ)β∼N(0,Σβ)\beta \sim N(\mathbf{0},\Sigma_{\beta})ΣβΣβ\Sigma_{\beta} 、λtijk=β∗Xti+ηi∗Xppsti+b1j∗Ztj+b2kZtkλtijk=β∗Xti+ηi∗Xppsti+b1j∗Ztj+b2kZtk\lambda _{tijk} …

4
ニューラルネットワークの角度データのエンコード
ターゲットデータが角度のベクトル(0〜2 * pi)であるニューラルネットワーク(詳細は重要ではありません)をトレーニングしています。このデータをエンコードする方法に関するアドバイスを探しています。私が現在試みていることは次のとおりです(成功は限られています)。 1)1-of-Cエンコード:設定可能な角度を1000程度の離散的な角度にビン化し、関連するインデックスに1を入力することで特定の角度を示します。これに関する問題は、ネットワークがすべての0を出力することを単に学習することです(これはほぼ正確であるため)。 2)単純なスケーリング:ネットワーク出力範囲([0,1])を[0,2 * pi]にスケーリングしました。ここでの問題は、角度が自然に円形のトポロジを持っていることです(つまり、0.0001と2 * piは実際には互いに隣り合っています)。このタイプのエンコードでは、その情報は失われます。 任意の提案をいただければ幸いです!

1
順序データを出力するようにニューラルネットワークを設定する方法は?
出力変数が序数である場所を予測するために、ニューラルネットワークを設定しています。3つの可能な出力A <B <Cを使用して以下に説明します。 ニューラルネットワークを使用してカテゴリデータを出力する方法は非常に明白です。出力は最後の(通常は完全に接続された)レイヤーのソフトマックスであり、カテゴリごとに1つであり、予測カテゴリは最大の出力値を持つものです(これは多くの一般的なモデルのデフォルト)。序数値には同じ設定を使用しています。ただし、この場合、出力は意味をなさないことがよくあります。たとえば、AとCのネットワーク出力は高くてもBは低くなります。これは順序値には当てはまりません。 これには、出力をAの1 0 0、Bの1 1 0、Cの1 1 1と比較して損失を計算するというアイデアがあります。正確なしきい値は、別の分類器(たとえば、ベイジアンを使用して後で調整できます。 )しかし、これは、特定の間隔スケールを規定することなく、入力の順序付けの本質的なアイデアを捉えているようです。 この問題を解決する標準的な方法は何ですか?さまざまなアプローチの長所と短所を説明する研究や参考文献はありますか?

2
ニューラルネットでは、なぜ他のメタヒューリスティックではなく勾配法を使用するのですか?
深くて浅いニューラルネットワークのトレーニングでは、他のメタヒューリスティックとは対照的に、勾配法(勾配勾配、Nesterov、Newton-Raphsonなど)が一般的に使用されるのはなぜですか? メタヒューリスティックとは、シミュレートされたアニーリング、アリのコロニーの最適化などの方法を意味します。これらの方法は、局所的な最小値にとどまることを避けるために開発されました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.