タグ付けされた質問 「deep-learning」

主にディープニューラルネットワークで行われる、データの階層表現の学習に関係する機械学習の領域。

4
CNN、カーネル、およびスケール/回転不変性について
CNNに関して私を混乱させる質問がいくつかあります。 1)CNNを使用して抽出された特徴は、スケールと回転不変ですか? 2)データとの畳み込みに使用するカーネルは、すでに文献で定義されていますか?これらのカーネルの種類は何ですか?それはアプリケーションごとに異なりますか?

4
可変サイズの画像を畳み込みニューラルネットワークへの入力として与えることは可能ですか?
オブジェクト検出用の畳み込みニューラルネットワークへの入力として、可変サイズの画像を提供できますか?可能であれば、どうすればそれを実行できますか? しかし、画像をトリミングしようとすると、画像の一部が失われ、サイズを変更しようとすると、画像の鮮明さが失われます。画像の鮮明さが主な考慮事項である場合、固有のネットワークプロパティを使用するのが最適であることを意味しますか?

2
制限付きボルツマンマシン(RBM)の最新の使用例
背景:過去4年間(alexnet後)の多くの近代的な研究は、最先端の分類結果を達成するためにニューラルネットワークの生成的事前トレーニングを使用することから遠ざかっているようです。 例えば、mnistのための上位の結果、ここでは、トップ50の唯一の2紙、RBMのですどちらも、生成モデルを使用しているように見えます。他の48の受賞論文は、RBMや多くの古いニューラルネットワークで使用されているシグモイドとは異なる、より優れた/新しい重みの初期化とアクティベーション関数を見つけることに多大な労力を費やした、異なる識別フィードフォワードアーキテクチャに関するものです。 質問:制限付きボルツマンマシンを使用する現代的な理由はありますか? そうでない場合、これらのフィードフォワードアーキテクチャに適用できる事実上の変更があり、それらの層のいずれかを生成可能にしますか? 動機:私が見ているのは、私が見ているいくつかのモデル、通常はRBMのバリアントであり、これらの生成層/モデルに明らかな類似の識別的対応物が必ずしも存在しないためです。例えば: mcRBM ssRBM CRBM(CNNがフィードフォワードアーキテクチャを使用しているのは差別的な類似アーキテクチャであると主張できるかもしれませんが) また、これらは2010年、2011年、2009年から明らかに敬意を表してプレアレックスネットでもありました。

1
畳み込みニューラルネットワークの特徴マップの数
たたみ込みニューラルネットワークを学習するとき、次の図に関する質問があります。 1)レイヤー1のC1には6つの機能マップがありますが、これは6つの畳み込みカーネルがあることを意味していますか?各畳み込みカーネルは、入力に基づいて機能マップを生成するために使用されます。 2)レイヤー2のS1には6個の機能マップがあり、C2には16個の機能マップがあります。S1の6つの機能マップに基づいてこれらの16の機能マップを取得するプロセスはどのように見えますか?

3
畳み込みニューラルネットワークの畳み込みステップは何をしますか?
コンピュータービジョンへの応用のため、畳み込みニューラルネットワーク(CNN)を研究しています。私はすでに標準のフィードフォワードニューラルネットワークに精通しているので、ここの一部の人々がCNNを理解するための追加のステップを手伝ってくれることを望んでいます。CNNについて私が考えることは次のとおりです。 従来のフィードフォワードNNでは、各要素が「入力レイヤー」でNNに入力する特徴ベクトルで構成されるトレーニングデータがあるため、画像認識では、各ピクセルを1つの入力にすることができます。これらは私たちの特徴ベクトルです。または、他の(おそらく小さい)特徴ベクトルを手動で作成することもできます。 CNNの利点は、画像の歪みと位置により不変な、より強力な特徴ベクトルを生成できることです。次の図に示すように(このチュートリアルから)、CNNは機能マップを生成し、それが標準のニューラルネットワークに送られます(実際、これは巨大な前処理ステップです)。 これらの「より良い」機能を得る方法は、畳み込みとサブサンプリングを交互に行うことです。サブサンプリングの仕組みを理解しています。各機能マップについて、ピクセルのサブセットを取得するか、ピクセルの値を平均化できます。 しかし、私が主に混乱しているのは、畳み込みステップの仕組みです。私は確率理論(2つのランダム変数の合計の密度)からの畳み込みに精通していますが、CNNでどのように機能し、なぜ効果的ですか? 私の質問はこれに似ていますが、特に、最初の畳み込みステップが機能する理由がわかりません。

1
畳み込みネットワークの畳み込みフィルターの数の重要性は何ですか?
畳み込み層のフィルターの数は何を伝えますか? この数値は、アーキテクチャのパフォーマンスまたは品質にどのように影響しますか?つまり、常により多くのフィルターを選択する必要がありますか?なにがいいの?そして、どのようにして異なるレイヤーに異なる数のフィルターを割り当てるのですか?私はこの質問を見ることを意味します:CNNの畳み込み演算子の数を決定する方法? 答えは、フィルタとサイズの異なる3つの畳み込み層を指定しました。この質問でも、畳み込みニューラルネットワークの特徴マップの数 写真からわかるように、最初のレイヤーには28 * 28 * 6フィルターがあり、2番目の変換レイヤーには10 * 10 * 16フィルターがあります。彼らはどのようにしてこれらの数字を思いついたのですか、これは試行錯誤によるものですか?前もって感謝します

1
RNNがモデル化するための実行可能なシーケンス長とは何ですか?
私は、時系列データのモデリングにリカレントニューラルネットワーク(RNN)のLSTM(長期短期記憶)バージョンを使用することを検討しています。データのシーケンス長が長くなると、ネットワークの複雑さが増します。したがって、どの長さのシーケンスが良好な精度でモデル化するのに適しているのでしょうか? 最先端のアプローチを実装するのが難しいことなく、LSTMの比較的単純なバージョンを使用したいと思います。私の時系列の各観測値には、おそらく4つの数値変数があり、観測値の数は約100.000〜1.000.000です。

4
人工ニューラルネットワークとは何ですか?
ニューラルネットワークの文献を詳しく調べると、ニューロモーフィックトポロジ(「ニューラルネットワーク」のようなアーキテクチャ)を使用した他の方法を特定することができます。そして、私は普遍近似定理について話していません。以下に例を示します。 それから、不思議に思う:人工ニューラルネットワークの定義は何ですか?そのトポロジーはすべてをカバーしているように見えます。 例: 最初に行う識別の1つは、PCAと、エンコーダーとデコーダーの結合重みとボトルネックレイヤーのしきい値付きアクティブ化を備えた線形オートエンコーダーの間です。 また、線形モデル(特別なロジスティック回帰)と、非表示層および単一の出力層のないニューラルネットワークとの間で共通の識別が行われます。この識別はいくつかの扉を開きます。 フーリエ級数とテイラー級数?ANN。SVM?ANN。ガウス過程?ANN(無限の非表示ユニットを持つ単一の非表示レイヤー)。 そのため、同様に簡単に、これらのアルゴリズムの特殊な損失関数を持つ任意の正規化バージョンをニューラルネットワークフレームワークに組み込むことができます。 しかし、掘り下げるほど、より多くの類似点が現れます。Deep Neural Decision Treesに出会ったところです。これにより、ディシジョンツリーを使用して特定のANNアーキテクチャを識別し、ANNメソッド(勾配降下逆伝搬など)で学習できるようになりました。これから、ニューラルネットワークトポロジのみからランダムフォレストと勾配ブーストディシジョンツリーを構築できます。 すべてを人工ニューラルネットワークとして表現できる場合、人工ニューラルネットワークを定義するものは何ですか?

2
ニューラルネットワークとその他すべて
これに対する満足のいく答えがgoogleから見つかりませんでした。 もちろん、私が持っているデータが数百万のオーダーである場合、深層学習が道です。 そして、ビッグデータがない場合は、機械学習で他の方法を使用した方が良いかもしれないことを読みました。指定された理由は、過剰適合です。機械学習:すなわち、データの参照、特徴抽出、収集されたものからの新しい特徴の作成など。機械学習全体の9ヤードなど、重相関変数の削除など。 そして、私は疑問に思っていました:なぜ1つの隠れ層を持つニューラルネットワークが機械学習問題の万能薬ではないのですか?それらは普遍的な推定量であり、過剰適合はドロップアウト、l2正則化、l1正則化、バッチ正規化で管理できます。トレーニングの例が50,000件しかない場合、通常、トレーニング速度は問題になりません。テスト時は、ランダムフォレストよりも優れています。 なぜそうではないのですか?データをきれいにし、一般的に行うように欠損値を代入し、データを中央に配置し、データを標準化し、1つの隠れ層を持つニューラルネットワークのアンサンブルに投げ、過剰適合が見られないように正規化を適用してから訓練しますそれらを最後まで。勾配爆発や勾配消失は、2層のネットワークであるため問題ありません。深い層が必要な場合、それは階層的な機能を学習することを意味し、他の機械学習アルゴリズムも同様に良くありません。たとえば、SVMはヒンジ損失のみのニューラルネットワークです。 他のいくつかの機械学習アルゴリズムが、慎重に正規化された2層(おそらく3?)のニューラルネットワークよりも優れている例はありがたいです。問題へのリンクを教えていただければ、できる限り最高のニューラルネットワークをトレーニングし、2層または3層のニューラルネットワークが他のベンチマーク機械学習アルゴリズムに及ばないかどうかを確認できます。

2
時系列のこの予測が「かなり悪い」のはなぜですか?
ニューラルネットワークの使用方法を学習しようとしています。私はこのチュートリアルを読んでいました。 値を用いて、時系列にニューラルネットワークを適合した後にでの値を予測するために著者は青い線は、時系列であり、以下のプロットを取得し、緑色列データに予測され、赤色でありますテストデータの予測(テストトレイン分割を使用)tttt + 1t+1t+1 「トレーニングデータセットとテストデータセットの両方を適合させるという、モデルの仕事がかなり貧弱だったことがわかります。基本的に、出力と同じ入力値を予測しました。」 次に、著者は、およびを使用して値を予測することにしました。そうすることで取得tttt − 1t−1t-1t − 2t−2t-2t +1t+1t+1 「グラフを見ると、予測にさらに構造が見られる」と言います。 私の質問 最初の「貧しい」のはなぜですか?私にはほとんど完璧に見えますが、すべての単一の変化を完全に予測します! 同様に、なぜ2番目の方が優れているのでしょうか?「構造」はどこにありますか?私にとっては、最初のものよりもずっと貧しいようです。 一般に、時系列の予測はいつ良いのか、いつ悪いのか?


1
CNNは勾配の消失問題をどのように回避しますか
私は畳み込みニューラルネットワークについて多くのことを読んでおり、それらが消失勾配問題をどのように回避するのか疑問に思っていました。深い信念のネットワークが単一レベルの自動エンコーダーまたは他の事前に訓練された浅いネットワークをスタックすることを知っているため、この問題を回避できますが、CNNでどのように回避されるかわかりません。 ウィキペディアによると: 「上記の「勾配の消失問題」にも関わらず、GPUの優れた処理能力により、多くの層を備えたディープフィードフォワードニューラルネットワークで単純な逆伝播が実行可能になります。 GPU処理がこの問題を解決する理由がわかりませんか?

2
機械学習のベイズエラーとは何ですか?
http://www.deeplearningbook.org/contents/ml.htmlページ116では、以下のようにベイズエラーについて説明しています。 理想的なモデルは、データを生成する真の確率分布を単に知っているオラクルです。そのようなモデルであっても、分布にノイズが残っている可能性があるため、多くの問題でエラーが発生します。教師あり学習の場合、xからyへのマッピングは本質的に確率論的である場合があります。または、yはxに含まれる変数以外の他の変数を含む決定論的関数である場合があります。真の分布p(x、y)から予測を行うオラクルが被るエラーは、ベイズエラーと呼ばれます。 ご質問 ベイズエラーを直感的に説明してください? 既約エラーとどう違うのですか? 合計エラー=バイアス+分散+ベイズエラーと言えますか? 「yは本質的に確率論的」の意味は何ですか?

1
コネクショニスト時間分類(CTC)とは何ですか?
私は、光学式文字認識(OCR)プロジェクトを実行したいと考えています。いくつかの調査を行った後、興味深いと思われるアーキテクチャに出会いました:CNN + RNN + CTC。私は畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に精通していますが、コネクショニスト時間分類(CTC)とは何ですか?素人の言葉で説明をお願いします。

1
深層学習について、VCディメンションは何を教えてくれますか?
基本的な機械学習では、次の「経験則」を学びます。 a)データのサイズは、仮説セットのVCディメンションのサイズの少なくとも10倍にする必要があります。 b)N個の接続を持つニューラルネットワークのVC次元は約Nです。 ディープラーニングニューラルネットワークが数百万のユニットを言うとき、これは、たとえば数十億のデータポイントが必要であることを意味しますか?これに光を当ててください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.