タグ付けされた質問 「convnet」

「たたみ込みニューラルネットワーク」(CNN)に関する質問

3
CNNメモリ消費
提案されたモデルが、指定された量のメモリを備えたGPUでトレーニングされるのに十分小さいかどうかを推定できるようにしたい このような単純なCNNアーキテクチャがある場合: Input:50x50x3 C1:32個の3x3カーネル、パディング付き(実際には、入力深度を考えると、実際には3x3x3でしょうか?) P1:2x2、ストライド2 C2:64 x 3x3カーネル、パディングあり P2:2x2、ストライド2 FC:500ニューロン Output:softmax 10クラス 64のミニバッチサイズ 32ビットの浮動小数点値を想定して、トレーニング中にネットワークの各レイヤーのメモリコストをどのように計算しますか?そして、そのようなモデルをトレーニングするために必要な総メモリは?

1
kerasのModelCheckpointが機能しない
私はケラスでモデルをトレーニングしようとしており、ModelCheckpointを使用して、監視された検証メトリック(私の場合はJaccardインデックス)に従って最適なモデルを保存しています。 テンソルボードでモデルが改善されているのを確認できますが、重みをロードしてモデルを評価しようとすると、まったく機能しません。さらに、重みが格納されるはずのファイルのタイムスタンプから、重みがまったく保存されていないことがわかります。タイムスタンプは、トレーニングを開始した時刻にほぼ対応しています。 誰かが以前にそのような問題に遭遇したことがありますか?
8 keras  convnet 

2
ビデオファイルのシャッフルされたピクセルを再構築する方法は?
ピクセルの順序が1回シャッフルされたビデオファイルがあるとします。つまり、ランダムな順序が一度定義され、すべてのフレームに適用されています。 ピクセルの最初の順序を取得するための既知のアプローチは存在しますか? 私は、空間と時間で相関しているピクセルをより近くに配置することにより、初期トポロジを取得することについていくつかのアイデアを持っています。これは研究されているのか、効率的なアルゴリズムが公開されているのか。 また、この問題は、コンピュータビジョン技術(CNNなど)を適用できるようにするために、時間の経過とともに変化する値のセットを2Dマトリックスに投影する方法と考えることができます。

4
畳み込みは「画像を平坦化」しますか?
マルチチャネル画像に適用したときに、深層学習の畳み込みがどのように機能するかについての良い説明を探しています。たとえば、RGBの3つのチャネルを持つ100 x 100ピクセルの画像があるとします。入力テンソルのサイズは100 x 100 x 3になります。 Nフィルターとストライド1を使用して畳み込みを適用すると、出力次元は次のようになります。 100 x 100 x 3 x N? または 100 x 100 x N? 言い換えると、適用される畳み込みは画像を「平坦化」しますか、それともチャネルごとに畳み込みを適用しますか?

1
たたみ込みニューラルネットワークで「深さ=セマンティック表現」を使用する理由
畳み込みネットワークに関するビデオをオンラインで見ていましたが、スピーカーは画像に対してフィルターを実行する概念について話していました。 彼は言った、そしてそれは以下の画像にも示されている、「深さ=意味論的表現」。 これは良さそうに聞こえますが、深みを増すために画像の空間次元を減らすことの何がそれほど特別なのか正確にはわかりませんか?奥行きを他のどの次元よりも重要にしているのは何ですか?次元は単なる次元ですよね? 編集:理由は翻訳の独立性と関係があるだろうという直感があります...



1
CNNでflow_from_directoryを使用する場合のデータ拡張
小さなデータセットを使用してCNNモデルを作成したい。それで、私は訓練データセットを増やすためにデータ増強を使用しています。ここにリストされているすべての拡張手法(引数)を使用する必要がありますか? 多くの引数を追加すると、モデルの精度が低下し、トレーニングセットがテストセットよりも難しくなることに気づきました。 使用時にデータ拡張を使用するためのベストプラクティスは何flow_from_directoryですか?

2
画像のコピーを識別するためのニューラルネットワークアーキテクチャ
大規模な画像コレクションがあり、コレクションから他の画像をコピーしているように見える、そのコレクション内の画像を特定したいと考えています。 一致として分類したい画像ペアの種類を理解するために、次の例を検討してください。 私はおよそ.25Mの一致する画像のペアを手で分類しました。次に、それらの手でラベル付けされた一致を使用してニューラルネットワークモデルをトレーニングします。どのアーキテクチャがこのタスクに理想的に適しているかはわかりません。 元々は同様のタスクに使用されているので、シャムネットワークが適切かもしれないと思っていましたが、これらの分類子からの出力は、同じオブジェクトの異なる形を見つけるのに理想的です(これは私が望むものではありません)。同じ形の(それが私が欲しいものです)。 私が準備したトレーニングデータを前提として、画像の特定に理想的な論文やアーキテクチャを推奨できる人がいれば、私はあなたが提供できるあらゆる洞察に非常に感謝します。

1
音素認識のためのCNN
私は現在、このドキュメントを研究しています。CNNは、ログメルフィルターバンクの視覚的表現を使用した音素認識、および制限された重み共有スキームに適用されます。 ログメルフィルターバンクの視覚化は、データを表現および正規化する方法です。彼らは私が使用してそれをプロットすることであろうと出てくる可能性が最も近いRGBの色とスペクトログラムとして可視化することをお勧めmatplotlibsカラーマップをcm.jet。それらは(紙であるため)、各フレームを[静的デルタdelta_delta]フィルターバンクエネルギーでスタックする必要があることも示唆しています。これは次のようになります。 15フレームセットの画像パッチで構成される[静的デルタdelta_detlta]入力形状は、(40,45,3)になります。 制限された重みの共有は、重みの共有を特定のフィルターバンク領域に制限することで構成されます。これは、音声が異なる周波数領域で異なって解釈されるため、通常の畳み込みが適用されるため、完全な重みの共有は機能しません。 制限された重み共有の実装は、各畳み込み層に関連付けられた重み行列の重みを制御することで構成されます。したがって、完全な入力に畳み込みを適用します。複数を使用すると、たたみ込み層から抽出された特徴マップの局所性が破壊されるため、紙はたった1つのたたみ込み層のみを適用します。それらが通常のMFCC係数ではなくフィルターバンクエネルギーを使用する理由は、DCTがフィルターバンクエネルギーの局所性を破壊するためです。 畳み込み層に関連付けられた重み行列を制御する代わりに、複数の入力を使用してCNNを実装することを選択します。したがって、各入力は(小さなフィルターバンク範囲、total_frames_with_deltas、3)で構成されます。したがって、たとえば、用紙サイズは8のフィルターサイズが適切であると述べたため、フィルターバンクの範囲を8に決定しました。したがって、各小さな画像パッチのサイズは(8、45、3)です。小さな画像パッチのそれぞれは、ストライドが1のスライディングウィンドウで抽出されます。そのため、各入力間に多くのオーバーラップがあり、各入力には独自の畳み込み層があります。 (input_3、input_3、input3、input_1、input_2、input_3 ...である必要があります) この方法を使用すると、複数の畳み込み層を使用できるようになります。これは、局所性が問題にならないためです。フィルターバンク領域内に適用されるため、これは私の理論です。 紙はそれを明示的に述べていませんが、彼らが複数のフレームで音素認識を行う理由は、いくつかの左コンテキストと右コンテキストがあるため、中央のフレームのみが予測/トレーニングされているためです。したがって、私の場合、最初の7フレームは左のコンテキストウィンドウに設定されています。中央のフレームはトレーニングされており、最後の7フレームは右のコンテキストウィンドウに設定されています。したがって、複数のフレームが与えられた場合、1つの音素だけが中央であると認識されます。 私のニューラルネットワークは現在、次のようになっています。 def model3(): #stride = 1 #dim = 40 #window_height = 8 #splits = ((40-8)+1)/1 = 33 next(test_generator()) next(train_generator(batch_size)) kernel_number = 200#int(math.ceil(splits)) list_of_input = [Input(shape = (window_height,total_frames_with_deltas,3)) for i in range(splits)] list_of_conv_output = [] list_of_conv_output_2 = [] list_of_conv_output_3 = [] …

1
ケラスの畳み込み層のborder_mode
Kerasには、convolution2Dの2つのborder_modeがあり、同じで有効です。「同じ」とは何かを説明したり、ドキュメントを指摘したりできますか?私はネット上でドキュメントを見つけることができませんでした(theanoにも実装することを求める人々を除いて)。
7 convnet  keras 

1
顔検出にはCNNまたはViola-Jones
CNNがすべての画像関連のタスクを支配しているので、私は不思議に思っていました。Viola-Jonesの顔検出器はまだ最先端のものと見なされていますか、それともCNNがそのパフォーマンスを上回っていますか?
6 convnet 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.