タグ付けされた質問 「conv-neural-network」

畳み込みニューラルネットワークは、ニューラルネットワークの一種であり、レイヤー間の可能な接続のサブセットのみが存在して、重複領域を作成します。それらは一般的に視覚的なタスクに使用されます。


1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
検証の精度が向上している一方で、検証の損失が増加している可能性はありますか
CIFAR10データセットで簡単なニューラルネットワークをトレーニングしています。しばらくすると、検証の損失が増加し始めましたが、検証の精度も向上しています。テストの損失とテストの精度は向上し続けています。 これはどのように可能ですか?検証損失が増加すると、精度が低下するようです。 PS似たような質問がいくつかありますが、そこで何が起こっているのか誰も説明しませんでした。

5
畳み込みニューラルネットワークとディープラーニングの違いは何ですか?
プロジェクトでディープラーニングを使用したい。いくつかの論文を読んで、質問がありました。畳み込みニューラルネットワークとディープラーニングに違いはありますか?これらは同じものですか、それとも大きな違いがありますか?

8
機械学習の原理理論と数学的理論が重要なのはなぜですか?
私は、原理的/理論的な機械学習を持つことがなぜそんなに重要なのだろうと考えてきました。人間としての個人的な観点から、原理的な機械学習が重要である理由を理解できます。 人間は自分がしていることを理解するのが好きで、私たちは理解の美しさと満足感を見つけます。 理論的な観点から、数学は楽しいです 物事の設計を導く原則がある場合、ランダムな推測、奇妙な試行錯誤に費やす時間が少なくなります。たとえば、ニューラルネットが実際にどのように機能するかを理解すれば、たった今試行錯誤を繰り返すよりもはるかに時間をかけて設計することができます。 より最近では、原則が明確であり、理論も明確であれば、システムへの(できれば)より透明性があるはずです。システムの機能を理解すれば、AIは多くの人々の誇大宣伝がすぐに消えてしまうリスクがあるため、これは良いことです。 原則は、世界が持つ可能性のある重要な構造と、別のツールではなくツールを使用するタイミングを要約する簡潔な方法のようです。 しかし、これらの理由は、機械学習の集中的な理論的研究を正当化するほど十分に強力なのでしょうか?理論に対する最大の批判の1つは、実行が非常に難しいため、通常、非常に制限されたケースや、本質的に結果を役に立たなくする必要がある仮定を研究することになります。Torの作者によるMITでの講演でこれを聞いたことがあると思います。彼が聞いたTorの批判の一部は理論的な議論であるが、本質的に、人々は現実の現実のシナリオについて物事を証明することができない。 計算能力とデータが非常に多いこの新しい時代では、実際のデータセットとテストセットを使用してモデルをテストできます。経験主義を使用して、物事が機能するかどうかを確認できます。代わりに、エンジニアリングと経験主義で機能するAGIまたはシステムを実現できる場合、特に定量化の限界を達成するのが非常に困難ですが、直感と定性的な答えがはるかに簡単な場合、機械学習の原理的および理論的な正当化を追求する価値がありますデータ駆動型アプローチで達成しますか?このアプローチは古典的な統計では利用できませんでした。そのため、当時は理論が非常に重要であったと思います。 私は個人的に常に理論を愛し、考えており、原則的なアプローチが重要でした。しかし、実際のデータとコンピューティング能力で物事を試すことができるという力で、理論的な追求の大きな努力(そして潜在的に低い報酬)がまだ価値があるのだろうかと思いました。 機械学習の理論的および原則的な追求は本当に重要ですか?

2
Krizhevskyの'12 CNNは、最初のレイヤーで253,440個のニューロンをどのように取得しますか?
でアレックスKrizhevskyら。深い畳み込みニューラルネットワークを使用したImagenet分類では、各層のニューロン数が列挙されます(下図を参照)。 ネットワークの入力は150,528次元で、ネットワークの残りの層のニューロンの数は253,440–186,624–64,896–64,896–43,264– 4096–4096–1000で与えられます。 3Dビュー 最初のレイヤー以降のすべてのレイヤーのニューロンの数は明らかです。ニューロンを計算する1つの簡単な方法は、そのレイヤーの3つの次元を単純に乗算することです(planes X width X height): レイヤー2: 27x27x128 * 2 = 186,624 レイヤー3: 13x13x192 * 2 = 64,896 等 ただし、最初のレイヤーを見ると: レイヤー1: 55x55x48 * 2 = 290400 これは論文で指定されているものではない ことに注意してください253,440! 出力サイズの計算 畳み込みの出力テンソルを計算する他の方法は次のとおりです。 入力画像が3DテンソルのnInputPlane x height x width場合、出力画像のサイズは次のようnOutputPlane x owidth x oheightになります owidth = (width - kW) / dW + …

2
フィルター行列の要素を初期化する方法は?
ライブラリ(ConvnetやTensorFlowなど)に依存しないPythonコードを作成することで、畳み込みニューラルネットワークをよりよく理解しようとしていますが、カーネルマトリックスの値を選択する方法に関する文献にこだわっています。画像の畳み込みを実行します。 CNNのレイヤーを示す以下の画像の機能マップ間のステップで、実装の詳細を理解しようとしています。 この図によると: カーネルマトリックスカーネルは画像上で「ステップ」し、特徴マップを作成します。各ピクセルは、カーネル(またはフィルターマトリックス)の各重みと入力画像の対応するピクセル値の間のすべての要素ごとの積の合計です。 私の質問は、カーネル(またはフィルター)行列の重みをどのように初期化するのですか? 上記のデモンストレーションでは、これらは1と0にすぎませんが、これは図のために単純化されていると思います。 これらの重みは、何らかの前処理ステップでトレーニングされていますか?または、ユーザーが明示的に選択しましたか?

1
TensorBoardでTensorFlowによって与えられたヒストグラムをどのように解釈しますか?
私は最近、テンソルフローを実行して学習しており、解釈方法がわからないヒストグラムをいくつか取得しました。通常、バーの高さは頻度(または相対頻度/カウント)と考えます。しかし、通常のヒストグラムのようにバーが存在しないという事実と、陰影が付いているという事実は、私を混乱させます。また、一度に多くの行/高さがありますか? 誰かが次のグラフを解釈する方法を知っていますか(そしておそらくテンソルフローでヒストグラムを読むのに役立つ一般的なアドバイスを提供します): 元の変数がベクトルまたは行列またはテンソルである場合、実際にテンソルフローは各座標のヒストグラムのように表示されますか?また、この情報を取得して人々を自立させる方法を参照することは、ドキュメントで有用なものを見つけるのが困難であるため、今は素晴らしいでしょう。たぶん、いくつかのチュートリアルの例など?それらを操作する上でのアドバイスもいいかもしれません。 参考として、これを与えたコードの抜粋を以下に示します。 (X_train, Y_train, X_cv, Y_cv, X_test, Y_test) = data_lib.get_data_from_file(file_name='./f_1d_cos_no_noise_data.npz') (N_train,D) = X_train.shape D1 = 24 (N_test,D_out) = Y_test.shape W1 = tf.Variable( tf.truncated_normal([D,D1], mean=0.0, stddev=std), name='W1') # (D x D1) S1 = tf.Variable( tf.constant(100.0, shape=[]), name='S1') # (1 x 1) C1 = tf.Variable( tf.truncated_normal([D1,1], mean=0.0, stddev=0.1), name='C1' ) …

1
ResNet経由の勾配バックプロパゲーションは接続をスキップします
ResNetモジュール/スキップ接続を使用してニューラルネットワークを介して勾配がどのように逆伝播されるかについて興味があります。ResNetに関するいくつかの質問(スキップレイヤー接続のニューラルネットワークなど)を見てきましたが、これは特にトレーニング中の勾配の逆伝播について尋ねています。 基本的なアーキテクチャは次のとおりです。 この論文「画像認識のための残差ネットワークの研究」を読み、セクション2で、ResNetの目標の1つが、勾配がベースレイヤーに逆伝播するためのより短い/より明確なパスを可能にすることについて話します。 勾配がこのタイプのネットワークをどのように流れているのか説明できますか?加算操作、および加算後のパラメーター化されたレイヤーの欠如が、より良い勾配伝播を可能にする方法をよく理解していません。加算演算子を介して流れるときに勾配が変化せず、乗算なしで何らかの形で再配布される方法と関係がありますか? さらに、グラデーションがウェイトレイヤーを通過する必要がない場合、消失するグラデーションの問題がどのように軽減されるかを理解できますが、ウェイトを通るグラデーションフローがない場合、逆方向パス後にどのように更新されますか?

3
隠れ層ニューロンとしてのRelu vs Sigmoid vs Softmax
Tensorflowを使用して、1つの隠れ層のみを持つ単純なニューラルネットワークで遊んでいた後、隠れ層に対して異なるアクティベーションを試みました。 レルー シグモイド ソフトマックス(まあ、通常ソフトマックスは最後のレイヤーで使用されます。.) Reluは、最高の列車精度と検証精度を提供します。これを説明する方法がわかりません。 Reluには、勾配のない消失などのスパース性などの優れた特性があることがわかっていますが、 Q:Reluニューロンはシグモイド/ソフトマックスニューロンよりも一般的に優れていますか?ほとんど常にNN(またはCNNでも)Reluニューロンを使用する必要がありますか? 複雑すぎるニューロンはより良い結果をもたらすだろうと考えました。少なくともオーバーフィットを心配する場合は、精度を訓練します。 PS:コードは基本的に「Udacity-Machine learning -assignment2」からのものです。これは、単純な1-hidden-layer-NNを使用したnotMNISTの認識です。 batch_size = 128 graph = tf.Graph() with graph.as_default(): # Input data. tf_train_dataset = tf.placeholder(tf.float32, shape=(batch_size, image_size * image_size)) tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels)) tf_valid_dataset = tf.constant(valid_dataset) tf_test_dataset = tf.constant(test_dataset) # hidden layer hidden_nodes = 1024 hidden_weights = tf.Variable( tf.truncated_normal([image_size …


4
ディープラーニングモデルの場合、softmax出力が不確実性の指標として適切ではないのはなぜですか?
私は現在、主にセマンティックセグメンテーション/インスタンスセグメンテーションの画像データで、畳み込みニューラルネットワーク(CNN)を使用しています。ネットワーク出力のソフトマックスを「ヒートマップ」として頻繁に視覚化して、特定のクラスのピクセルごとのアクティベーションの高さを確認しました。低活性化は「不確実」/「自信がない」と解釈し、高活​​性化は「特定」/「自信がある」予測と解釈しました。基本的に、これは、softmax出力(内の値)をモデルの確率または(不)確実性尺度として解釈することを意味します。(0,1)(0,1)(0,1) (たとえば、ピクセル全体で平均された低いソフトマックスアクティベーションを持つオブジェクト/エリアは、CNNが検出するのが難しいと解釈したため、CNNはこの種のオブジェクトの予測について「不確か」です。) 私の認識では、これはよく機能し、トレーニング結果に「不確実な」領域のサンプルを追加すると、これらの結果が改善されました。しかし、ソフトマックスの出力を(不)確実性の尺度として使用/解釈するのは良い考えではなく、一般的にはお勧めできないと、さまざまな側面からよく耳にします。どうして? 編集:ここで私が尋ねていることを明確にするために、この質問に答える際のこれまでの洞察について詳しく説明します。しかし、同僚、監督者から繰り返し言われたように、なぜそれが一般的に悪い考えであるのか、以下の議論のどれも私に明らかにしませんでした。 分類モデルでは、パイプラインの最後に取得された確率ベクトル(softmax出力)は、モデルの信頼度として誤って解釈されることがよくあります。 またはここの「背景」セクションで: たたみ込みニューラルネットワークの最終ソフトマックスレイヤーによって与えられた値を信頼スコアとして解釈するのは魅力的かもしれませんが、これを読みすぎないように注意する必要があります。 上記の原因は、ソフトマックス出力を不確実性の尺度として使用するのが悪い理由です。 実画像に対する知覚できない摂動は、深いネットワークのソフトマックス出力を任意の値に変更する可能性があります これは、softmax出力が「知覚できない摂動」に対してロバストではないことを意味します。したがって、その出力は確率として使用できません。 別の論文では、「softmax output = Confidence」という考え方が取り上げられており、この直観ではネットワークは簡単にだまされる可能性があり、「認識できない画像に対する信頼性の高い出力」が得られると主張しています。 (...)特定のクラスに対応する(入力ドメイン内の)領域は、そのクラスのトレーニングサンプルが占めるその領域のスペースよりもはるかに大きい場合があります。この結果、画像はクラスに割り当てられた領域内にあるため、softmax出力の大きなピークで分類されますが、トレーニングセットのそのクラスで自然に発生する画像からは遠くなります。 これは、トレーニングデータから遠く離れたデータは、モデルが(それを見たことがないので)確信できないため、高い信頼を得ることはないことを意味します。 ただし、これは一般的に、NN全体の一般化特性を単純に疑問視しているのではありませんか?すなわち、ソフトマックス損失を伴うNNは、(1)「知覚できない摂動」または(2)認識できない画像などのトレーニングデータから遠く離れた入力データサンプルにうまく一般化しないということです。 この推論に続いて、私はまだ理解していません、なぜ実際にトレーニングデータ(すなわち、ほとんどの「実際の」アプリケーション)に対して抽象的および人為的に変更されていないデータで、ソフトマックス出力を「疑似確率」として解釈するのが悪いのか考え。結局のところ、彼らは私のモデルが正しいとは限らない場合でも、そのモデルが確信していることをよく表しているようです(この場合、モデルを修正する必要があります)。そして、モデルの不確実性は常に「単なる」近似ではありませんか?


2
ニューラルネットワークでボトルネックアーキテクチャはどのように機能しますか?
ボトルネックアーキテクチャは、[2つの3x3 convレイヤー]が[1x1 conv、1つの3x3 conv、および1x1 convレイヤー]に置き換えられたResNet論文で見つかったタイプとして定義されます。 1x1のconvレイヤーは、次元削減(および復元)の形式として使用されることを理解しています。これについては、別の投稿で説明しています。ただし、この構造が元のレイアウトと同じくらい効果的である理由についてはわかりません。 いくつかの良い説明が含まれる場合があります:どのストライド長が使用され、どのレイヤーで?各モジュールの入力および出力の寸法の例は何ですか?上記の図で56x56の機能マップはどのように表されますか?64-dはフィルターの数を指しますが、なぜこれが256-dフィルターと異なるのですか?各レイヤーで使用されるウェイトまたはフロップの数は? どんな議論も大歓迎です!

2
バッチ正規化では、移動平均を使用して、トレーニング中のモデルの精度を追跡する方法と理由を教えてください。
私はバッチ正規化(BN)論文(1)を読んでいて、モデルの精度を追跡するために移動平均を使用する必要があることを理解していませんでした。彼らがまさにやっていること。 私の理解(これは間違っている)に、論文では、モデルがトレーニングを終了した後、ミニバッチ統計ではなく人口統計を使用していることに言及しています。偏りのない推定についての議論の後(それは私には接線のようであり、なぜそれについて話すのか理解できない)、彼らは行って言う: 代わりに移動平均を使用して、トレーニング中のモデルの精度を追跡します。 それは私を混乱させている部分です。なぜ移動平均を行ってモデルの精度とどのデータセットを推定するのですか? 通常、人々はモデルの一般化を推定するために行うことで、モデルの検証エラーを追跡します(そして、勾配降下を早期に停止して正則化する可能性があります)。ただし、バッチの正規化はまったく異なることを行っているようです。誰かが何を、なぜ違うことをしているのかを明確にできますか? 1:Ioffe S.およびSzegedy C.(2015)、 「バッチ正規化:内部共変量シフトの削減によるディープネットワークトレーニングの加速」、 第32回機械学習に関する国際会議の議事録、リール、フランス、2015年。 機械学習研究ジャーナル: W&CPボリューム37

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.