統計とビッグデータ deep-learning

1

Tensorflowで実装されているような自動微分の使用例は何ですか？なぜそれが重要なのですか？

ニューラルネットワーク、バックプロパゲーション、チェーンルールを適切に理解していますが、自動微分を理解するのに苦労しています。以下は、逆伝播のコンテキスト外の自動微分に言及しています。自動微分は行列から勾配をどのように計算しますか？勾配を計算するための要件は何ですか？関数を指定する必要がありますか？これの使用例は何ですか（それ以外の場合は逆伝播）？なぜそれが重要であり、代替案は何ですか？何か不足していますか？

7 machine-learning neural-networks deep-learning tensorflow automatic-differentiation

2

バッチ正規化は、トレーニング後に人口統計をどのように計算しますか？

私はバッチ正規化（BN）ペーパー（1）を読んでいて、それは言った：このため、ネットワークがトレーニングされたら、正規化を使用しますバツ^=x − E[ x ]Va r [ x ] + ϵ−−−−−−−−√x^=x−E[x]Var[x]+ϵ\hat{x} = \frac{x - E[x]}{ \sqrt{Var[x] + \epsilon}}ミニバッチではなく、人口統計を使用します。私の質問は、どのようにしてこの人口統計をどのように計算し、どのトレーニングセット（テスト、検証、トレーニング）を超えているかです。私はそれが何を意味するのかは知っていたと思いましたが、しばらくして、これがどのように計算されるのかわかりません。私はそれがどのように行うかはわかりませんが、それは真の平均と分散を推定しようとしていると思います。おそらく、データセット全体に従って平均と分散を計算し、それらの瞬間を推論に使用します。しかし、私が間違っているのではないかと疑ったのは、同じセクションの後半の不偏分散の推定についての彼らの議論です。不偏分散推定を使用します Va r [ x ] =メートルm − 1⋅EB[σ2B]Var[x]=mm−1⋅EB[σB2]Var[x] = \frac{m}{m-1} \cdot E_{\mathcal{B}}[\sigma^2_{\mathcal{B}}] サイズのミニバッチのトレーニングに期待が集まっている場所メートルmm そして σ2BσB2\sigma^2_{\mathcal{B}} それらは標本分散です。私たちは人口統計について話しているので、この紙面上のコメントは、どこからともなく（私にとって）出てきたようなものであり、彼らが何について話しているのかわかりませんでした。彼らは（ランダムに）トレーニング中に不偏推定値を使用することを明確にしていますか、それとも不偏推定値を使用して人口統計を計算していますか？ 1：Ioffe S.とSzegedy C.（2015）、「バッチ正規化：内部共変量シフトの削減によるディープネットワークトレーニングの加速」、第32回機械学習に関する国際会議の議事録、リール、フランス、2015。Journalof Machine Learning Research： W＆CPボリューム37

7 machine-learning neural-networks deep-learning conv-neural-network batch-normalization

1

画像データのゼロ平均と単位分散とは何ですか？

ディープラーニングは初めてです。いくつかの概念を理解しようとしています。「平均」は平均値であり、「分散」は平均からの偏差です。いくつかの研究論文を読んだことがありますが、いずれも最初にデータを前処理すると言っています。しかし、これらの概念は画像の前処理とどのように関連していますか？これらの概念が画像データの前処理として使用されるのはなぜですか？実際、これらの手法が分類にどのように寄与するかを理解できません。Googleで検索しましたが、説明が少ないキーワードで検索されている可能性があります。

7 classification variance mean deep-learning image-processing

6

数学の教育を受けずにニューラルネットワークを研究することは理にかなっていますか？

現代の機械学習テクノロジーとツール（例：TensorFlow、Theanoなど）を考えると、エントリのしきい値は最近低くなっているようで、Pythonなどでプログラミングして興味深いものを構築するのに十分です。この点をサポートするもう1つの情報源は、CourseraのMachine Learning Specializationであり、FAQに次のように記載されています。どのような背景知識が必要ですか？コンピュータプログラミングの経験が必要です。この専門分野のほとんどの割り当ては、Pythonプログラミング言語を使用します。この専門分野認定は、スキルをデータサイエンスと機械学習に拡大したい科学者やソフトウェア開発者向けに特別に設計されていますが、基本的な数学とプログラミングのスキルを持ち、データからインテリジェンスを引き出すことに興味がある人に適しています。一方、他にもたくさんのオンラインコース（たとえば、Costraでのスタンフォード機械学習や、UdacityでのGoogleのディープラーニング）や、数学が満載のS.ヘイキン、ニューラルネットワーク：包括的な財団などの古典的な本があります。。私は大学で数年間、統計、行列、積分などを含めて数学を勉強していましたが、あまりにも長い間使われていないので、これらの方程式を見ただけでは絶望感を覚えます。Knuthによる具象数学でさえ、非常に遅いペースで認識されているので、それを完了するのは不可能のようです。したがって、次の質問が発生します。数学の知識は浅いがプログラミングスキルのある人がニューラルネットワーク/機械学習の研究に飛び込むのは理にかなっていますか。高レベルのツールのみを使用して、atariをプレイしているような、この分野で興味深いプロジェクトを構築することは可能ですか？それとも、時間がかかりすぎて、自分自身を奮闘させたり、他のことをしたりしない方が良いでしょうか？

7 machine-learning neural-networks deep-learning

2

SGDトレーニングでの小さいバッチサイズの処理

確率的勾配降下法（SGD）を使用して、大規模モデル（カフェを使用したディープネット）をトレーニングしようとしています。問題は、私がGPUメモリ容量の制約を受けているため、各確率的勾配推定に対して大きなミニバッチを処理できないことです。トレーニングでこの不安定さを克服するにはどうすればよいですか？私が考えていたのは、モーメンタムを使用して、デフォルトの通常の設定よりも高い値に設定することでした。これは有効な戦略ですか？ Caffeをたまたま使用している人にとって、Caffeがすでにミニバッチ全体の勾配の累積を実装していることを知るのは興味深いかもしれません（Indie Alによって提案されています）。あなたは、単に定義する必要がiter_sizeで'solver.prototxt'。これはpytorchでも実行できます。たとえば、この投稿を参照してください。

7 machine-learning neural-networks deep-learning gradient-descent sgd

2

画像スタイル転送で使用される重み正規化手法

畳み込みニューラルネットワークを使用した紙の画像スタイル転送を実装しようとしています。セクション2-深い画像表現で、著者は次の重み正規化手法について言及しています。画像と位置に対する各畳み込みフィルターの平均アクティブ化が1に等しくなるように重みをスケーリングすることにより、ネットワークを正規化しました。このような再スケーリングは、出力を変更せずにVGGネットワークに対して実行できます。これは、線形線形活性化関数のみを修正し、機能マップに対する正規化やプールは含まないためです。以前に尋ねた関連質問から、著者がILSVRC検証セットの画像からのアクティベーション値を使用して重みを正規化していることがわかりました。私は自分でそれを思い付くことができなかったので、そのような正規化を実行することの数学的な定式化を知りたかった。問題の私の理解によると、私はアクティベーションマップ（X）を持ち、それに対応して、前のレイヤーのKアクティベーションマップ（L）と次元3x3xKの重み行列（W）を持っています。 WそれはXを生成します。今度は、検証セットのすべての画像についてレイヤーLのすべてのニューロンの活性化値をキャプチャしたら、検証セットのすべての画像にわたってXのすべてのニューロンの平均を1にすることです。どういうわけかWを調整することによってそれを実現するために私がWに何をすべきかわからなかった。また、これを最初のレイヤーの重みを正規化し、次に新しい機能マップを使用してレイヤーの重みを正規化することにより、カスケード（順次）でこれを実行するかどうかを確認したかったすべてのアクティベーションマップの元の事前トレーニング済みの重みとしての前のレイヤーの値？

6 neural-networks deep-learning conv-neural-network normalization

1

畳み込みニューラルネットワークに関するいくつかの説明

完全に接続されたレイヤーのたたみ込みレイヤーへの変換について読むときは、http://cs231n.github.io/convolutional-networks/#convertに投稿されています。次の2つのコメントについて混乱しているだけです。この変換により、元のConvNetを大きな画像内の多くの空間位置にわたって単一の順方向パスで非常に効率的に「スライド」できることがわかります。標準のConvNetは、任意のサイズの画像で機能する必要があります。たたみ込みフィルターは画像グリッドを横切ってスライドできるので、元のConvNetをより大きな画像の任意の空間位置でスライドする必要があるのはなぜですか？そして 32ピクセルのストライドで384x384画像の224x224クロップ全体で元のConvNet（FCレイヤー付き）を個別に評価すると、変換されたConvNetを1回転送するのと同じ結果が得られます。ここで「32ピクセルのストライド」とはどういう意味ですか？それはフィルターサイズを指していますか？384 * 384画像の224 * 224作物について話すとき、それは224 * 224の受容野を使用することを意味しますか？元のコンテキストでは、これら2つのコメントを赤でマークしました。

6 machine-learning neural-networks deep-learning conv-neural-network

タグ付けされた質問 「deep-learning」

タグ付けされた質問「deep-learning」