統計とビッグデータ neural-networks

3

ニューラルネットワークのイベントの日付と時刻をエンコードする方法連続した時系列はありませんが、日付と時刻のあるイベントがいくつかあります。ある種の興味を分析します。この関心は、朝と夕方で異なり、平日と夏と冬の間、およびクリスマスとイースターの前などにも異なります。そして、イベント自体は、時間の経過とともに強い不均一な分布を示します（夜よりも日中の方が多く、平日にもっと多く、週末にもっと多くの種類があります）。私はそれを年間の週数、曜日1〜7、時間帯としてエンコードしてみました。しかし、まばらなオートエンコーダーをいじってみると、私のデータはニューラルネットワークにとって意味がなく、大きな隠れ層があっても、入力の近くには何も再現できないという印象がありました。カテゴリー0-1としても、正規化された値としても。しかし、ニューラルネットワークの時間のエンコーディングを検索すると、ほとんどの場合、時系列に関する情報が得られます。そのため、森によって少し目隠しされていますが、木を探しています。もちろん、私はデータを見て、それをだいたいの独裁的なものに大まかに分類することができました。しかし、ディープラーニングの概念は、すべての手作りの手動による特徴抽出を一掃するようです。また、分類により、自然に連続する入力変数に大きなジャンプが挿入されます。私の頭の中での「自然なエンコーディング」は、「夜」、「朝」、「平日」などのいくつかのカテゴリのあいまいなメンバーシップのようなものです。全体をより興味深いものにするために、dependend変数にもこれらの日付/時刻データが含まれていますが、それは別の問題です。編集：どういうわけかデータの循環的な種類に関連して、次のような最近の質問がありますこの時刻データセットで妥当な統計検定はどれですか。

12 neural-networks deep-learning

2

「畳み込みでさらに深くなる」のDepthConcat操作はどのように機能しますか？

畳み込みでさらに深く読む私は、さまざまなサイズの複数のテンソルの出力を組み合わせる提案された開始モジュールのビルディングブロックであるDepthConcatレイヤーに出くわしました。著者はこれを「フィルター連結」と呼んでいます。Torchの実装があるようですが、それが何をするのか私にはよくわかりません。誰かが簡単な言葉で説明できますか？

12 neural-networks torch conv-neural-network

1

フィッシャーの厳密検定と超幾何分布

私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。。この観察の可能性は何ですか？この質問に答えるために、次のコマンドを使用しました。 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

MLのソフトマックス関数と熱力学のボルツマン分布の間の関係はどのくらい深いですか？

実数を確率に変換するためにニューラルネットワークで一般的に使用されるソフトマックス関数は、ボルツマン分布と同じ関数です。これは、熱力学の特定の温度Tにおける熱平衡状態の粒子のアンサンブルのエネルギーの確率分布です。これが実用的である理由として、いくつかの明確な発見的理由を見ることができます。入力値が負であっても、softmaxは合計が1になる正の値を出力します。それは常に微分可能であり、逆伝播に便利です。これには、ネットワークの小さな値に対する許容度を制御する「温度」パラメーターがあります（Tが非常に大きい場合、すべての結果は等しく可能性が高く、非常に小さい場合、最大の入力を持つ値のみが選択されます）。ボルツマン関数は、実用的な理由でソフトマックスとしてのみ使用されているのですか、それとも熱力学/統計物理学との関係が深いのですか？

12 machine-learning neural-networks softmax

2

カーネルサイズとはどういう意味ですか？

人々がニューラルネットワークについて話すとき、彼らが「カーネルサイズ」と言うとき、彼らはどういう意味ですか？カーネルは相似関数ですが、カーネルサイズについてはどうでしょうか。

12 machine-learning neural-networks

3

隠れマルコフモデルとリカレントニューラルネットワーク

それぞれに最適な順次入力問題はどれですか？入力の次元はどちらがより良い一致を決定しますか？「より長いメモリ」を必要とする問題はLSTM RNNに適していますが、周期的な入力パターン（株式市場、天気）の問題はHMMで簡単に解決できますか？重複が多いようです。2つの間に微妙な違いが存在することに興味があります。

12 time-series neural-networks hidden-markov-model rnn

2

重みよりも少ないトレーニングサンプルでニューラルネットワークを（理論的に）トレーニングできますか？

まず、ニューラルネットワークをトレーニングするために必要なサンプルサイズの一般的な数はありません。それは、タスクの複雑さ、データのノイズなど、あまりにも多くの要因に依存します。そして、私が持っているトレーニングサンプルが多いほど、私のネットワークは良くなります。しかし、疑問に思っていました。タスクが十分に「単純」であると仮定すると、重みよりも少ないトレーニングサンプルでニューラルネットワークをトレーニングすることは理論的に可能ですか？これがうまくいった例を誰かが知っていますか？それとも、このネットワークはほぼ確実にパフォーマンスが低下しますか？たとえば、多項式回帰を考えると、4次の多項式（つまり、5つの自由パラメーター）を4つのデータポイントにのみ適合させることはできません。重みの数を自由パラメーターの数と見なして、ニューラルネットワークに同様のルールはありますか？

12 neural-networks overfitting underdetermined

4

自動エンコーダとt-SNEの違いは何ですか？

私の知る限り、オートエンコーダとt-SNEの両方が非線形次元削減に使用されています。それらの違いは何ですか、なぜ私はどちらを使用する必要があるのですか？

12 neural-networks deep-learning dimensionality-reduction autoencoders tsne

2

シングルユニットLSTMと3ユニットLSTMニューラルネットワークの違い

次のKerasコードのLSTM input_t = Input((4, 1)) output_t = LSTM(1)(input_t) model = Model(inputs=input_t, outputs=output_t) print(model.summary()) として表すことができます model.predict(np.array([[[1],[2],[3],[4]]]))（唯一の）LSTMユニットを呼び出すと、最初にベクトル[1]が処理され、次に[2]と前の入力からのフィードバックが処理されて、ベクトル[4]まで続きます。つまり、です。x1= [ 1],x2= [ 2 ],x3= [ 3 ] 、x4= [ 4 ]x1=[1]、バツ2=[2]、バツ３=[３]、バツ4=[4]x_1 = [1], x_2 = [2], x_3 = [3], x_4 = [4] 次のニューラルネットワークが同じ入力シーケンスを処理する方法がわかりません [1],[2],[3],[4] input_t = Input((4, 1)) output_t = LSTM(3)(input_t) model = Model(inputs=input_t, …

12 machine-learning neural-networks lstm keras

1

損失関数の2次近似（ディープラーニングブック、7.33）

ディープラーニングに関するGoodfellow（2016）の本で、彼はL2正則化への早期停止の同等性について話しました（https://www.deeplearningbook.org/contents/regularization.html 247ページ）。コスト関数jjj 2次近似は、次の式で与えられます。 J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

11 neural-networks deep-learning loss-functions derivative

2

CNNがFCレイヤーで終了するのはなぜですか？

私の理解では、CNNは2つの部分で構成されています。最初の部分（conv / poolレイヤー）は特徴抽出を行い、2番目の部分（fcレイヤー）は特徴から分類を行います。完全に接続されたニューラルネットは最良の分類子ではないため（つまり、ほとんどの場合、SVMとRFによってパフォーマンスが向上します）、SVMやRFではなく、なぜCNNがFCレイヤーで終了するのですか？

11 neural-networks svm random-forest conv-neural-network

3

畳み込みニューラルネットワークのスケール感度

例として、人の写真に基づいて年齢推定器を構築しているとします。以下では2人のスーツを着ていますが、最初の人は2番目の人より明らかに若いです。（ソース：tinytux.com）これを暗示する特徴はたくさんあります。たとえば、顔の構造です。ただし、最も特徴的な特徴は、ヘッドサイズとボディサイズの比率です。（ソース：wikimedia.org）そのため、CNN回帰をトレーニングして、人の年齢を予測したとします。私が試した多くの年齢予測因子では、上記の子供の画像は、スーツのため、そしておそらく彼らが主に顔に依存しているために、予測をだまして彼が年上であると考えさせているようです：バニラCNNアーキテクチャは、頭と胴の比率をどれだけうまく推測できるのでしょうか。体と頭の境界ボックスを取得できる地域のRCNNと比較して、バニラCNNは常にパフォーマンスが低下しますか？バニラCNNのグローバルな平坦化の直前（つまり、すべての畳み込みの直後）、各出力には対応する受容性フィールドがあり、スケール感が必要です。より高速なRCNNは、この段階でバウンディングボックスの提案を正確に行うことでこれを利用するため、以前のすべての畳み込みフィルターがすべてのスケールに自動的にトレーニングします。では、バニラCNNは頭と胴のサイズの比率を推測できるはずだと思いますか？これは正しいですか？もしそうなら、より高速なRCNNフレームワークを使用して、人の検出について事前にトレーニングされている可能性があるという事実を利用する唯一の利点は何ですか？

11 neural-networks computer-vision

3

空間の任意の点に向けてL2正則化を実装する方法は？

これは、Ian Goodfellowの本「Deep Learning」で読んだものです。ニューラルネットワークのコンテキストでは、「L2パラメータのノルムペナルティは一般的に重み減衰として知られています。この正則化戦略は、重みを原点に近づけます[...]。より一般的には、パラメータを任意の特定の点の近くに正則化できます空間内」ですが、モデルパラメータをゼロに向けて正則化するのがはるかに一般的です。（ディープラーニング、グッドフェロー他）気になるだけです。コスト関数に正則化項を追加するだけで、この合計コストJJJを最小化することで、モデルのパラメーターを小さく保つことができることを理解しています。 J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} しかし、パラメーターを任意のポイントに導くこの正則化戦略のバージョンをどのように実装しますか？（たとえば、ノルムを5に向けたいとしましょう）

11 machine-learning neural-networks deep-learning regularization

2

残差ネットワークは勾配ブースティングに関連していますか？

最近、Residual Neural Netが登場しました。各レイヤーは、計算モジュールと、i番目のレイヤーの出力などのレイヤーへの入力を保持するショートカット接続で構成されています：ネットワークは、残差の特徴を抽出し、より深い深度を可能にすると同時に、消失する勾配の問題に対してより堅牢になり、最先端のパフォーマンスを実現します。y i + 1 = c i + y icicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i 機械学習の世界で非常に強力な技術である勾配ブースティングを掘り下げましたが、これも損失の残差に対して勾配の最適化の形式を実行しているようです。何らかの形の類似性を確認することは困難です。私はそれらが類似しているが同じではないことを知っています -私が気付いた1つの大きな違いは、残差ネットがネットワーク全体を最適化する一方で、勾配ブースティングが加法項で最適化を実行することです。彼が元の論文で彼らの動機の一部としてこれに言及しているのを見なかった。だから私はこのトピックに関するあなたの洞察は何であるかと思っていて、あなたが持っている興味深いリソースを共有するようにお願いしました。ありがとうございました。

11 machine-learning neural-networks deep-learning gradient-descent residual-networks

1

バッチ正規化を注意深く行う必要がある理由の例の説明は何ですか？

私はバッチ正規化ペーパー [1]を読んでいて、正規化を慎重に行う必要がある理由を示すために、例を示すセクションが1つありました。正直なところ、この例がどのように機能するのか理解できません。私ができる限り彼らの論文を理解することに本当に興味があります。最初にここで引用させてください：たとえば、学習バイアスbを追加し、トレーニングデータに対して計算されたアクティベーションの平均を減算することによって結果を正規化する入力uを含むレイヤーを考えます。ここで、はトレーニングセットのの値のセットであり、です。勾配降下工程は、の依存性は無視された場合はで、それが更新され、。次に、です。したがって、への更新の組み合わせx^=x−E[x]x^=x−E[x]\hat{x} = x − E[x]x=u+b,X={x1...N}x=u+b,X={x1...N}x=u+b, X =\{x_1...N \}xxxE[x]=∑Ni=1xiE[x]=∑i=1NxiE[x] = \sum^N_{i=1} x_iE[x]E[x] E[x] bbbb←b+Δ>bb←b+Δ>bb ← b + \Delta > bΔb∝−∂l∂x^Δb∝−∂l∂x^\Delta b \propto -\frac{\partial l}{\partial \hat{x}} u+(b+Δb)−E[u+(b+Δb)]=u+b−E[u+b]u+(b+Δb)−E[u+(b+Δb)]=u+b−E[u+b]u+(b+\Delta b)−E[u+(b+\Delta b)] = u+b−E[u+b]bbb その後の正規化の変更により、レイヤーの出力も変更されず、その結果、損失も発生しませんでした。私はメッセージを理解していると思います。正規化を適切に行わなければ、それは悪いことです。彼らが使用している例がこれをどのように描写しているかは私にはわかりません。困惑している点について具体的に説明していないと、誰かを助けるのは難しいことは承知しているので、次のセクションで、説明について混乱していることを説明します。私の混乱のほとんどは表記法かもしれないと思うので、はっきりさせておきます。まず、筆者を混乱させるものの1つは、著者がネットワーク内にユニットを持つことの意味と、アクティベーションとは何かです。通常、アクティベーションは次のように考えます。 x(l)=a(l)=θ(z(l))=θ(⟨w(l),x(l−1)⟩+b(l))x(l)=a(l)=θ(z(l))=θ(⟨w(l),x(l−1)⟩+b(l)) x^{(l)} = a^{(l)} = \theta(z^{(l)}) = \theta( \langle w^{(l)}, x^{(l-1)} \rangle + …

11 machine-learning neural-networks conv-neural-network

タグ付けされた質問 「neural-networks」

タグ付けされた質問「neural-networks」