統計とビッグデータ deep-learning

1

TL; DR（長すぎて読まなかった）：私は時系列予測問題に取り組んでいます。これは、ディープラーニング（ケラ）を使用して回帰問題として定式化します。私の予測と真のラベル間のピアソン相関を最適化したいと思います。MSEをプロキシとして使用すると、実際にはピアソンを損失関数として直接使用するよりも（相関の観点から）より良い結果が得られるという事実に戸惑っています。ディープラーニングの損失関数として相関メトリックを使用することは悪い習慣と考えられていますか？もしそうなら、なぜですか？長いバージョン：私には時系列予測タスクがあります連続するタイムステップの値を観察し、タイムステップ値を予測する必要があります。通常、値はであるため、これを回帰問題として扱い、ディープラーニング（keras）を使用して解決しています。T + 1 [ - 200 、200 ]TTTT+ 1T+1T+1[ - 200 、200 ][−200,200][-200,200] 私の質問は、損失と測定基準の選択に関するものです。私のデータの真のラベルは、主に前後にあり、いくつかの極端な値があります。極端な値の多くは誤りであり、それらを正しくすることに集中するように学習をシフトしたくありません。言い換えれば、一般的な傾向を把握できるようになり（正の値と負の値の期間を正しく分類）、たとえば、200ではなく100を予測して「共存」できます。[ - 10 、10 ][−10,10][-10,10] このため、私の評価指標は、予測値と真の値の間のピアソン相関であるべきだと思います。さて、損失関数について：理想的には、高いピアソン相関を最適化したい場合、それを損失関数として使用することは理にかなっているでしょう？私は「ベースラインモデル」であるシンプルなアーキテクチャを2回テストしました。1回はピアソン（ミニバッチで計算）を直接損失関数として使用し、もう1回は一般的なMSEをプロキシとして使用しました。どちらの場合も、MSEとピアソンの両方を異なるエポックについて追跡し、検証セットに基づいて「早期停止」を行います。私の結果：損失としてのMSE：MSE 160、ピアソン0.7 損失としてのピアソン：MSE 250、ピアソン0.6 ピアソン損失のより高いMSEは、相関の最適化にはスケールがないという事実の結果であると理解しています。そのため、すべての予測は、MSEを増加させる方法で要因によって「オフ」になる可能性があります。しかし、MSEをプロキシとして使用すると、ピアソン相関自体の点で実際にどのように改善されるのでしょうか。ピアソン相関を損失関数として使用してはならない理由について、最適化に関連する理由はありますか？実際、ほとんど使われていないようですが、その理由を知りたいと思います。

8 machine-learning deep-learning loss-functions pearson-r mse

2

最大プーリングと平均プーリングで抽出された機能

ディープラーニングで、それをコンピュータービジョンに適用すると、これらの2種類のプーリング抽出の機能の種類を知ることができますか？たとえば、最大プールがエッジを抽出すると言うことは可能ですか？平均プーリングに関して同様のことが言えますか？ PSは、stackoverflowの方が適している場合は、お気軽にお勧めします。

8 machine-learning deep-learning feature-construction computer-vision

1

L1、L2およびドロップアウト一般化の代替

私の大学では、金融/機械学習の研究プロジェクトに次の設定を行っています。Keras/ Theanoで次の構造の（ディープ）ニューラルネットワーク（MLP）を適用して、パフォーマンスの高い株（ラベル1）とパフォーマンスの低い株（ラベル0）。そもそも私は、実際および歴史的な評価の倍数を使用します。これはストックデータであるため、非常にノイズの多いデータが予想されます。さらに、52％を超える安定したサンプル外精度は、すでにこのドメインで良好であると見なすことができます。ネットワークの構造：入力として30のフィーチャを備えた高密度レイヤー Relu-Activation バッチ正規化レイヤー（それがなければ、ネットワークは部分的に収束していません）オプションのドロップアウトレイヤー密レルバッチ脱落・・・同じ構造の更なる層シグモイドアクティベーションの高密度レイヤーオプティマイザ：RMSprop 損失関数：バイナリクロスエントロピー前処理のために私が行う唯一のことは、機能を[0,1]範囲に再スケーリングすることです。今、私は通常、ドロップアウトまたはL1およびL2カーネル正則化に取り組む、典型的な過剰適合/過適合問題に直面しています。ただし、この場合、次のグラフに示すように、ドロップアウトとL1およびL2の正規化の両方がパフォーマンスに悪影響を及ぼします。私の基本的なセットアップは次のとおりです。5レイヤーNN（入力レイヤーと出力レイヤーを含む）、レイヤーあたり60ニューロン、0.02の学習率、L1 / L2なし、ドロップアウトなし、100エポック、バッチ正規化、バッチサイズ1000。 76000の入力サンプル（ほぼバランスの取れたクラス45％/ 55％）で、ほぼ同じ量のテストサンプルに適用されました。チャートでは、一度に1つのパラメーターのみを変更しました。「Perf-Diff」とは、1に分類された株式と0に分類された株式の平均株価パフォーマンス差を意味します。これは、基本的に、最終的なコアメトリックです。（高いほど良い） l1の場合、ネットワークは基本的にすべてのサンプルを1つのクラスに分類しています。ネットワークが再びこれを実行しているためスパイクが発生していますが、25個のサンプルをランダムに正しく分類しています。したがって、このスパイクは良い結果ではなく、異常値として解釈されるべきです。他のパラメータには次の影響があります。私の結果をどのように改善できるかについてのアイデアはありますか？私がしている明らかなエラーはありますか、それとも正則化の結果に対する簡単な答えはありますか？トレーニング（PCAなど）の前に、何らかの機能選択を行うことをお勧めしますか？編集：その他のパラメータ：

8 machine-learning neural-networks deep-learning regularization dropout

2

深層学習に対するベイズのノンパラメトリックな答えは？

私が理解しているように、ディープニューラルネットワークは、機能を重ねることによって「表現学習」を実行しています。これにより、フィーチャの非常に高次元の構造を学習できます。もちろん、これはパラメーターの数が固定されたパラメトリックモデルであるため、モデルの複雑さを調整するのが難しいという通常の制限があります。モデルの複雑さがデータに適応できるように、特徴空間でそのような構造を学習するベイジアン（ノンパラメトリック）な方法はありますか？関連モデルは次のとおりです。ディリクレは混合モデルを処理します。これにより、スペースを無制限のクラスターに分割し、データが有限数を選択できるようにします。データを説明する潜在的な特徴（別名トピック）の潜在的に無限の数を見つけるインディアンビュッフェプロセス（IBP）のような要因モデル。しかし、IBPは深い表現を学習していないようです。これらの方法は教師なし学習用に設計されており、通常、教師付きタスクにはディープラーニングを使用するという問題もあります。データの要求に応じて表現を拡大できるIBPまたは他のメソッドのバリアントはありますか？

8 machine-learning bayesian nonparametric deep-learning

1

数字認識ツールとしてのSVMの利点

私は数字認識に非常に慣れていないので、多くのチュートリアルがSVM分類を使用していることに気づきました。たとえば、 http://hanzratech.in/2015/02/24/handwritten-digit-recognition-using-opencv-sklearn-and-python.html http://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html たとえば、ツールと比較して、そのツールに（ドメイン固有の）利点があるかどうかを知りたいディープラーニングニューラルネットワーク k-meansに基づく分類コメントありがとうございます。また、SVMが数字を認識するための間違ったツールである理由も明確化されます。

8 svm deep-learning k-means pattern-recognition image-processing

1

ディープネットワークの貪欲なレイヤー単位のトレーニングは、トレーニングを成功させるために必要ですか、それとも確率的勾配降下で十分ですか？

逆伝播のみを使用して（事前トレーニングなしで）最先端の結果を達成することは可能ですか？それとも、すべての記録を破るアプローチが何らかの形の事前トレーニングを使用するようにですか？逆伝播だけで十分ですか？

8 deep-learning autoencoders deep-belief-networks pre-training

1

異なる周波数の正弦波を学習するRNN

再帰型ニューラルネットワークのウォームアップとして、別の周波数の別の正弦波から正弦波を予測しようとしています。私のモデルは単純なRNNであり、そのフォワードパスは次のように表すことができます。 rtzt= σ（WI N⋅バツt+WR E C⋅rt − 1））=WO U T⋅rtrt=σ（W私ん⋅バツt+Wrec⋅rt−1））zt=Woあなたt⋅rt \begin{aligned} r_t &= \sigma(W_{in} \cdot x_t + W_{rec} \cdot r_{t-1}))\\ z_t &= W_{out} \cdot r_t \end{aligned} どこ σσ\sigma sigmoïd関数です。入力と期待される出力の両方が同じ周波数の2つの正弦波であるが（おそらく）位相シフトがある場合、モデルは適切な近似に適切に収束できます。ただし、次の場合、モデルは極小値に収束し、常にゼロを予測します。入力： x = s i n （t ）バツ=s私ん（t）x = sin(t) 予想される出力： y= s i n （t2）y=s私ん（t2）y = sin(\frac{t}{2}) …

8 regression time-series neural-networks deep-learning rnn

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

3

TensorFlowの計算モデルで、一般的な機械学習アルゴリズムを実装することは可能ですか？

https://www.tensorflow.org/ GitHubで見たTensorFlowのプロジェクトはすべて、ある種のニューラルネットワークモデルを実装しています。TensorFlowがDAGよりも改善されていることを考えると（これはもはや非循環ではありません）、いくつかの固有の欠点により一般的な機械学習モデルに適さなくなるのではないかと思っていましたか？ TensorFlowの計算モデルで、一般的な機械学習アルゴリズムを実装することは可能ですか？

8 machine-learning neural-networks deep-learning supervised-learning tensorflow

1

ディープラーニングが少量のデータでうまく機能しないのはなぜですか？

私はディープラーニングが初めてなので、これは簡単な質問かもしれません。しかし、ディープラーニング（またはニューラルネットワーク）が小さなラベル付きデータでうまく機能しないのはなぜでしょうか。私が読んだ研究論文が何であれ、それらのデータセットは巨大です。私たちの脳はそれ自体を訓練するのに多くの時間を費やすので、直感的には驚くことではありません。しかし、そのような場合にニューラルネットワークがうまく機能しない数学的証明や理由はありますか？

8 neural-networks deep-learning

2

勾配は、展開されたリカレントニューラルネットワークでどのように伝播しますか？

簡単な例を通して、rnnを使用してシーケンスを予測する方法を理解しようとしています。これは、1つの入力、1つの非表示のニューロン、1つの出力で構成される、私の単純なネットワークです。隠れたニューロンはシグモイド関数であり、出力は単純な線形出力と見なされます。したがって、ネットワークは次のように機能すると思います：隠しユニットが状態sで始まり、長さシーケンスであるデータポイントを処理している場合、、それから：（x 1、x 2、x 3）３３3（x1、x2、x３）（バツ1、バツ2、バツ３）(x_1, x_2, x_3) 時間1で、予測値はp1p1p^1 p1= u × σ（w s + v x1）p1=あなた×σ（ws+vバツ1）p^1 = u \times \sigma(ws+vx^1) 時に2、私たちは持っています p2= u × σ（ w × σ（w s + v x1）+ v x2）p2=あなた×σ（w×σ（ws+vバツ1）+vバツ2）p^2 = u \times \sigma\left(w \times \sigma(ws+vx^1)+vx^2\right) 時に3、私たちは持っています p３= u × σ（ w × σ（ w × …

8 machine-learning neural-networks deep-learning gradient-descent

1

RBMによるバイアスの更新（制限付きボルツマンマシン）

RBMは非常に新しく、今すぐRBMプログラムを作成しようとしています。これがばかげた質問であるか、ここですでに回答されている場合は、申し訳ありません。オンラインでいくつかの記事を読んだり、ここで質問をしたりしましたが、バイアス（またはバイアスの重み）を更新する方法について何も見つかりません。最初にそれらを設定することについて読みました。それらが更新されることへの参照のつかの間。ジェフヒントンはもちろんバイアスについて言及しており、それは彼の方程式で特徴付けられています（私は彼の論文をいくつか読んだり、ビデオプレゼンテーションをいくつか見たりしました）が、一度設定したバイアスの論文については言及がありません。、またはその方法/時期/理由。何か欠けているに違いない！ Edwin Chenの論文はこちらで推奨されています。http： //blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/ バイアスを更新/「学習」する方法については触れていません。それらは彼のプログラムで変更されていますが、私は彼のコードを理解していません。（彼は、正しくないように見える更新された重みを与えるテーブルを持っています-不思議なことに、それは何を意味するにせよ、バイアスバイアスの重みを与えます。）えっと、なぜこれが素材を見つけるのがとても難しいのかわかりません!! 助けてくれてありがとう。

8 deep-learning rbm deep-belief-networks

1

深層学習アルゴリズム

ディープビリーフネットワークとディープコンベックスネットワークの違いは何ですか？

8 machine-learning neural-networks deep-learning deep-belief-networks

2

スパースオートエンコーダー[ハイパー]パラメーター

Rでautoencoderパッケージを使い始めました。 autoencode()関数への入力には、ラムダ、ベータ、ロー、イプシロンが含まれます。これらの値の境界は何ですか？アクティベーション機能ごとに異なりますか？これらのパラメーターは「ハイパーパラメーター」と呼ばれますか？スパースオートエンコーダーを想定すると、rho = .01はロジスティックアクティベーション関数に、rho =-。9は双曲線正接アクティベーション関数に適していますか？マニュアルでイプシロンが.001に設定されているのはなぜですか？私の記憶が正しければ、LeCunの「Efficient Backpropagation」では、ゼロにそれほど近い値ではない開始値を推奨しています。ベータの「良い」値はどのくらい重要ですか？隠れ層のヌエロンの数を選択するための「経験則」はありますか？たとえば、入力層にN個のノードがある場合、非表示層のに2N個のヌロンを含めるのは妥当ですか？オートエンコーダの実際の使用に関するいくつかの文献をお勧めできますか？

8 neural-networks optimization deep-learning deep-belief-networks autoencoders

1

「壊滅的な忘却」を回避する方法は？

Michael Coniball（Spacyの作成者）がこの記事を読んだとき、彼は「破滅的な忘却」問題について語っています。ここで彼は、新しいラベルを追加したり、特定のエラーを修正したりするために事前トレーニング済みモデルを微調整したい場合、「破滅的な忘却」問題（一般性を失う）を引き起こす可能性があると述べています。これと戦うために、彼は疑似リハーサルと呼ばれる技術を提案します。彼は、初期モデルで多くの例を予測し、それらを微調整データを通して混合し、それをモデルの目標として使用すると述べています。つまり、これは、初期モデルによって生成された代わりにを使用して、新しく取得したデータポイントの新しい値と混合し、それを使用してモデル？Y^（Th e PR EのDi c t e dVa l u e ）Y^（ThePred私ctedValあなたe）\hat{Y}(The Predicted Value)Y（T時間EとGのR O U N DTR U T H ）Y（TheGroあなたんdTrあなたth）Y(The Ground Truth)YYY 私は正しいですか？誰かが詳しく説明できますか？

8 deep-learning natural-language

タグ付けされた質問 「deep-learning」

タグ付けされた質問「deep-learning」