統計とビッグデータ machine-learning

1

DeepMindの深層強化学習に関する2015年の論文では、「RLをニューラルネットワークと組み合わせる以前の試みは、学習が不安定であったために大部分失敗しました」と述べています。次に、この論文では、観測全体の相関に基づいて、この原因の一部をリストしています。誰かがこれが何を意味するのか説明してもらえますか？ニューラルネットワークは、トレーニングには存在するがテストには存在しない可能性のある構造を学習する、過剰適合の形式ですか？それとも別の意味ですか？論文は次の場所にあります：http : //www.nature.com/nature/journal/v518/n7540/full/nature14236.html そして、私が理解しようとしているセクションは次のとおりです。強化学習は、ニューラルネットワークなどの非線形関数近似器を使用してアクション値（Qとも呼ばれる）関数を表す場合、不安定であるか、発散することさえ知られています。この不安定性にはいくつかの原因があります。一連の観測に存在する相関関係、Qの小さな更新がポリシーを大幅に変更し、それによってデータ分布を変更する可能性、およびアクション値とターゲット値の相関関係。これらの不安定性に対処するには、2つの重要なアイデアを使用するQラーニングの新しいバリアントを使用します。最初に、データをランダム化するエクスペリエンスリプレイと呼ばれる生物学的にヒントを得たメカニズムを使用して、観測シーケンスの相関を削除し、データ分布の変化を平滑化しました。第二に、定期的にのみ更新されるターゲット値に向かってアクション値（Q）を調整する反復更新を使用し、それによりターゲットとの相関を減らしました。

13 machine-learning neural-networks deep-learning reinforcement-learning

3

分類にT-SNEを使用してハイパーパラメーターを選択する

私が取り組んでいる特定の問題（競合）には、次の設定があります：21の機能（[0,1]の数値）とバイナリ出力。約100 Kの行があります。設定は非常に騒々しいようです。私と他の参加者はしばらくの間機能生成を適用し、この設定ではt分布の確率的近傍埋め込みがかなり強力であることが判明しました。私はこの記事「t-SNEを効果的に使用する方法」に出くわしましたが、それでも分類の設定で最適なハイパーパラメーターを選択する方法について結論を出すことはできません。経験則（特徴の数、埋め込みの次元->困惑の選択）はありますか？さまざまな設定を繰り返すのに時間がかかりすぎるため、現時点ではアドホック設定を適用します。コメントありがとうございます。

13 machine-learning dimensionality-reduction unsupervised-learning tsne

2

ニューラルネットワークが簡単にだまされるのはなぜですか？

ニューラルネットワークを「だます」ために手動で画像を作成することに関するいくつかの論文を読みました（以下を参照）。これは、ネットワークが条件付き確率のみをモデル化するためですか？ネットワークが結合確率p （y 、x ）をモデル化できる場合、そのようなケースは引き続き発生しますか？p （y| x）p（y|バツ）p(y|x)p （y、x ）p（y、バツ）p(y,x) 私の推測では、そのような人為的に生成された画像はトレーニングデータとは異なるため、確率が低くなります。したがって、p （y | x ）がそのような画像に対して高くても、p （y 、x ）は低くなければなりません。p （x ）p（バツ）p(x)p （y、x ）p（y、バツ）p(y,x)p （y| x）p（y|バツ）p(y|x) 更新私はいくつかの生成モデルを試してみましたが、役に立たないことが判明したので、おそらくこれはMLEの結果でしょうか？私はKL発散は、損失関数の値として使用した場合の平均ここで、P D A T A（X ）損失に影響を与えない小さいです。だから、一致していない不自然な画像のためのpをD A T Aの値のp θは任意とすることができます。pθ（x ）pθ（バツ）p_{\theta}(x)pdトンのA（x ）pdata（バツ）p_{data}(x)pdトンのApdatap_{data}pθpθp_{\theta} 更新 Andrej Karpathyによるブログを見つけました。これらの結果は画像、ConvNetsに固有のものではなく、ディープラーニングの「欠陥」でもありません。 ADVERSARIALの例の説明と活用ディープニューラルネットワークは簡単にだまされます：認識できない画像の高信頼性予測

13 machine-learning neural-networks deep-learning

1

ディープラーニングメソッドで「エンドツーエンド」とはどういう意味ですか？

私はそれが何であり、アンサンブルとどのように違うのか知りたいですか？ CNN、RNNなどの異なるネットワークを使用してこれを達成する場合、特定のタスクに対して分類とセグメンテーションの高い精度を達成したいとしますが、これはエンドツーエンドモデルと呼ばれますか？（アーキテクチャ？）

13 machine-learning terminology deep-learning

1

深い畳み込みニューラルネットワークに役立つデータ増強技術とは何ですか？

背景：最近、Geoffrey Hintonによるこの素晴らしい講演を見た後、畳み込みニューラルネットワークをトレーニングする際のデータ増強の重要性をより深いレベルで理解しました。彼は、現在の世代の畳み込みニューラルネットワークは、テスト中のオブジェクトの参照フレームを一般化できないため、ネットワークがオブジェクトの鏡像が同じであることを真に理解することを難しくしていると説明します。いくつかの研究はこれを改善しようとしています。これは多くの例の1つです。これは、畳み込みニューラルネットワークをトレーニングする際に、今日の重要なデータ増大がどれほど重要かを確立するのに役立つと思います。データ増大技術が互いにベンチマークされることはめったにありません。したがって：質問：開業医が非常に優れたパフォーマンスを報告した論文は何ですか？あなたが有用だと感じたデータ増強技術は何ですか？

13 machine-learning deep-learning

4

機械学習アルゴリズムの予測間隔

以下に説明するプロセスが有効/許容可能であり、正当な理由があるかどうかを知りたい。考え方：教師あり学習アルゴリズムは、データの基礎となる構造/分布を想定していません。一日の終わりに、彼らはポイント推定値を出力します。推定の不確実性を何らかの形で定量化したいと考えています。現在、MLモデルの構築プロセスは本質的にランダムです（たとえば、ハイパーパラメーターチューニングの相互検証のサンプリングや、確率論的GBMのサブサンプリングなど）。したがって、モデリングパイプラインは、異なる予測子ごとに異なるシードの異なる出力を生成します。私の（素朴な）アイデアは、このプロセスを何度も繰り返して予測の分布を考え出すことであり、予測の不確実性について声明を出すことができれば幸いです。問題があれば、私が扱うデータセットは通常非常に小さい（〜200行）。これは理にかなっていますか？明確にするために、私は実際には伝統的な意味でデータをブートストラップしていません（つまり、データを再サンプリングしていません）。すべての反復で同じデータセットが使用されます。xvalと確率的GBMのランダム性を利用しています。

13 machine-learning confidence-interval bootstrap supervised-learning gbm

3

縦断的ビッグデータをモデル化するには？

伝統的に、私たちは混合モデルを使用して、縦断的なデータ、つまり次のようなデータをモデル化します。 id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 異なる人に対してランダムなインターセプトまたはスロープを想定できます。しかし、私が解決しようとしている質問には、膨大なデータセット（数百万人、1か月の毎日の観測、つまり各人が30の観測を含む）が含まれます。 spark / mahoutにアクセスできますが、混合モデルを提供していません。私のデータは、RandomForestまたはSVMを使用してこのデータセットをモデル化できるようにデータを変更できるのでしょうか。 RF / SVMが自動相関を考慮できるようにするために利用できる機能エンジニアリング手法はありますか？どうもありがとう！いくつかの潜在的な方法がありますが、私はそれらをスパークに書き込む時間を費やすことができませんでした randomForestにランダム効果を含めるにはどうすればよいですか縦断データを使用したSVM回帰

13 machine-learning data-transformation random-forest panel-data large-data

3

機械学習モデル（GBM、NNなど）を生存分析に使用するにはどうすればよいですか？

Cox Proportional Hazards回帰やいくつかのKaplan-Meierモデルなどの従来の統計モデルを使用して、障害などのイベントの次の発生までの日数を予測できることを知っています。つまり、生存分析ご質問 GBMやニューラルネットワークなどの機械学習モデルの回帰バージョンを使用して、イベントが発生するまでの日数を予測するにはどうすればよいですか？発生までの日数をターゲット変数として使用し、単に回帰モデルを実行するだけでは機能しないと思いますか？なぜ機能しないのか、どうすれば修正できますか？生存分析問題を分類に変換してから、生存確率を取得できますか？その後、バイナリターゲット変数を作成する方法は？機械学習アプローチとコックス比例ハザード回帰およびカプラン・マイヤーモデルなどの長所と短所は何ですか？サンプル入力データが以下の形式であることを想像してください注意：センサーは10分間隔でデータをpingしますが、NAの行で表されるように、ネットワークの問題などによりデータが欠落する場合があります。 var1、var2、var3は予測変数、説明変数です。 failure_flagは、マシンが失敗したかどうかを示します。マシンIDごとに10分間隔で6か月分のデータがあります編集：予想される出力予測は以下の形式である必要があります注：毎日のレベルで、今後30日間の各マシンの障害の可能性を予測します。

13 machine-learning classification survival cox-model kaplan-meier

4

Netflixのような映画を推奨するための統計的方法は何ですか？

動的モデルを実装して、映画をユーザーに推奨したいと考えています。推奨事項は、ユーザーが映画を見たり評価したりするたびに更新する必要があります。シンプルにするために、2つの要素を考慮に入れることを考えています。ユーザーによる他の映画の過去の評価ユーザーが特定の過去の映画を視聴した時間そのようなモデルをどのように設定し、学術文献は何を推奨しますか？私はこの分野で初めてであり、線形推定モデルは、パラメータ推定に不必要な不確実性を課すことを避けるための複雑な方法に興味を持たずに、良い結果を提供できると推測しています。しかし、実際に一般的に使用されている確立された方法はすでにあるのでしょうか？

13 machine-learning recommender-system dynamic-regression

2

ニューラルネットワークのバッチ学習方法で重みはどのように更新されますか？

バッチ方式を使用してニューラルネットワークを構築する方法を教えてください。バッチモードで、トレーニングセットのすべてのサンプルについて、ネットワーク内の各ニューロンの誤差、デルタ、したがってデルタの重みを計算し、重みをすぐに更新する代わりに、それらを累積してから開始することを読みました次のエポックでは、重みを更新します。また、バッチ方式はオンライン方式に似ていますが、違いはトレーニングセット内のすべてのサンプルのエラーを合計し、平均を取り、それを使用して重みを更新することだけです次のようにオンラインの方法で行います（違いはちょうどその平均です）。 for epoch=1 to numberOfEpochs for all i samples in training set calculate the errors in output layer SumOfErrors += (d[i] - y[i]) end errorAvg = SumOfErrors / number of Samples in training set now update the output layer with this error update all other previous layers go …

13 machine-learning neural-networks

1

教師あり次元削減

15個のラベル付きサンプル（10グループ）で構成されるデータセットがあります。ラベルの知識を考慮して、次元削減を2つの次元に適用します。 PCAなどの「標準」の教師なし次元削減手法を使用する場合、散布図は既知のラベルとは関係がないようです。私が探しているものには名前がありますか？ソリューションの参考文献をいくつか読みたいです。

13 machine-learning pca dimensionality-reduction supervised-learning discriminant-analysis

3

畳み込みニューラルネットワークは、行列乗算の代わりに畳み込みをどのように正確に使用しますか？

ディープラーニングに関するヨシュアベンジオの本を読んでいたところ、224ページに次のように書かれています。畳み込みネットワークは、少なくとも1つの層で一般的な行列乗算の代わりに畳み込みを使用する単純なニューラルネットワークです。しかし、数学的に正確な意味で「畳み込みによる行列乗算を置き換える」方法を100％確信していませんでした。本当に関心私は（のように1次元での入力ベクトルのためにこれを定義しているx∈Rdx∈Rdx \in \mathbb{R}^d Iが画像として入力を持っており、2Dでの畳み込みを回避しようとしませんので、）。たとえば、「通常の」ニューラルネットワークでは、Andrew Ngのメモのように、操作とフィードワードパターンを簡潔に表現できます。 W(l)a(l)=z(l+1)W(l)a(l)=z(l+1) W^{(l)} a^{(l)} = z^{(l+1)} f(z(l+1))=a(l+1)f(z(l+1))=a(l+1) f(z^{(l+1)}) = a^{(l+1)} ここで、z(l)z(l)z^{(l)}は、非線形性を通過する前に計算されたベクトルfffです。非線形性は、ベクトル peroエントリに作用しz(l)z(l)z^{(l)}、a(l+1)a(l+1)a^{(l+1)}は、問題のレイヤーの非表示ユニットの出力/アクティブ化です。行列の乗算は明確に定義されているため、この計算は明らかですが、行列の乗算を畳み込みに置き換えるだけでは不明確に思えます。すなわち W(l)∗a(l)=z(l+1)W(l)∗a(l)=z(l+1) W^{(l)} * a^{(l)} = z^{(l+1)} f(z(l+1))=a(l+1)f(z(l+1))=a(l+1) f(z^{(l+1)}) = a^{(l+1)} 上記の方程式を数学的に正確に理解するようにします。行列の乗算を畳み込みに置き換えることに関する最初の問題は、通常、 1行をドット積で識別することです。したがって、a （l ）全体が重みにどのように関係し、W （l ）で示される次元のベクトルz （l + 1 ）にマッピングされるかが明確にわかります。ただし、畳み込みに置き換えた場合、どの行または重みが（l ）のどのエントリに対応するかはわかりませんW(l)W(l)W^{(l)}a(l)a(l)a^{(l)}z(l+1)z(l+1)z^{(l+1)}W(l)W(l)W^{(l)}a(l)a(l)a^{(l)}。重みを行列として表すことは実際にはもう理にかなっていることは私にとっても明らかではありません（その点を後で説明する例を提供します）入力と出力がすべて1Dである場合、その定義に従ってたたみ込みを計算し、特異点を通過させますか？たとえば、入力として次のベクトルがある場合： x=[1,2,3,4]x=[1,2,3,4]x = [1,2,3,4] そして、次の重みがありました（backpropで学習したのかもしれません）： W=[5,6,7]W=[5,6,7]W …

13 machine-learning neural-networks deep-learning convolution

3

ランダムフォレストとブースティングはパラメトリックですか、ノンパラメトリックですか？

優れた統計モデリング：2つの文化（Breiman 2001）を読むことにより、従来の統計モデル（線形回帰など）と機械学習アルゴリズム（バギング、ランダムフォレスト、ブーストツリーなど）のすべての違いを把握できます。ブライマンはデータモデル（パラメトリック）を批判します。これは、統計が統計学者によって規定された既知の正式なモデルによって観測が生成されるという仮定に基づいているためです。一方、MLアルゴは正式なモデルを想定せず、データから入力変数と出力変数の間の関連付けを直接学習します。 Bagging / RFとBoostingもパラメータの一種であることに気付きました。たとえば、ntree、RFのmtry、学習率、bag fraction、Stochastic Gradient Boosted ツリーのツリー複雑度はすべてチューニングパラメーターです。また、データを使用してこれらのパラメーターの最適な値を見つけるため、データからこれらのパラメーターを推定することもできます。それで、違いは何ですか？RFおよびブーストツリーはパラメトリックモデルですか？

13 machine-learning data-mining random-forest boosting bagging

2

特徴選択と次元削減の違いは何ですか？

特徴選択と次元削減の両方が、元の特徴セットの特徴の数を減らすことを目的としていることを知っています。両方で同じことをしている場合、両者の正確な違いは何ですか？

13 machine-learning pca feature-selection dimensionality-reduction

1

機械学習コミュニティは「条件付け」および「パラメーター化」を乱用していますか？

たとえば、は依存しています。厳密に言えば、XXXαα\alpha 場合と両方とも確率変数である、我々は書くことができ ;XXXαα\alphap(X∣α)p(X∣α)p(X\mid\alpha) ただし、がランダム変数であり、がパラメーターである場合、を記述する必要があります。XXXαα\alphap(X;α)p(X;α)p(X; \alpha) 機械学習コミュニティは違いを無視して用語を悪用しているように見えることに何度か気付きます。たとえば、有名なLDAモデルでは、はランダム変数ではなくディリクレパラメーターです。αα\alpha いけませんか？LDA論文の原著者を含む多くの人々がと書いているのを見ます。p(θ;α)p(θ;α)p(\theta;\alpha)p(θ∣α)p(θ∣α)p(\theta\mid\alpha)

13 machine-learning terminology

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」