統計とビッグデータ machine-learning

2

多くのオンラインチュートリアルで勾配降下について説明し、それらのほとんどすべてで固定ステップサイズ（学習率）を使用しています。行検索（バックトラック行検索や正確な行検索など）を使用しないのはなぜですか？αα\alpha

18 machine-learning neural-networks optimization deep-learning

3

ミニバッチのサイズが大きくなると、SGDの収束が実際に難しく/悪化するという、多くの議論から同様の結論を見ました。たとえば、このペーパーとこの回答です。また、早い段階で小さな学習率やバッチサイズなどのトリックを使用して、大きなバッチサイズでこの問題に対処する人もいると聞きました。ただし、ミニバッチの平均損失は、データ分布で予想される損失の近似と考えることができるため、直感に反するように見えます。バッチサイズが大きいほど、正確になります。なぜ実際にはそうではないのですか？1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]\frac{1}{|X|}\sum_{x\in X} l(x,w)\approx E_{x\sim p_{data}}[l(x,w)] 以下に、説明しようとする私の（おそらく間違った）考えをいくつか示します。モデルのパラメーターは相互に大きく依存しています。バッチが大きくなりすぎると、一度に多くのパラメーターに影響を与え、パラメーターが安定した固有の依存関係に達するのが難しくなりますか？（バッチ正規化ペーパーで言及されている内部共変量シフト問題のように）または、ほぼすべてのパラメーターがすべての反復で責任がある場合、冗長な暗黙のパターンを学習する傾向があるため、モデルの容量が減少しますか？（つまり、数字の分類の問題については、いくつかのパターンがドット、エッジの原因となるはずですが、これが発生すると、すべてのパターンがすべての形状を担当しようとします）。それとも、バッチサイズがトレーニングセットのスケールに近づくと、相関するミニバッチの確率が高くなるため、ミニバッチはデータ分布からiidとして認識できなくなるためですか？更新 Benoit Sanchezの回答で指摘されているように、1つの重要な理由は、1つの更新を完了するために大きなミニバッチにより多くの計算が必要であり、ほとんどの分析が比較のために一定のトレーニングエポックを使用することです。しかし、この論文（Wilson and Martinez、2003）は、十分な量のトレーニングエポックが与えられたとしても、バッチサイズを大きくすると依然として不利であることを示しています。一般的にそうですか？

18 machine-learning neural-networks optimization gradient-descent sgd

2

ミニバッチトレーニングニューラルネット用にランダムに描画されたトレーニングサンプルは、置換せずに描画する必要がありますか？

利用可能なすべてのトレーニングサンプル全体を通過したものとしてエポックを定義し、勾配を下げるために必要な重み/バイアスの更新を見つけるために平均するサンプル数としてミニバッチサイズを定義します。私の質問は、エポック内の各ミニバッチを生成するために、トレーニングサンプルのセットから置換せずに描画する必要があるかどうかです。エンドオブエポックの要件を満たすために実際に「すべてのサンプルを描画する」ために置換を回避する必要があると思いますが、何らかの方法で決定的な答えを見つけるのに苦労しています。私はグーグルとChを読んでみました Nielsenのニューラルネットワークとディープラーニングの1つですが、明確な答えは見つかりませんでした。そのテキストでは、ニールセンは、ランダムサンプリングが置換なしで行われることを指定していませんが、そうであることを暗示しているようです。エポックでのトレーニングの明確な形式化は、必要に応じてここで見つけることができます-https ://stats.stackexchange.com/a/141265/131630 編集：この質問は私に似ていましたが、期待の線形性がこの状況の独立性に無関心であるという事実をどのように適用するかは不明でした- サンプリングは置換の有無にかかわらず発生します

18 machine-learning neural-networks optimization deep-learning

2

強化学習で報酬関数を作成する方法

強化学習の勉強中に、、、さらには現在の状態のみに依存する報酬関数でさえ、さまざまな形の報酬関数に出会いました。そうは言っても、報酬機能を「作成」または「定義」するのは簡単ではないことに気付きました。R(s,a)R(s,a)R(s,a)R(s,a,s′)R(s,a,s′)R(s,a,s') 私の質問は次のとおりです。報酬関数を作成する方法にルールはありますか？報酬関数には他の形式がありますか？たとえば、おそらく状態に依存する多項式形式？

18 machine-learning reinforcement-learning

2

ダミー機能（およびその他の離散/カテゴリ機能）による異常検出

tl; dr discrete異常検出を実行するときにデータを処理する推奨方法は何ですか？ categorical異常検出を実行するときにデータを処理する推奨方法は何ですか？この答えは、離散データを使用して結果をフィルタリングすることを示唆しています。おそらく、カテゴリの値を観測の割合で置き換えますか？イントロここに初めて投稿するので、フォーマットや正しい定義の使用のいずれかが技術的に正しくないと思われる場合は、代わりに何を使用すべきかを知りたいと思います。今後。私は最近、Andrew NgによるMachine Learningクラスに参加しています異常検出については、データセット内の特定の特徴/変数に対する正規/ガウス分布パラメーターが何であるかを判断し、それからトレーニング例/観測値の選択されたセットの確率を判断するように教えられました特定のガウス分布、および特徴の確率の積を取得します。xixi{x_i} 方法問題のアクティビティを説明すると思われる機能/変数を選択します： \ {x_1、x_2、\ dots、x_i \}xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 各フィーチャのガウスのパラメーターを近似します。 \ mu_j = \ frac {1} {m} \ sum_ {i = 1} ^ m x_j ^ {（i）} μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

3

マルチクラス分類器の構築は、いくつかのバイナリ分類器よりも優れていますか？

URLをカテゴリに分類する必要があります。すべてのURLをゼロにする15のカテゴリがあるとします。 15ウェイ分類器の方が良いですか？15個のラベルがあり、各データポイントの機能を生成します。または、15種類のバイナリ分類子を作成します。たとえば、映画または非映画で、これらの分類から取得した数値を使用して、ランキングを作成し、最適なカテゴリを選択します。

18 machine-learning classification categorical-data svm feature-selection

1

SVMの長所と短所

誰かが私に他の分類器と区別する分類SVMの長所と短所を説明できますか？

18 machine-learning svm

2

マルチクラスSVMを実行する最良の方法

SVMはバイナリ分類子であることを知っています。マルチクラスSVMに拡張したいと思います。それを実行するための最良の、そしておそらく最も簡単な方法はどれですか？コード：MATLAB u=unique(TrainLabel); N=length(u); if(N>2) itr=1; classes=0; while((classes~=1)&&(itr<=length(u))) c1=(TrainLabel==u(itr)); newClass=double(c1); tst = double((TestLabel == itr)); model = svmtrain(newClass, TrainVec, '-c 1 -g 0.00154'); [predict_label, accuracy, dec_values] = svmpredict(tst, TestVec, model); itr=itr+1; end itr=itr-1; end これはどのように改善できますか？

18 machine-learning matlab svm multi-class

2

Baum-Welchアルゴリズムとビタビトレーニングの違いは何ですか？

現在、画像のセグメンテーションの問題にビタビトレーニングを使用しています。私は、ビタビトレーニングの代わりにBaum-Welchアルゴリズムを使用することの利点/欠点を知りたいと思いました。

18 machine-learning hidden-markov-model image-processing viterbi-algorithm baum-welch

1

ランダムキッチンシンクはどのように機能しますか？

昨年のNIPS 2017では、アリラヒミとベンレヒトが論文「大規模カーネルマシンのランダム機能」で時間賞を受賞し、ランダムキッチンシンクアルゴリズムとして体系化されました。彼らの論文を公表する一環として、彼らは彼らのモデルが5行のmatlabで実装できることを示しました。 % Approximates Gaussian Process regression % with Gaussian kernel of variance gamma^2 % lambda: regularization parameter % dataset: X is dxN, y is 1xN % test: xtest is dx1 % D: dimensionality of random feature % training w = randn(D,d); b = 2 * pi * rand(D, 1); …

18 machine-learning svm gaussian-process approximation

1

「機能空間」とは何ですか？

「機能空間」の定義は何ですか？たとえば、SVMについて読むとき、「機能空間へのマッピング」について読みます。CARTについて読むとき、「機能空間へのパーティション分割」について読みます。何が起こっているのか、特にCARTについては理解していますが、見落としている定義があると思います。「機能空間」の一般的な定義はありますか？ SVMカーネルおよび/またはCARTについてより多くの洞察を与える定義がありますか？

18 machine-learning svm feature-selection cart feature-construction

3

Conv1DとConv2Dの違いは何ですか？

私はkeras convolution docsを調べていましたが、Conv1DとConv2Dの2種類のけいれんを発見しました。私はいくつかのWeb検索を行いましたが、これがConv1DとConv2Dについて理解していることです。Conv1Dはシーケンスに使用され、Conv2Dは画像に使用します。私は常に畳み込みニューラルネットワークが画像にのみ使用されていると考え、このようにCNNを視覚化しました画像は大きなマトリックスと見なされ、フィルターはこのマトリックス上をスライドしてドット積を計算します。これは、kerasがConv2Dとして言及していることを信じています。Conv2Dがこのように機能する場合、Conv1Dのメカニズムはどのようなもので、そのメカニズムをどのように想像できますか？

18 machine-learning neural-networks conv-neural-network keras

1

ネストされた交差検証後に最終モデルを構築し、確率しきい値を調整する方法は？

まず、ここで、ここで、ここで、ここで、ここで、ここで詳細に議論されている質問を投稿することに対する謝罪、および古いトピックの再加熱用。@DikranMarsupialがこのトピックについて長々と投稿やジャーナルペーパーで書いていることは知っていますが、私はまだ混乱しており、ここにある同様の投稿の数から判断すると、他の人がまだ把握するのに苦労しています。また、このトピックに関して矛盾が生じたため、混乱を招いたことも述べておく必要があります。また、私はもともと物理学者であり統計学者ではないことも知っておく必要があります。そのため、ここでの私の専門知識はやや限られています。ネストされたCVを使用して、最終モデルに期待できるパフォーマンスを推定するジャーナルペーパーを書いています。私のドメインでは、これが最初です。（ほとんど使用しません私の分野では堅牢なCVの形ですが、ニューラルネットとブーストされた決定木を使用した研究の結果を含む論文を喜んで送り出します！）したがって、私が非常に徹底的かつ明確な理解を持っていることが重要です。私のコミュニティへの誤った手順は、何年も学ぶことができませんでした！ありがとう！質問を続けて... ネストされた交差検証後に最終モデルを作成するにはどうすればよいですか？ L1とL2の正規化を使用した単純なglmnetモデルをトレーニングしています。それは高速で、シンプルで、解釈可能です。特徴の中心化、スケーリング、およびBox-Cox変換を実行して、特徴の分布が平均中心で標準化されており、ガウスに似ていることを確認します。情報漏えいを防ぐため、この手順は相互検証内で実行します。純粋に私のハードウェアが非常に遅いため、CPUの負荷を増やすことができないため、機能の前処理後にCV内で高速のフィルターベースの機能選択を実行します。ランダムグリッド検索を使用して、アルファおよびラムダハイパーパラメーターを選択しています。私はすべきではないことを理解していますこの推定値を取得するCVループ。内部CVループはモデル選択（この場合、最適なハイパーパラメーター）に使用され、外部ループはモデル評価に使用されること、つまり、内部CV ループと外部CVはしばしば誤って混同される2つの異なる目的を果たすことを理解しています。（私はこれまでどのようにやっていますか？）さて、私が投稿したリンクは、「相互検証を考える方法は、モデルのパフォーマンスを推定するのではなく、モデルを構築する方法を使用して得られたパフォーマンスを推定することだ」と示唆しています。それを考えると、ネストされたCV手順の結果をどのように解釈する必要がありますか？私が読んだアドバイスは次のことを示しているようです-これが間違っている場合は修正してください：内側のCVは、glmnetモデルの最適なアルファおよびラムダハイパーパラメーターを選択できるメカニズムの一部です。外側のCVは、ハイパーパラメーターの調整やデータセット全体を使用して最終モデルを構築するなど、内側CVで使用されている手順とまったく同じ手順を適用すると、最終モデルから得られると予想される推定値を示します。つまり、ハイパーパラメーターの調整は「モデルの構築方法」の一部です。これは正しいですか？これは私を混乱させるものだからです。他の場所では、展開する最終モデルを構築する手順には、固定値を使用したデータセット全体のトレーニングが含まれることがわかりましたCVを使用して選択されたハイパーパラメーターの。ここで、「モデルの構築方法」にはチューニングは含まれていません。それで、どちらですか？ある時点で、最適なハイパーパラメーターが選択され、最終モデルを構築するために修正されます！どこ？どうやって？内側のループが5倍のCVで、外側のループが5倍のCVで、内側のCVでのランダムグリッド検索の一部としてテスト用に100ポイントを選択した場合、実際にglmnetを何回トレーニングしますかモデル？（100 * 5 * 5）+ 1（最終ビルド用）、または私が知らないステップが他にありますか？基本的に、ネストされたCVからパフォーマンスの見積もりを解釈する方法と、最終モデルを構築する方法について、非常に明確な説明が必要です。また、最終的なglmnetモデルからの確率スコアを（バイナリ）クラスラベルに変換するための確率しきい値を選択するための適切な手順を知りたい--- CVの別のループが必要ですか？

17 machine-learning cross-validation model-selection glmnet hyperparameter

3

SVM以外に、どのアルゴリズムが機能のスケーリングを必要としますか？

RandomForest、DecisionTrees、NaiveBayes、SVM（kernel = linear and rbf）、KNN、LDA、XGBoostなどの多くのアルゴリズムを使用しています。SVMを除き、それらはすべて非常に高速でした。それは、機能のスケーリングを高速化する必要があることを知ったときです。それから、他のアルゴリズムにも同じことをすべきかと思い始めました。

17 machine-learning svm random-forest naive-bayes xgboost

3

出力と予測子の間に実質的な相関関係がない場合、どのようにして適切な線形回帰モデルを取得できますか？

一連の変数/機能を使用して、線形回帰モデルをトレーニングしました。モデルのパフォーマンスは良好です。しかし、予測変数と良好な相関関係を持つ変数は存在しないことに気付きました。どうして可能ですか？

17 regression machine-learning correlation multiple-regression linear-model

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」