統計とビッグデータ supervised-learning

4

これは一般的な質問であり、メソッドやデータセットに固有のものではありません。データセット内の0の数が約90％、1の数が約10％である教師あり機械学習のクラス不均衡問題にどのように対処しますか？分類器を最適にトレーニングするにはどうすればよいですか？私が従う方法の1つは、データセットのバランスを取り、分類器をトレーニングして複数のサンプルに対してこれを繰り返すためのサンプリングです。これはランダムだと感じています。この種の問題に取り組むための枠組みはありますか。

47 machine-learning unbalanced-classes supervised-learning

1

GradientDescentOptimizerとAdamOptimizer（TensorFlow）の違いは？

XOR-GateをモデリングしているTensorFlowで簡単なMLPを作成しました。だから： input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] 次のものが生成されます。 output_data = [[0.], [1.], [1.], [0.]] このネットワークには、入力層、隠れ層、出力層があり、それぞれ2、5、1個のニューロンがあります。現在、私は次のクロスエントロピーを持っています： cross_entropy = -(n_output * tf.log(output) + (1 - n_output) * tf.log(1 - output)) 私はこの簡単な代替手段も試しました： cross_entropy = tf.square(n_output - output) 他のいくつかの試みと一緒に。ただし、私の設定が何であっても、のエラーはのエラーよりもはるかに遅くGradientDescentOptimizer減少していましたAdamOptimizer。実際tf.train.AdamOptimizer(0.01)、どのクロスエントロピー計算または学習率が使用されたとして0.01も、tf.train.GradientDescentOptimizer常に2000を超える学習ステップが必要でしたが、（最高の結果が得られた学習率に応じて）400から800の学習ステップ後に本当に良い結果が得られました。これはなぜですか？そうですAdamOptimizer、常により良い選択です！

45 machine-learning neural-networks error gradient-descent supervised-learning

1

softmax_cross_entropy_with_logitsはsoftmax_cross_entropy_with_logits_v2とどう違うのですか？

具体的には、私はこの声明について疑問に思うだろう： TensorFlowの将来のメジャーバージョンでは、デフォルトでbackpropのラベル入力に勾配が流れるようになります。を使用すると表示されますtf.nn.softmax_cross_entropy_with_logits。同じメッセージの中で、それを見ることを促しますtf.nn.softmax_cross_entropy_with_logits_v2。私はドキュメントを調べましたが、それは次のことだけを述べていtf.nn.softmax_cross_entropy_with_logits_v2ます：バックプロパゲーションは、ロジットとラベルの両方に発生します。ラベルへの逆伝播を禁止するには、この関数にフィードする前にstop_gradientsにラベルテンソルを渡します。反対に、tf.nn.softmax_cross_entropy_with_logits「S：バックプロパゲーションはロジットにのみ発生します。件名が非常に新しいので（基本的なチュートリアルを進めようとしています）、これらのステートメントはあまり明確ではありません。私は逆伝播の浅い理解を持っていますが、前のステートメントは実際には何を意味しますか？バックプロパゲーションとラベルはどのように接続されていますか？そして、これtf.nn.softmax_cross_entropy_with_logits_v2はオリジナルとは対照的に私がどのように働くかをどのように変えますか？

41 machine-learning supervised-learning tensorflow backpropagation

3

文書全体に単語の埋め込みを適用して、特徴ベクトルを取得します

ワード埋め込みを使用して、教師あり学習での使用に適した特徴ベクトルにドキュメントをマッピングするにはどうすればよいですか？ワード埋め込みは各ワードをマップベクターにここで、一部ではない余りに多数（例えば、500）です。人気のある単語の埋め込みには、word2vecとGloveが含まれます。V ∈ Rの Dの DwwwV ∈Rdv∈Rdv \in \mathbb{R}^dddd 教師あり学習を適用してドキュメントを分類したい。現在、bag-of-words表現を使用して各ドキュメントを特徴ベクトルにマッピングし、市販の分類器を適用しています。単語の埋め込みに含まれるセマンティック知識を活用するために、単語の特徴ベクトルを既存の事前学習済みの単語の埋め込みに基づくものに置き換えたいと思います。それを行う標準的な方法はありますか？いくつかの可能性を想像できますが、最も意味のあるものがあるかどうかはわかりません。私が検討した候補アプローチ：ドキュメント内の各単語のベクトルを計算し、それらすべてを平均化することができました。ただし、これは多くの情報を失う可能性があるようです。たとえば、word-of-words表現では、分類タスクに非常に関連性のある単語がいくつかあり、ほとんどの単語が無関係である場合、分類子はそれを簡単に学習できます。文書内のすべての単語のベクトルを平均すると、分類子にはチャンスがありません。すべての単語のベクトルを連結しても機能しません。これは、固定サイズの特徴ベクトルにならないためです。また、単語の特定の配置に過度に敏感になるため、悪い考えのように思えます。単語の埋め込みを使用して、すべての単語の語彙をクラスタの固定セット、たとえば1000個のクラスタにクラスタ化できます。この場合、ベクトルのコサイン類似度を単語の類似度の尺度として使用します。次に、バッグオブワードの代わりに、バッグオブクラスターを使用することができます。分類器に提供する特徴ベクトルは、1000 番目のベクトルにすることができ、番目のコンポーネントはドキュメント内の単語の数をカウントしますクラスター一部です。私私私i私私i 単語与えられると、これらの単語の埋め込みにより、上位20個の最も類似した単語とそれらの類似度スコアセットを計算できます。これを使用して、単語のような特徴ベクトルを適応させることができました。私は単語を見たとき、単語に対応する要素インクリメントに加えて、により、Iはまた、単語に対応する要素増分ができによって、単語に対応する要素増分により、というように。w 1、… 、w 20 s 1、… 、s 20 w w 1 w 1 s 1 w 2 s 2wwww1、… 、w20w1、…、w20w_1,\dots,w_{20}s1、… 、s20s1、…、s20s_1,\dots,s_{20}wwwwww111w1w1w_1s1s1s_1w2w2w_2s2s2s_2 文書の分類に適した特定のアプローチはありますか？パラグラフ2vecまたはdoc2vecを探していません。それらは大規模なデータコーパスのトレーニングを必要とし、私は大規模なデータコーパスを持っていません。代わりに、既存の単語埋め込みを使用したいと思います。

38 classification natural-language supervised-learning word2vec word-embeddings

3

（深い）ニューラルネットワークが他の方法より明らかに優れていなかった、教師あり学習の問題はありますか？

私は人々がSVMとカーネルに多くの努力を注いでいるのを見てきましたが、彼らは機械学習のスターターとしてかなり面白そうです。しかし、ほぼ常に（深い）ニューラルネットワークの点で優れたソリューションを見つけることができると期待する場合、この時代に他の方法を試すことの意味は何ですか？このトピックに関する私の制約は次のとおりです。教師あり学習のみを考えます。回帰および分類。結果の可読性はカウントされません。教師あり学習問題の精度のみが重要です。計算コストは考慮されていません。他の方法が役に立たないと言っているわけではありません。

33 machine-learning svm kernel-trick supervised-learning

2

教師あり学習、教師なし学習、強化学習：ワークフローの基本

教師あり学習 1）人間が入力データと出力データに基づいて分類器を構築する 2）その分類器はデータのトレーニングセットでトレーニングされます 3）その分類器はデータのテストセットでテストされます 4）出力が満足できる場合の展開「このデータを分類する方法を知っているので、ソートするためにあなた（分類器）が必要なだけ」の場合に使用します。メソッドのポイント：ラベルをクラス分けするか、実数を生成する教師なし学習 1）人間は入力データに基づいてアルゴリズムを構築します 2）そのアルゴリズムは、データのテストセット（アルゴリズムが分類子を作成する）でテストされます。 3）分類子が満足できる場合の展開「このデータを分類する方法がわからない場合、アルゴリズムを使用して分類子を作成できますか？」方法のポイント：ラベルを分類する、または予測する（PDF）強化学習 1）人間は入力データに基づいてアルゴリズムを構築します 2）そのアルゴリズムは、ユーザーがアルゴリズムが行ったアクションを介してアルゴリズムに報酬を与えるか罰する入力データに依存する状態を提示します。これは時間とともに継続します 3）そのアルゴリズムは報酬/罰から学び、それ自体を更新します、これは続きます 4）常に本番環境にあり、州からのアクションを提示できるように実際のデータを学習する必要があります「このデータを分類する方法がわかりません。このデータを分類してもらえますか。それが正しい場合は報酬を、そうでない場合は罰します。」これはこれらのプラクティスの種類の流れですか、彼らが何をするかについて多くを聞きますが、実用的で模範的な情報は驚くほど少ないです！

30 machine-learning unsupervised-learning supervised-learning reinforcement-learning

5

統計と機械学習の2つのグループを区別する：仮説検定対分類対クラスタリング

AとBというラベルの付いた2つのデータグループ（それぞれ200個のサンプルと1つの機能を含むなど）があり、それらが異なるかどうかを知りたいとします。私はできた： a）統計的検定（t検定など）を実行して、統計的に異なるかどうかを確認します。 b）教師付き機械学習を使用します（サポートベクトル分類子またはランダムフォレスト分類子など）。データの一部でこれをトレーニングし、残りの部分で検証できます。機械学習アルゴリズムがその後残りを正しく分類する場合、サンプルが微分可能であると確信できます。 c）教師なしアルゴリズム（K-Meansなど）を使用して、すべてのデータを2つのサンプルに分割します。次に、これらの2つのサンプルがラベルAとBに一致するかどうかを確認できます。私の質問は：これら3つの異なる方法はどのように重複/排他的ですか？ b）とc）は科学的な議論に役立ちますか？方法b）とc）のサンプルAとBの違いの「有意性」を取得するにはどうすればよいですか？データに1つの機能ではなく複数の機能がある場合、何が変わりますか？サンプル数が異なる場合、たとえば100対300の場合はどうなりますか？

29 machine-learning hypothesis-testing t-test unsupervised-learning supervised-learning

3

教師なし学習、教師あり学習、半教師あり学習

機械学習のコンテキストでは、次の違いは何ですか教師なし学習教師あり学習と半教師あり学習？そして、注目すべき主要なアルゴリズムのアプローチは何ですか？

27 machine-learning unsupervised-learning supervised-learning semi-supervised

3

毎日の時系列分析

私は時系列分析を行おうとしており、この分野は初めてです。2006年から2009年までのイベントを毎日数えており、時系列モデルをそれに合わせたいと考えています。これが私が達成した進歩です。 timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 結果のプロットは次のとおりです。データに季節性と傾向があるかどうかを確認するには、この投稿に記載されている手順に従います。 ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal そしてロブ・J・ハインドマンのブログで： library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) どちらの場合も、季節性がないことを示しています。シリーズのACFとPACFをプロットすると、次のようになります。私の質問は：これは、毎日の時系列データを処理する方法ですか？このページは、週ごとと年ごとのパターンを検討する必要があることを示唆していますが、そのアプローチは明確ではありません。 ACFプロットとPACFプロットを取得した後、どのように進めるかわかりません。 auto.arima関数を単純に使用できますか？ fit <-arima（myts、order = c（p、d、q） ***** Auto.Arimaの結果を更新****** ここでRob Hyndmanのコメントに従ってデータの頻度を7に変更すると、auto.arimaは季節ARIMAモデルを選択して出力します。 …

24 r time-series seasonality multiple-seasonalities tbats hypothesis-testing beta-distribution machine-learning unsupervised-learning supervised-learning reinforcement-learning

3

トレーニングとして肯定的なケースのみで結果を予測する方法は？

簡単にするために、スパム/非スパム電子メールの典型的な例に取り組んでいるとしましょう。 20000通のメールがあります。これらのうち、2000年はスパムであることは知っていますが、スパムではないメールの例はありません。残りの18000がスパムかどうかを予測したいと思います。理想的には、私が探している結果は、電子メールがスパムである確率（またはp値）です。この状況で賢明な予測を行うために、どのアルゴリズムを使用できますか？現時点では、距離ベースの方法で、自分のメールが既知のスパムメールにどれだけ似ているかを考えています。どのようなオプションがありますか？より一般的には、教師あり学習方法を使用できますか、それを行うためにトレーニングセットに否定的なケースが必要になる必要がありますか？教師なし学習アプローチに限定されていますか？半教師あり方法はどうですか？

21 machine-learning predictive-models unsupervised-learning supervised-learning semi-supervised

2

半教師あり学習の多様な仮定とは何ですか？

半教師あり学習における多様な仮定の意味を理解しようとしています。誰でも簡単に説明できますか？私はその背後にある直感をつかむことができません。データは、高次元の空間に埋め込まれた低次元の多様体上にあると言います。意味がわかりませんでした。

20 machine-learning unsupervised-learning supervised-learning manifold-learning

1

教師あり学習は強化学習のサブセットですか？

教師あり学習の定義は強化学習のサブセットであり、ラベル付きデータに基づく特定のタイプの報酬関数（環境内の他の情報とは対照的）のようです。これは正確な描写ですか？

16 machine-learning terminology reinforcement-learning supervised-learning definition

4

人工ニューラルネットワークとは何ですか？

ニューラルネットワークの文献を詳しく調べると、ニューロモーフィックトポロジ（「ニューラルネットワーク」のようなアーキテクチャ）を使用した他の方法を特定することができます。そして、私は普遍近似定理について話していません。以下に例を示します。それから、不思議に思う：人工ニューラルネットワークの定義は何ですか？そのトポロジーはすべてをカバーしているように見えます。例：最初に行う識別の1つは、PCAと、エンコーダーとデコーダーの結合重みとボトルネックレイヤーのしきい値付きアクティブ化を備えた線形オートエンコーダーの間です。また、線形モデル（特別なロジスティック回帰）と、非表示層および単一の出力層のないニューラルネットワークとの間で共通の識別が行われます。この識別はいくつかの扉を開きます。フーリエ級数とテイラー級数？ANN。SVM？ANN。ガウス過程？ANN（無限の非表示ユニットを持つ単一の非表示レイヤー）。そのため、同様に簡単に、これらのアルゴリズムの特殊な損失関数を持つ任意の正規化バージョンをニューラルネットワークフレームワークに組み込むことができます。しかし、掘り下げるほど、より多くの類似点が現れます。Deep Neural Decision Treesに出会ったところです。これにより、ディシジョンツリーを使用して特定のANNアーキテクチャを識別し、ANNメソッド（勾配降下逆伝搬など）で学習できるようになりました。これから、ニューラルネットワークトポロジのみからランダムフォレストと勾配ブーストディシジョンツリーを構築できます。すべてを人工ニューラルネットワークとして表現できる場合、人工ニューラルネットワークを定義するものは何ですか？

15 machine-learning neural-networks deep-learning unsupervised-learning supervised-learning

4

機械学習アルゴリズムの予測間隔

以下に説明するプロセスが有効/許容可能であり、正当な理由があるかどうかを知りたい。考え方：教師あり学習アルゴリズムは、データの基礎となる構造/分布を想定していません。一日の終わりに、彼らはポイント推定値を出力します。推定の不確実性を何らかの形で定量化したいと考えています。現在、MLモデルの構築プロセスは本質的にランダムです（たとえば、ハイパーパラメーターチューニングの相互検証のサンプリングや、確率論的GBMのサブサンプリングなど）。したがって、モデリングパイプラインは、異なる予測子ごとに異なるシードの異なる出力を生成します。私の（素朴な）アイデアは、このプロセスを何度も繰り返して予測の分布を考え出すことであり、予測の不確実性について声明を出すことができれば幸いです。問題があれば、私が扱うデータセットは通常非常に小さい（〜200行）。これは理にかなっていますか？明確にするために、私は実際には伝統的な意味でデータをブートストラップしていません（つまり、データを再サンプリングしていません）。すべての反復で同じデータセットが使用されます。xvalと確率的GBMのランダム性を利用しています。

13 machine-learning confidence-interval bootstrap supervised-learning gbm

1

教師あり次元削減

15個のラベル付きサンプル（10グループ）で構成されるデータセットがあります。ラベルの知識を考慮して、次元削減を2つの次元に適用します。 PCAなどの「標準」の教師なし次元削減手法を使用する場合、散布図は既知のラベルとは関係がないようです。私が探しているものには名前がありますか？ソリューションの参考文献をいくつか読みたいです。

13 machine-learning pca dimensionality-reduction supervised-learning discriminant-analysis

タグ付けされた質問 「supervised-learning」

タグ付けされた質問「supervised-learning」