タグ付けされた質問 「machine-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加します。

4
線形活性化関数は、ニューラルネットワークの消失勾配問題をどのように解決しますか?
ニューラルネットワークの消失勾配問題の解決策として、いくつかの場所で称賛された整流線形ユニット(ReLU)が見つかりました。つまり、アクティベーション関数としてmax(0、x)を使用します。活性化が正の場合、その派生は大きなxの任意の小さな値ではなく常に1であるため、これがたとえばシグモイド活性化関数よりも優れていることは明らかです。一方、xが0より小さい場合、導出は正確に0です。最悪の場合、ユニットがアクティブ化されない場合、このユニットの重みも変更されず、ユニットは永久に使用できなくなります。消失するほど小さい勾配よりもはるかに悪い。ReLUを使用する場合、学習アルゴリズムはその問題にどのように対処しますか?

2
ランダムフォレストの変数重要度の測定
私は回帰のためにランダムフォレストをいじくり回しており、2つの重要度の測定値が何を意味し、どのように解釈すべきかを正確に判断するのに苦労しています。 このimportance()関数は、変数ごとに2つの値を提供します:%IncMSEとIncNodePurity。これらの2つの値の簡単な解釈はありますか? 以下のためにIncNodePurity、特に、これは単にその変数を除去した後の金額RSS増加のですか?

7
ニューラルネットワークでのデータの正規化と標準化
ニューラルネットワーク(ANN)を使用して複雑なシステムの結果を予測しようとしています。結果(依存)値の範囲は0〜10,000です。異なる入力変数には異なる範囲があります。すべての変数には、ほぼ正規分布があります。 トレーニングの前にデータをスケーリングするさまざまなオプションを検討します。1つのオプションは、各変数の平均値と標準偏差値を個別に使用して累積分布関数を計算することにより、入力(独立)変数と出力(従属)変数を[0、1]にスケーリングすることです。この方法の問題は、出力でシグモイド活性化関数を使用すると、極端なデータ、特にトレーニングセットで見られないデータが失われる可能性が高いことです。 別のオプションは、zスコアを使用することです。その場合、極端なデータの問題はありません。ただし、出力では線形活性化関数に制限されています。 ANNで使用されている他の受け入れられている正規化手法は何ですか?このトピックのレビューを探しましたが、有用なものが見つかりませんでした。

3
ランダムフォレストと極端にランダム化されたツリーの違い
ランダムフォレストと極端にランダム化されたツリーは、ランダムフォレスト内のツリーの分割が決定論的であるという意味で異なりますが、極端にランダム化されたツリーの場合はランダムです(より正確には、次の分割が最適な分割です現在のツリーの選択された変数のランダムな均一な分割の間で)。しかし、私はさまざまな状況でのこの異なる分割の影響を完全には理解していません。 彼らはバイアス/分散の観点からどのように比較しますか? 無関係な変数が存在する場合、それらはどのように比較されますか? 相関変数の存在下でどのように比較しますか?

5
LDA対word2vec
単語の類似性を計算するためのLatent Dirichlet Allocationとword2vecの類似性を理解しようとしています。 私が理解しているように、LDAは単語を潜在トピックの確率のベクトルにマッピングし、word2vecはそれらを実数のベクトルにマッピングします(点ごとの相互情報の特異値分解に関連します。O。Levy 、Y. Goldberg、 "Neural Word Embedding暗黙的な行列因子分解として」 ; word2vecの仕組みも参照してください)。 理論的な関係(一方を他方の一般化、またはバリエーションと見なすことができます)と実用(一方を使用して他方を使用しない場合)の両方に興味があります。 関連: ドキュメント間の距離を計算する標準的な方法は何ですか?-DataScience.SE

6
なぜ100%の精度の決定木が得られるのですか?
意思決定ツリーの精度は100%です。何が間違っていますか? これは私のコードです: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train = y[0:2635] y_test = y[0:658] from sklearn.tree import DecisionTreeClassifier tree = …

3
ディープラーニングでハイパーパラメーターを選択するためのガイドライン
スタックオートエンコーダーやディープブレイドネットワークなど、ディープアーキテクチャーのハイパーパラメーターを選択する方法に関するガイドラインを提供するのに役立つ論文を探しています。ハイパーパラメーターはたくさんあり、それらの選択方法については非常に混乱しています。また、トレーニングには多くの時間がかかるため、相互検証の使用は選択肢ではありません!

3
オンライン学習とオフライン学習?
オフライン学習とオンライン学習の違いは何ですか?データセット全体の学習(オフライン)と段階的な学習(一度に1つのインスタンス)だけの問題ですか?両方で使用されるアルゴリズムの例は何ですか?

4
コンピュータビジョンと畳み込みニューラルネットワークにおける翻訳不変性とは何ですか?
コンピュータビジョンの背景はありませんが、画像処理や畳み込みニューラルネットワークに関連する記事や論文を読んでいるとき、私は絶えず用語translation invariance、またはに直面していtranslation invariantます。 または、畳み込み演算が提供する多くのことを読みますtranslation invariance?!! これは何を意味するのでしょうか? どんな形の画像を変更しても、画像の実際の概念は変わらないという意味で、私自身は常に自分自身に翻訳しました。 たとえば、レッツ・セイのツリーの画像を回転させると、その写真に対して何をしても、それは再びツリーになります。 そして、私自身は、画像に起こりうるすべての操作を考えて、ある方法で変換(トリミング、サイズ変更、グレースケール、色付けなど)をこのようにすることを考えています。これが本当かどうか分からないので、誰かがこれを説明できればありがたいです。

3
「エポック」、「バッチ」、および「ミニバッチ」の違いは何ですか?
私の知る限り、確率的勾配降下法を学習アルゴリズムとして採用する場合、誰かが完全なデータセットに「エポック」を使用し、単一の更新ステップで使用されるデータに「バッチ」を使用し、別の人はそれぞれ「バッチ」と「ミニバッチ」を使用し、その他は「エポック」と「ミニバッチ」を使用します。これは議論中に多くの混乱をもたらします。 では、正しいことわざとは何ですか?または、それらはすべて受け入れられる方言です?

3
分割交差検証推定値のとしての分散:「安定性」の役割は何ですか?
TL、DR:それは、反対しばしば反復するアドバイス、リーブワンアウトクロスバリデーション(LOO-CV)が表示さ-であり、でCVを倍(折り目の数)に等しい(数トレーニング観測値)-モデル/アルゴリズム、データセット、またはその両方の特定の安定性条件を仮定して、最大変数ではなく、最小変数である一般化誤差の推定値を生成します(どちらがわからない私はこの安定条件を本当に理解していないので正しいです)。K N KKKKKKKNNNKKK 誰かがこの安定条件が何であるかを正確に説明できますか? 線形回帰はそのような「安定した」アルゴリズムの1つであり、その文脈では、LOO-CVが一般化誤差の推定値のバイアスと分散に関する限り、厳密にCVの最良の選択であることを意味しますか? 従来の知恵は、選択することであるにおける倍CVはバイアス分散トレードオフを、以下のような低い値高い値つつ、より悲観的なバイアスを有する汎化誤差の推定につながるが、より低い分散、(2に近づきます)(接近)以下バイアスされたが、より大きな分散を有するされる推定値をもたらします。とともに増加するこの分散現象の従来の説明は、おそらく「統計的学習の要素(セクション7.10.1)」で最も顕著に示されています。K K K N KKKKKKKKKKKKKNNNKKK K = Nの場合、クロス検証推定器は真の(予想される)予測誤差に対してほぼバイアスをかけられませんが、N個の「トレーニングセット」は互いに非常に類似しているため、分散が大きくなります。 意味は、検証エラーはより高度に相関しているため、それらの合計はより可変的です。推論のこのラインは(例えば、このサイトで多くの回答で繰り返されているここで、ここでは、ここでは、ここでは、ここでは、ここでは、とここではその代わり、)などなど、様々なブログにし、しかし、詳細な分析が事実上与えれることはありません分析がどのように見えるかについての直感または簡単なスケッチのみ。NNN ただし、通常、私が実際に理解していない特定の「安定性」条件を引用して、矛盾するステートメントを見つけることができます。たとえば、この矛盾する答えは、「低不安定性のモデル/モデリング手順では、LOOの変動性が最小であることが多い」という2015年の論文のいくつかの段落を引用しています(強調を追加)。このペーパー(セクション5.2)は、モデル/アルゴリズムが「安定」である限り、LOOが最小変数選択を表すことに同意するようです。この問題に対する別のスタンスをとると、この論文(結果2)もあります。これは、「倍交差検証の分散[...]は依存しないk kKKKkkkkkk、」再び特定の「安定性」条件を引用しています。 LOOが最も可変的な折り畳みCVである理由についての説明は十分に直感的ですが、反直感があります。平均二乗誤差(MSE)の最終的なCV推定値は、各フォールドのMSE推定値の平均です。したがって、がまで増加すると、CV推定値は増加するランダム変数の平均になります。そして、平均の分散は変数の数が平均化されるにつれて減少することを知っています。そのため、LOOが最も可変のフォールドCVになるためには、MSE推定値間の相関の増加による分散の増加が、平均化されるフォールドの数が多いことによる分散の減少を上回ることを確認する必要があります。K N KKKKKKKNNNKKK。そして、これが真実であることはまったく明らかではありません。 これらすべてについて完全に混乱して考えるようになったので、線形回帰の場合について少しシミュレーションを実行することにしました。 = 50および3つの無相関予測子を使用して10,000個のデータセットをシミュレートし、そのたびに = 2、5、10 、または50 =フォールドCVを使用して一般化誤差を推定しました。Rコードはこちらです。10,000個のすべてのデータセット(MSE単位)でのCV推定の結果の平均と分散は次のとおりです。K K NNNNKKKKKKNNN k = 2 k = 5 k = 10 k = n = 50 mean 1.187 1.108 1.094 1.087 variance 0.094 0.058 …

6
多くのカテゴリ変数を使用して分類を改善する
私は200,000以上のサンプルとサンプルあたり約50の特徴を持つデータセットに取り組んでいます:10の連続変数と他の〜40はカテゴリ変数(国、言語、科学分野など)です。これらのカテゴリ変数には、たとえば150か国、50の言語、50の科学分野などがあります。 これまでの私のアプローチは次のとおりです。 多くの可能な値を持つカテゴリ変数ごとに、この値を取得する10000個を超えるサンプルを持つ変数のみを取得します。これにより、150ではなく5〜10のカテゴリに減少します。 カテゴリカル変数ごとにダミー変数を作成します(10か国の場合、サンプルごとにサイズ10のバイナリベクトルを追加します)。 このデータをランダムフォレスト分類器(パラメーターのクロス検証など)にフィードします。 現在、このアプローチでは、65%の精度しか得られず、さらに多くのことができるように感じています。特に、1)に満足していません。サンプルの数に応じて「最も関連性の低い値」を勝手に削除してはいけないように感じるからです。一方、RAMには、可能なすべての値を保持することで、データに500列* 200000行を追加する余裕がありません。 この多くのカテゴリ変数に対処するための提案はありますか?

4
数学の強力なバックグラウンドはMLの必須条件ですか?
私は自分のスキルセットを向上させたいと考え始めており、私は常に機械学習に魅了されてきました。しかし、6年前にこれを追求する代わりに、コンピューターサイエンスとはまったく関係のない学位を取ることにしました。 私は約8〜10年間ソフトウェアとアプリケーションを開発してきたので、私は良いハンドルを持っていますが、機械学習/確率/統計学の数学の側面に侵入することはできないようです。 私は学習教材に目を向けると、最初のページには混乱を招き、すぐに学習に障害を引き起こすものが含まれている可能性があります。 数学の強力なバックグラウンドはMLの必須条件ですか?MLを続行する前に、数学の空白を埋めてみる必要がありますか?自己学習は、ハードコンピュータサイエンスのバックグラウンドがなくても、開発者だけで本当に機能しますか? 関連する質問: 統計学習の要素の前に読むための本?

3
StackExchange Webサイトでの機械学習メソッドの適用
今学期には機械学習コースがあり、教授は実世界の問題を見つけて、クラスで導入された機械学習方法の1つでそれを解決するように依頼しました。 決定木 人工ニューラルネットワーク サポートベクターマシン インスタンスベースの学習(kNN、LWL) ベイジアンネットワーク 強化学習 私はstackoverflowとstackexchangeのファンの1人であり、これらのウェブサイトのデータベースダンプが素晴らしいので一般に提供されていることを知っています!これらのデータベースに関する優れた機械学習の課題を見つけて解決できることを願っています。 私の考え 私が思いついたアイデアの1つは、質問本文に入力された単語に基づいて質問のタグを予測することです。ベイジアンネットワークは質問のタグを学習するのに適したツールだと思いますが、さらに調査が必要です。とにかく、ユーザーが質問の入力を終えた段階を学習した後、いくつかのタグが彼に提案されるべきです。 教えてください: MLに関する2つの質問について、統計コミュニティに経験豊富な人々に尋ねたいと思います。 タグの提案は少なくとも解決する可能性がある問題だと思いますか?それについて何かアドバイスはありますか?stackexchangeはまだそのような機能を実装していないので、少し心配です。 stackexchangeデータベースに基づくMLプロジェクトのその他の/より良いアイデアはありますか?stackexchangeデータベースから学ぶべきものを見つけるのは本当に難しいと思います。 データベースエラーに関する考慮事項: データベースは巨大で、多くのインスタンスを持っていますが、完全ではなく、エラーが発生しやすいことを指摘したいと思います。明白なのは、信頼できないユーザーの年齢です。質問に対して選択されたタグでさえ、100%正確ではありません。とにかく、問題を選択する際にデータの正確性の割合を考慮する必要があります。 問題自体についての考察:私のプロジェクトはdata-miningこのようなものであってはなりません。それは、実世界でのMLメソッドのアプリケーションであるべきです。

2
予測のみに関心がある場合、なぜ隆線の上で投げ縄を使用するのですか?
統計学習の概要の 223ページで、著者はリッジ回帰となげなわの違いをまとめています。「バイアス、分散、およびMSEの観点から、投げ縄がリッジ回帰を上回る傾向がある」場合の例を示します(図6.9)。 なげなわが望ましい理由を理解しています。多くの係数を0に縮小し、結果としてシンプルで解釈可能なモデルになるため、スパースソリューションになります。しかし、予測のみに関心がある場合にリッジをどのように上回ることができるかはわかりません(例でMSEが大幅に低下するのはどうですか?)。 リッジでは、多くの予測子が応答にほとんど影響を与えない場合(少数の予測子が大きな効果を持つ場合)、それらの係数はゼロに非常に近い小さな数に単純に縮小されません... ?それでは、なぜ最終モデルは投げ縄よりもパフォーマンスが悪いのでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.