統計とビッグデータ machine-learning

1

私の理解では、機械学習では、データセットに高度に相関する特徴がある場合、同じ情報を効果的にエンコードするため、問題になる可能性があります。最近、誰かが、カテゴリー変数でワンホットエンコーディングを行うと、相関する機能になるため、そのうちの1つを「参照」として削除する必要があると指摘しました。たとえば、性別を2つの変数としてエンコードするis_maleとis_female、は完全に負の相関関係にある2つの特徴を生成するため、そのうちの1つを使用し、効果的にベースラインを男性に設定してから、予測アルゴリズムでis_female列が重要かどうかを確認することを提案しました。それは理にかなっていますが、これが事実である可能性を示唆するオンラインは見つかりませんでしたので、これは間違っているのですか、何か不足していますか？可能性のある（未回答の）重複：ワンホットエンコードフィーチャの共線性はSVMとLogRegにとって重要ですか？

21 regression machine-learning categorical-data discrete-data categorical-encoding

2

バッチ正規化では、移動平均を使用して、トレーニング中のモデルの精度を追跡する方法と理由を教えてください。

私はバッチ正規化（BN）論文（1）を読んでいて、モデルの精度を追跡するために移動平均を使用する必要があることを理解していませんでした。彼らがまさにやっていること。私の理解（これは間違っている）に、論文では、モデルがトレーニングを終了した後、ミニバッチ統計ではなく人口統計を使用していることに言及しています。偏りのない推定についての議論の後（それは私には接線のようであり、なぜそれについて話すのか理解できない）、彼らは行って言う：代わりに移動平均を使用して、トレーニング中のモデルの精度を追跡します。それは私を混乱させている部分です。なぜ移動平均を行ってモデルの精度とどのデータセットを推定するのですか？通常、人々はモデルの一般化を推定するために行うことで、モデルの検証エラーを追跡します（そして、勾配降下を早期に停止して正則化する可能性があります）。ただし、バッチの正規化はまったく異なることを行っているようです。誰かが何を、なぜ違うことをしているのかを明確にできますか？ 1：Ioffe S.およびSzegedy C.（2015）、「バッチ正規化：内部共変量シフトの削減によるディープネットワークトレーニングの加速」、第32回機械学習に関する国際会議の議事録、リール、フランス、2015年。機械学習研究ジャーナル： W＆CPボリューム37

21 machine-learning neural-networks deep-learning conv-neural-network batch-normalization

2

各値をベクトルの合計で除算できるのに、softmax関数を使用して確率を計算するのはなぜですか？

ベクター上にソフトマックス関数を適用する間に、「確率」との値を生成する及び。 000111 しかし、我々はまた、ベクトルの和によって各値を分割することができ、それは間確率と値を生成する及び。000111 私はここで答えを読みましたが、理由はそれが微分可能であるためだと言いますが、両方の関数は微分可能です。

20 machine-learning neural-networks softmax

2

分散スケーリング初期化子とxavier初期化子の違いは何ですか？

TensorflowのResNetの実装では、分散スケーリングイニシャライザーを使用していることがわかります。xavierイニシャライザーも一般的です。私はこれについてあまり経験がありませんが、実際にはどちらが良いですか？

20 machine-learning neural-networks deep-learning conv-neural-network tensorflow

9

オーバーフィットとアンダーフィット

私は過剰適合と不足適合についていくつかの研究を行い、それらが何であるかを正確に理解しましたが、その理由はわかりません。オーバーフィットとアンダーフィットの主な理由は何ですか？モデルのトレーニングでこれら2つの問題に直面するのはなぜですか？

20 machine-learning dataset overfitting

3

分類器がサンプルの半分を誤分類した場合でも、AUC = 1になるのはなぜですか？

確率を返す分類器を使用しています。AUCを計算するには、pROC Rパッケージを使用しています。分類器からの出力確率は次のとおりです。 probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probsクラス「1」に属する確率を示します。示されているように、分類器はクラス「1」のすべてのサンプルを分類しました。真のラベルベクトルは次のとおりです。 truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0) 示されているように、分類器は5つのサンプルを誤って分類しています。しかし、AUCは次のとおりです。 pROC::auc(truel, probs) Area under the curve: 1 なぜそれが起こるのか説明してもらえますか？

20 machine-learning auc

4

学習と推論の違いは何ですか？

機械学習の研究論文では、多くの場合、学習と推論を2つの別々のタスクとして扱いますが、その区別が何であるかは明確ではありません。では、本書例えば、彼らは、タスクの両方の種類のベイズ統計を使用しますが、その区別のための動機を提供していません。私はそれが何であるかについていくつかのあいまいなアイデアを持っていますが、堅実な定義と、おそらく私のアイデアの反論または拡張を見たいと思います：特定のデータポイントの潜在変数の値を推測することと、データに適したモデルを学習することとの違い。（入力空間/プロセス/ワールドのダイナミクスを学習することで）分散を抽出できるように、分散を抽出（推論）と不変を学習することの違い。神経科学の類推は、短期増強/うつ病（記憶の痕跡）対長期増強/うつ病である可能性があります。

20 machine-learning terminology

3

機械学習で、下付き文字の代わりに上付き文字が使用されるのはなぜですか？

私はCourseraを通じてAndrew Ngの機械学習に関するコースを受講しています。方程式では、下付き文字の代わりに上付き文字が使用されます。例えば、以下の式でx(i)x(i)x^{(i)}の代わりに使用されるxixix_i： J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta_0, \theta_1) = \frac{1}{2m} \sum\limits_{i=1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})^2} どうやら、これは一般的な慣行です。私の質問は、なぜ下付き文字ではなく上付き文字を使用するのですか？上付き文字はすでに累乗に使用されています。かっこが存在するかどうかに注意を払うことで、上付き文字とべき乗のユースケースを明確にすることができるように思えますが、それでも混乱しているようです。

20 machine-learning notation

2

ランダムフォレストでの「ノードサイズ」とは何ですか？

ノードサイズの意味を正確に理解していません。決定ノードとは何かを知っていますが、ノードサイズはわかりません。

20 machine-learning random-forest bagging

5

正則化アルゴリズムを使用している間に、特徴選択を行う必要がありますか？

統計学習アルゴリズムを実行する前に、特徴選択方法（ランダムフォレストの特徴の重要度値または単変量の特徴選択方法など）を使用する必要性に関して1つの質問があります。重みベクトルに正則化ペナルティを導入することができる過剰適合を避けることがわかっています。したがって、線形回帰を行いたい場合は、L2またはL1またはElastic net正則化パラメーターを導入できます。スパースソリューションを取得するには、L1ペナルティが機能選択に役立ちます。その後、LassoなどのL1正則化回帰を実行する前に、機能の選択を行う必要がありますか？技術的には、LassoはL1ペナルティによって機能を削減するのに役立ちます。それでは、なぜアルゴリズムを実行する前に機能を選択する必要があるのですか？ Anovaを実行してからSVMを実行すると、SVMを単独で使用するよりもパフォーマンスが向上するという研究記事を読みました。ここで質問です。SVMは本質的にL2ノルムを使用して正則化を行います。マージンを最大化するために、重みベクトルのノルムを最小化しています。そのため、その目的関数で正則化を行っています。それでは、SVMなどの技術的なアルゴリズムは、機能の選択方法に煩わされるべきではありませんか？しかし、レポートでは、通常のSVMがより強力になる前に、単変量の特徴選択を行うといわれています。考えている人はいますか？

20 regression machine-learning feature-selection lasso regularization

4

教師なしクラスタリングのための決定木のようなアルゴリズムはありますか？

A、B、C、D、Eの5つの機能で構成されるデータセットがあります。これらはすべて数値です。密度ベースのクラスタリングを実行する代わりに、意思決定ツリーのような方法でデータをクラスター化します。私が意味するアプローチは次のようなものです：アルゴリズムは、特徴Cに基づいてデータをX個の初期クラスターに分割します。つまり、Xクラスターは、小さいC、中程度のC、大きいC、非常に大きいCの値などを持ちます。フィーチャAに基づいてデータをYクラスターに格納します。アルゴリズムは、すべてのフィーチャが使用されるまで続行されます。上で説明したアルゴリズムは、決定木アルゴリズムのようなものです。ただし、教師あり分類ではなく、教師なしクラスタリングに必要です。私の質問は次のとおりです。そのようなアルゴリズムはすでに存在しますか？そのようなアルゴリズムの正しい名前は何ですかこの種のアルゴリズムを実装したR / pythonパッケージ/ライブラリはありますか？

20 r machine-learning clustering cart

2

ディープラーニングはどこで、なぜ輝くのですか？

最近のディープラーニングに関するすべてのメディアトークと誇大広告で、私はそれについていくつかの基本的なものを読みました。データからパターンを学習するのは、別の機械学習方法であることがわかりました。しかし、私の質問は次のとおりです。この方法がどこで、なぜ輝くのか。なぜ今それについてのすべての話ですか？つまり、大騒ぎとは何ですか？

20 machine-learning data-mining deep-learning deep-belief-networks

3

クラスの確率を予測する機械学習

例が2つのクラスのいずれかに属する確率を出力する分類子を探しています。ロジスティック回帰と単純ベイズを知っていますが、同様の方法で機能する他の製品について教えてください。つまり、例が属するクラスではなく、例が特定のクラスに適合する確率を予測する分類子ですか？これらのさまざまな分類器の長所と短所（ロジスティック回帰と単純ベイズを含む）について共有できる考えのボーナスポイント。たとえば、マルチクラス分類の方が良いでしょうか？

20 machine-learning probability logistic classification naive-bayes

2

半教師あり学習の多様な仮定とは何ですか？

半教師あり学習における多様な仮定の意味を理解しようとしています。誰でも簡単に説明できますか？私はその背後にある直感をつかむことができません。データは、高次元の空間に埋め込まれた低次元の多様体上にあると言います。意味がわかりませんでした。

20 machine-learning unsupervised-learning supervised-learning manifold-learning

2

反復強化学習とは

私は最近、「繰り返し強化学習」という言葉に出会いました。「リカレントニューラルネットワーク」とは何か、「強化学習」とは何かを理解していますが、「リカレント強化学習」とは何かについてはあまり情報が見つかりませんでした。「繰り返し強化学習」とは何か、Qラーニングアルゴリズムのような「繰り返し強化学習」と通常の「強化学習」の違いを教えてください。

20 machine-learning reinforcement-learning

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」