統計とビッグデータ machine-learning

1

私は次のようにn型武装盗賊の問題を解決するためのアルゴリズムの数について読んだ -greedy、ソフトマックス、およびUCB1、私は後悔を最小限に抑えるために何が最善かのアプローチをソートいくつかの問題を抱えています。ϵϵ\epsilon nアームのバンディット問題を解決するための既知の最適なアルゴリズムはありますか？実際に最高のパフォーマンスを発揮するアルゴリズムの選択肢はありますか？

13 machine-learning reinforcement-learning multiarmed-bandit

2

希少性が事実に反する多数のイベントによるものである場合、「まれな」イベントによる教師あり学習

市場で買い手と売り手の間の「一致」を観察できると仮定します。また、買い手と売り手の両方の特性を観察して、将来の一致を予測し、市場の両側に推奨事項を作成することもできます。簡単にするために、N人の買い手とN人の売り手がいて、それぞれが一致するものを見つけると仮定します。N個の一致と（N-1）（N-1）個の不一致があります。すべてを含むトレーニングデータセットには、N +（N-1）*（N-1）個の観測値がありますが、これは非常に大きくなる可能性があります。（N-1）（N-1）の不一致からランダムにサンプリングし、その削減されたデータでアルゴリズムをトレーニングすると、より効率的になると思われます。私の質問は：（1）トレーニングデータセットを構築するための不一致からのサンプリングは、この問題に対処する合理的な方法ですか？（2）（1）が真の場合、含める（N-1）（N-1）のチャンクの大きさを決定する厳密な方法はありますか？

13 machine-learning

3

LASSOソリューションを計算するためのGLMNETまたはLARS？

LASSO問題の係数を取得したい ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 問題は、glmnet関数とlars関数が異なる答えを与えることです。glmnet関数については、係数を求めます。| Y | | 単にλの代わりに、私はまだ異なる答えを得る。λ/||Y||λ/||Y||\lambda/||Y||λλ\lambda これは予想されますか？ラースとの関係は何であるとglmnet λは？私はglmnetがLASSOの問題に対してより高速であることを理解していますが、どの方法がより強力かを知りたいですか？λλ\lambdaλλ\lambda deps_statsデータセットのサイズが大きすぎてLARSが処理できないのに対して、glmnetは大きなデータセットを処理できません。 mpiktas（Y-Xb）^ 2 + L \ sum | b_j |の解を見つけたいしかし、2つのアルゴリズム（larsとglmnet）から特定のLの計算された係数を求めると、異なる答えが得られます...そして、それは正しい/期待されているのでしょうか？または、2つの関数に間違ったラムダを使用しています。

13 r machine-learning regression lasso regularization

5

異なる長さの時系列のSVD次元削減

次元削減手法として特異値分解を使用しています。 N次元のベクトルが与えられた場合D、アイデアは、相関のない次元の変換された空間で特徴を表現することです。これは、この空間の固有ベクトルのデータの情報のほとんどを重要度の高い順に凝縮します。今、私はこの手順を時系列データに適用しようとしています。問題は、すべてのシーケンスの長さが同じではないことです。したがって、実際にnum-by-dimマトリックスを作成してSVDを適用することはできません。最初に考えたのは、行列を作成しnum-by-maxDimて空のスペースをゼロで埋めることにより、行列にゼロを埋め込むことでしたが、それが正しい方法であるかどうかはわかりません。私の質問は、異なる長さの時系列への次元削減のSVDアプローチをどのように行いますか？あるいは、時系列で通常使用される固有空間表現の他の同様の方法はありますか？以下は、アイデアを説明するためのMATLABコードです。 X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors KEEP = 2; % number of dimensions to keep newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP); % …

13 time-series machine-learning pca data-transformation multivariate-analysis

3

（平均）ROC AUC、感度および特異性に関して2つの分類子を比較するための統計的有意性（p値）

100のケースと2つの分類子のテストセットがあります。両方の分類子の予測を生成し、ROC AUC、感度、特異度を計算しました。質問1：p値を計算して、すべてのスコア（ROC AUC、感度、特異性）に関して一方が他方よりも有意に優れているかどうかを確認するにはどうすればよいですか？今、100ケースの同じテストセットに対して、ケースごとに異なる独立した機能割り当てがあります。これは、私の機能が固定されているが主観的であり、複数の被験者によって提供されるためです。そのため、テストセットの5つの「バージョン」について2つの分類子を再度評価し、両方の分類子について5つのROC AUC、5つの感度、5つの特異性を取得しました。次に、両方の分類子の5つの被験者（平均ROC AUC、平均感度、平均特異性）の各パフォーマンス測定値の平均を計算しました。質問2：平均スコア（平均ROC AUC、平均感度、平均特異性）に関して、一方が他方よりも有意に優れているかどうかを確認するためにp値を計算するにはどうすればよいですか？いくつかのサンプルPython（できれば）またはMatLabコードの回答は大歓迎です。

13 machine-learning statistical-significance roc auc sensitivity-specificity

1

単純ベイズ分類器が0-1損失に最適なのはなぜですか？

Naive Bayes分類器は、クラスメンバーシップの事後の最大化に基づいてアイテムバツバツxをクラス割り当て、アイテムの特徴が独立していると仮定する分類器です。P （C | x ）CCCP（C| x）P（C|バツ）P(C|x) 0-1の損失は、分類ミスに「1」の損失を割り当て、正しい分類に「0」の損失を割り当てる損失です。私はよく（1）「単純ベイズ」分類器が0-1の損失に最適であることを読みました。なぜこれが本当ですか？（1）1つの典型的なソース：ベイズ分類器とベイズエラー

13 machine-learning bayesian optimization naive-bayes loss-functions

2

共分散関数またはカーネル-正確には何ですか？

私はガウス過程の分野と、それらが機械学習にどのように適用されているかについてかなり新しいです。私はこれらの方法の主な魅力である共分散関数について読み続けています。だから誰もがこれらの共分散関数で何が起こっているのか直感的に説明できますか？それ以外の場合、特定のチュートリアルまたはそれらを説明するドキュメントを指摘できる場合。

13 machine-learning probability bayesian

3

人工ニューラルネットワークの背後にある理論的結果

Courseraの機械学習コースで人工神経回路網を取り上げたばかりですが、その背後にある理論をもっと知りたいです。私は彼らが生物学を模倣するという動機がやや不満足だと思う。表面上、各レベルで共変量をそれらの線形結合に置き換えているように見えます。繰り返し行うことにより、非線形モデルのフィッティングが可能になります。これは疑問を投げかけます：なぜニューラルネットワークが非線形モデルを単に適合させるよりも好まれるのか。より一般的には、人工神経回路網がベイジアンの推論フレームワークにどのように適合するかを知りたいと思います。これは、ET Jaynesの本「Probability Theory：The Logic Of Science」で詳しく説明されています。または、簡単に言えば、人工ニューラルネットワークが機能するときに機能するのはなぜですか？そして、もちろん、彼らが成功した予測をするという事実は、彼らが前述のフレームワークに従うことを意味します。

13 machine-learning neural-networks theory

4

特徴スケーリングと平均正規化

私はAndrew Ngの機械学習コースを受講していますが、数回試行してもこの質問に対する答えを正しく得ることができませんでした。レベルを通過しましたが、これを解決してください。仮定の学生は、いくつかのクラスをとっている、とクラスは中間試験と最終試験を持っていました。次の2つの試験で得点のデータセットを収集しました。m=4m=4m=4 midterm (midterm)^2 final 89 7921 96 72 5184 74 94 8836 87 69 4761 78 多項式回帰を使用して、中間試験の得点から学生の最終試験の得点を予測します。具体的には、フォームのモデルに適合したいと、X 1は、中期スコアで、X 2は、（中期スコア）^ 2です。さらに、フィーチャスケーリング（フィーチャの「最大-最小」または範囲で除算）と平均正規化の両方を使用することを計画します。hθ(x)=θ0+θ1x1+θ2x2hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2x1x1x_1x2x2x_2 正規化された特徴何ですか？（ヒント：中間= 89、最終= 96はトレーニング例1です。）下のテキストボックスに回答を入力してください。該当する場合、小数点以下2桁以上を指定してください。x(4)2x2(4)x_2^{(4)}

13 machine-learning self-study normalization

3

線形回帰を実行しますが、ソリューションに特定のデータポイントを強制的に通過させます

一連のポイントで線形回帰を実行する方法を知っています。つまり、選択した多項式を特定のデータセットに（LSEの意味で）当てはめる方法を知っています。しかし、私が知らないのは、選択した特定のポイントを自分のソリューションに強制的に通過させる方法です。私はこれが以前に行われたことを見ましたが、どのように行われたかは言うまでもなく、プロシージャが何と呼ばれたか覚えていません。非常に単純で具体的な例として、xy平面上に100個の点が散在しており、それらに任意の次数の多項式を当てはめることを選択したとしましょう。私はこの線形回帰の実行方法を非常によく知っています。ただし、x座標x=3x=3x=3、x=19x=19x=19、およびx=89x=89x=89（およびそれらに対応するy座標）で3つのデータポイントを通過するために、ソリューションを「強制」したいとしましょうもちろん）。この一般的な手順は何と呼ばれ、どのように行われますか、また、注意する必要がある特定の落とし穴はありますか？編集：これを行うための具体的な方法を探していることを付け加えます。共分散行列を直接反転するか、勾配降下法を使用して、2つの方法のいずれかで実際に線形回帰を実行するプログラムを作成しました。私が求めているのは、どのように、正確に、ステップバイステップで、特定の点を通過するように多項式解を強制するように、私がやったことをどのように変更するのですか？ありがとう！

13 regression machine-learning least-squares linear-model polynomial

3

回帰の制限付きボルツマンマシン？

RBMに関して以前に尋ねた質問をフォローしています。それらについて記述している多くの文献がありますが、実際に回帰について言及しているものはありません（ラベル付きデータによる分類でさえも）。ラベルのないデータのみに使用されているように感じます。回帰を処理するためのリソースはありますか？または、隠しレイヤーの上に別のレイヤーを追加し、CDアルゴリズムを上下に実行するのと同じくらい簡単ですか？事前に感謝します。

13 regression machine-learning classification neural-networks

2

相互作用モデルで最適な機能を見つける

タンパク質のリストとその特徴値があります。サンプル表は次のようになります。 ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 行はタンパク質であり、列は機能です。また、相互作用するタンパク質のリストもあります。例えば Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 問題：予備的な分析のために、どの機能がタンパク質相互作用に最も寄与するかを知りたい。私の理解では、通常、決定木はエントロピーに基づいて最も重要な機能を取得するために使用できますが、タンパク質ペア（つまり、相互作用）に拡張する方法はわかりません。そのような目的のための方法はありますか？

13 machine-learning statistical-significance feature-selection networks

2

e1071 libsvmの問題？

2つの重複するクラス（各クラスに7つのポイント、ポイントは2次元空間）を持つデータセットがあります。Rでは、これらのクラスの分離ハイパープレーンを構築するためにパッケージから実行svmしていe1071ます。私は次のコマンドを使用しています： svm(x, y, scale = FALSE, type = 'C-classification', kernel = 'linear', cost = 50000) ここにxは私のデータポイントとyそのラベルが含まれています。このコマンドはsvm-objectを返します。これを使用して、分離する超平面のパラメーター（法線ベクトル）とb（切片）を計算します。wwwbbb 下の図（a）は、私のポイントとsvmコマンドによって返された超平面を示しています（この超平面を最適なものと呼びましょう）。記号Oの付いた青い点はスペースの原点を示し、点線はマージンを示し、丸で囲まれた点は非ゼロの（スラック変数）を持ちます。ξξ\xi 図（b）は別の超平面を示しています。これは、最適な平面を5だけ平行移動したものです（b_new = b_optimal-5）。この超平面の目的関数（C-分類SVMによって最小化される）は、図（）に示す最適な超平面の場合よりも低い値を有するであろう。この機能に問題があるように見えますか？または、どこかでミスをしましたか？0.5 || w | |2+ C O S T Σ ξ私0.5||w||2+cost∑ξ私 0.5||w||^2 + cost \sum \xi_i svm 以下は、この実験で使用したRコードです。 library(e1071) get_obj_func_info <- function(w, b, c_par, x, y) { xi <- rep(0, …

13 r machine-learning svm libsvm e1071

2

派生機能がニューラルネットワークで使用されるのはなぜですか？

たとえば、家の価格を予測し、家の長さと幅の2つの入力フィーチャがあるとします。場合によっては、長さ*幅である面積などの「派生」多項式入力フィーチャも含まれます。 1）派生フィーチャを含める意味は何ですか？ニューラルネットワークは、トレーニング中に長さ、幅、価格の関係を学習するべきではありませんか？3番目の機能、エリア、冗長性がないのはなぜですか？さらに、入力フィーチャに対して数を減らすために、人々が遺伝的選択アルゴリズムを実行することもあります。 2）入力フィーチャにすべて有用な情報が含まれている場合、入力フィーチャを減らすポイントは何ですか？ニューラルネットワークは、重要度に応じて各入力フィーチャに適切な重みを割り当てるべきではありませんか？遺伝的選択アルゴリズムを実行する意味は何ですか？

13 machine-learning neural-networks

1

Kinectはランダムフォレストをどのように使用しますか？

私はこのサイト上で読んで明らかにKinectが使用するランダムフォレストアルゴリズム何らかの方法で機械学習のために。誰もがランダムフォレストを使用する目的と、そのアプローチの仕組みを説明できますか？

13 machine-learning random-forest application

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」