統計とビッグデータ machine-learning

2

通常の機械学習分析の線形回帰と「ディープラーニング」設定の線形回帰の違いを知りたい。深層学習の設定で線形回帰に使用されるアルゴリズム。

12 regression machine-learning deep-learning

1

ディープラーニングのディープ残余ネットワークのコンテキストで、残余学習ブロックとは正確には何ですか？

私は「画像認識のためのディープ残差学習」という論文を読んでいて、残差ブロックが計算で必要とするものを100％確実に理解することが困難でした。彼らが図を持っている彼らの論文を読む2：これは、残差ブロックがどうあるべきかを示しています。残差ブロックの計算は単純に次と同じですか？ y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} ) それとも別のものですか？言い換えれば、多分紙の表記法と一致しようとすることは、次のとおりです。 F(x)+x=[W2σ(W1x+b1)+b2]+xF(x)+x=[W2σ(W1x+b1)+b2]+x \mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} 本当？円の合計の後、ReLUという単語が用紙に表示されるため、残差ブロック（）の出力は次のようになります。yy\mathbf{y} σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x) \sigma( \mathcal F(x) + x ) = \sigma( …

12 machine-learning neural-networks deep-learning conv-neural-network residual-networks

2

ピアソンの相関係数を機械学習の最適化目標として使用する

機械学習（回帰問題の場合）では、最小化する誤差関数（および正則化項）として平均二乗誤差（MSE）または平均絶対誤差（MAE）が使用されることがよくあります。相関係数を使用する方が適切な状況があるのでしょうか。そのような状況が存在する場合： MSE / MAEと比較して、どのような状況で相関係数が優れたメトリックになりますか？これらの状況で、MSE / MAEはまだ使用するのに適したプロキシコスト関数ですか？相関係数の最大化は直接可能ですか？これは使用する安定した目的関数ですか？相関係数が直接最適化の目的関数として使用されるケースは見つかりませんでした。このエリアの情報を教えていただければ幸いです。

12 regression machine-learning svm optimization deep-learning

1

ロジスティック損失関数の勾配

これに関する質問をします。私はここでxgboostのカスタム損失関数を書く例を見つけました： loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute the 1st and 2nd gradient, as grad and hess preds <- 1/(1 + exp(-preds)) grad <- preds …

12 r machine-learning gradient-descent boosting loss-functions

1

時系列分析が機械学習アルゴリズムと見なされない理由

時系列分析が機械学習アルゴリズムと見なされないのはなぜですか（線形回帰とは異なります）。回帰分析と時系列分析はどちらも予測方法です。では、なぜそれらの1つが学習アルゴリズムと見なされ、他のアルゴリズムと見なされないのでしょうか。

12 regression machine-learning time-series terminology

2

回帰モデルのVCディメンション

講義シリーズ「データから学ぶ」で、教授は、VCディメンションが、特定のモデルが粉砕できるポイントのモデルの複雑さを測定することについて言及しています。したがって、これは分類モデルで完全にうまく機能します。分類子がkポイントを効果的に粉砕できれば、VCディメンションの測定値はKになります。ただし、回帰モデルのVCディメンションをどのように測定するのかは明確ではありませんでした。？

12 regression machine-learning vc-dimension

4

強化学習の教科書

強化学習の教科書・講義ノートを探しています。私は「統計学習入門」が好きですが、残念ながら彼らはこのトピックをカバーしていません。私はサットンとバルトの本が標準的な参考書であることを知っています、そしておそらくNDPも良いですがそれらは1997-98年のものです、そしてこの分野は最近かなり発展している可能性が高いのでもっと現代の博覧会を見つけたいと思っていました時間。

12 machine-learning references

2

パネルデータの機械学習アルゴリズム

この質問では- 構造化/階層的/マルチレベル予測子を考慮に入れる決定木を構築する方法はありますか？-彼らは木のパネルデータメソッドに言及しています。ベクターマシンとニューラルネットワークをサポートするための特定のパネルデータメソッドはありますか？もしそうなら、アルゴリズムとそれを実装するRパッケージ（利用可能な場合）のいくつかの論文を引用できますか？

12 r machine-learning svm panel-data cart

2

2つのランキングアルゴリズムを比較する方法は？

2つのランキングアルゴリズムを比較したい。これらのアルゴリズムでは、クライアントは検索でいくつかの条件を指定します。クライアントの要件に従って、これらのアルゴリズムはデータベース内の各アイテムにスコアを割り当て、最高のスコアを持つアイテムを取得する必要があります。私はこのサイトで私の質問に関連するさまざまなトピックを読み、ネットを検索しました。私の検索によると、ランキングアルゴリズムを比較するためのいくつかの指標について説明する最も関連性の高い記事は次のとおりです：Brian McFeeおよびGert RG Lanckriet、Metric Learning to Rank、ICML 2010（https://bmcfee.github.io/papers/mlr .pdf）。prec @ k、MAP、MRR、およびNDCGは、使用するのに適したメトリックスですが、問題があります。私のアルゴリズムは結果を並べ替えるので、結果リストの最初の項目は最高のスコアを持つ最高のものであり、2番目の結果は2番目に上位のスコアになります。検索アルゴリズムを制限して、たとえば5つの最高の結果を見つけます。結果は、上位5項目です。したがって、精度は1になります。検索を制限して最良の結果を見つけると、最良の結果が検出されます。繰り返しになりますが、精度は1になりますが、問題は、この結果を見る人には受け入れられないことです。私に何ができる？これらのアルゴリズムを比較して、一方が他方よりも優れていることを示すにはどうすればよいですか？

12 machine-learning precision-recall average-precision

1

フィッシャーの厳密検定と超幾何分布

私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。。この観察の可能性は何ですか？この質問に答えるために、次のコマンドを使用しました。 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

Rでのk平均クラスタリングの結果の解釈

kmeansアンダーソンのアイリスデータセットでk平均アルゴリズムを実行するために、R の命令を使用していました。取得したいくつかのパラメーターについて質問があります。結果は次のとおりです。 Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 この場合、「クラスターの意味」とはどういう意味ですか？クラスタ内のすべてのオブジェクトの距離の平均ですか？また、私は最後の部分で： Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) その値は88.4％で、その解釈は何でしょうか？

12 r machine-learning clustering interpretation k-means

2

ロジスティック回帰とランダムフォレストの結果を組み合わせる方法

機械学習は初めてです。同じデータセットにロジスティック回帰とランダムフォレストを適用しました。したがって、変数の重要度（ロジスティック回帰の絶対係数とランダムフォレストの変数の重要度）が得られます。最終的な変数の重要度を取得するために2つを組み合わせることを考えています。誰でも彼/彼女の経験を共有できますか？バギング、ブースティング、アンサンブルモデリングを確認しましたが、それらは私が必要としているものではありません。それらは、同じモデルの情報を複製全体で組み合わせるためのものです。私が探しているのは、複数のモデルの結果を組み合わせることです。

12 machine-learning logistic random-forest

1

カーネル化k最近傍

私はカーネルに不慣れで、kNNをカーネル化しようとしているときに障害に遭遇しました。予選私は多項式カーネルを使用しています： K（X、Y）= （1 + ⟨ X、Y ⟩ ）dK(x,y)=(1+⟨x,y⟩)dK(\mathbf{x},\mathbf{y}) = (1 + \langle \mathbf{x},\mathbf{y} \rangle)^d 典型的なユークリッドkNNは次の距離計量を使用します： d（x、y）= | | x − y | |d(x,y)=||x−y||d(\mathbf{x}, \mathbf{y}) = \vert\vert \mathbf{x} - \mathbf{y} \vert\vert ましょうマップいくつかの高次元特徴空間に。次に、ヒルベルト空間における上記の距離計量の2乗は、内積で表すことができます x d 2（f （x ）、f （y ））= K （x、x）− 2 K （x、y）+ K （y、y）f（x）f(x)f(\mathbf{x})バツx\mathbf{x}d2（f（x ）、f（y））= K（x、x）− 2 …

12 machine-learning kernel-trick k-nearest-neighbour

1

ランダムフォレスト（または別の分類子）による層別分類

だから、私は約60 x 1000の行列を持っています。私はそれを1000の特徴を持つ60個のオブジェクトとして見ています。60個のオブジェクトは3つのクラス（a、b、c）にグループ化されます。各クラスには20個のオブジェクトがあり、真の分類がわかります。この60のトレーニング例のセットで教師あり学習を行いたいのですが、分類機能の精度（および関連するメトリック）と1000の機能の機能選択の両方に興味があります。まず、私の命名はどうですか？今本当の質問：ランダムフォレストを、前述のように、または他の任意の数の分類器にスローすることができます。しかし、微妙な点があります。クラスcとクラスaおよびbを区別することだけが重要です。クラスaとbをプールすることもできますが、c以外のすべてのオブジェクトが2つの異なるクラスターを形成する可能性があるという先験的な知識を使用する良い方法はありますか？私と同様のデータで効果的であることが示されているので、ランダムフォレストまたはそのバリアントを使用したいと思います。しかし、私は他のいくつかのアプローチを試すことを確信することができました。

12 machine-learning classification multilevel-analysis random-forest stratification

1

どのようなものがあり

最近、スパース表現に関する多くの論文を目にしており、それらのほとんどはノルムを使用し、いくつかの最小化を行っています。私の質問は、ノルムと混合ノルムとは何ですか？そして、それらは正則化にどのように関連していますか？ℓ のp ℓのP 、Qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} ありがとう

12 machine-learning regularization sparse

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」