統計とビッグデータ machine-learning

2

ディープコンボリューショナルニューラルネットワークを使用したImageNet分類の論文を読んでいたのですが、セクション3では、コンボリューショナルニューラルネットワークのアーキテクチャについて説明し、次の使用方法を説明しました。非飽和非線形性f（x ）= m a x （0 、x ）。f（バツ）=maバツ（0、バツ）。f(x) = max(0, x). 訓練するのが速かったからです。その論文では、CNNで使用されるより伝統的な関数、シグモイド関数および双曲線正接関数（すなわち、および（飽和）。f（x ）= t a n h （x ）f（バツ）=tanh（バツ）f(x) = tanh(x)f（x ）= 11 + e− x= （1 + e− x）− 1f（バツ）=11+e−バツ=（1+e−バツ）−1f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1} なぜこれらの関数を「飽和」または「非飽和」と呼ぶのですか？これらの機能はどのような意味で「飽和」または「非飽和」ですか？畳み込みニューラルネットワークのコンテキストでは、これらの用語はどういう意味ですか？機械学習（および統計）の他の分野で使用されていますか？

30 machine-learning neural-networks terminology conv-neural-network

4

トレーニングデータセットのクラスのバランスをとるべきなのはいつですか？

トレーニングデータの不均衡なクラスが問題につながる可能性があることを学んだオンラインコースがありました。これは、不均衡が多すぎる場合に良い結果が得られるため、分類アルゴリズムが多数決ルールに従うためです。割り当てでは、多数派クラスのアンダーサンプリングによりデータのバランスを取る必要がありました。ただし、このブログでは、バランスの取れたデータはさらに悪いと誰かが主張しています。 https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ それでどちらですか？データのバランスを取るべきかどうかクラスの不均衡な割合に順応できる人もいるかもしれないので、使用されるアルゴリズムに依存しますか？その場合、不均衡なデータで信頼できるのはどれですか？

29 machine-learning classification unbalanced-classes

5

統計と機械学習の2つのグループを区別する：仮説検定対分類対クラスタリング

AとBというラベルの付いた2つのデータグループ（それぞれ200個のサンプルと1つの機能を含むなど）があり、それらが異なるかどうかを知りたいとします。私はできた： a）統計的検定（t検定など）を実行して、統計的に異なるかどうかを確認します。 b）教師付き機械学習を使用します（サポートベクトル分類子またはランダムフォレスト分類子など）。データの一部でこれをトレーニングし、残りの部分で検証できます。機械学習アルゴリズムがその後残りを正しく分類する場合、サンプルが微分可能であると確信できます。 c）教師なしアルゴリズム（K-Meansなど）を使用して、すべてのデータを2つのサンプルに分割します。次に、これらの2つのサンプルがラベルAとBに一致するかどうかを確認できます。私の質問は：これら3つの異なる方法はどのように重複/排他的ですか？ b）とc）は科学的な議論に役立ちますか？方法b）とc）のサンプルAとBの違いの「有意性」を取得するにはどうすればよいですか？データに1つの機能ではなく複数の機能がある場合、何が変わりますか？サンプル数が異なる場合、たとえば100対300の場合はどうなりますか？

29 machine-learning hypothesis-testing t-test unsupervised-learning supervised-learning

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

ニューラルネットワークでバイアスノードが使用される理由

ニューラルネットワークでバイアスノードが使用される理由いくつ使うべきですか？どのレイヤーで使用する必要があります：すべての非表示レイヤーと出力レイヤー？

29 machine-learning neural-networks bias-node

2

SVMおよびランダムフォレストの正規化を行うことは不可欠ですか？

私の機能のすべての次元には、さまざまな価値の範囲があります。このデータセットを正規化することが不可欠かどうかを知りたいです。

29 machine-learning svm random-forest normalization

3

SVMとパーセプトロンの違い

SVMとパーセプトロンの違いに少し混乱しています。ここで私の理解を要約してみましょう。私が間違っている箇所を修正し、見落としたことを記入してください。パーセプトロンは、分離の「距離」を最適化しようとしません。2つのセットを分離する超平面を見つける限り、それは良いことです。一方、SVMは「サポートベクトル」、つまり、最も近い2つの最も近いサンプルポイント間の距離を最大化しようとします。 SVMは通常、「カーネル関数」を使用してサンプルポイントを高次元空間に射影し、線形分離可能にしますが、パーセプトロンはサンプルポイントを線形分離可能と想定します。

29 machine-learning svm kernel-trick

6

バイナリ分類の変数選択手順

学習セットの観測値よりも多くの変数/機能がある場合、バイナリ分類に適した変数/機能の選択は何ですか？ここでの目的は、分類エラーを最適に削減する機能選択手順を説明することです。一貫性の表記法を修正できます：場合、をグループからの観測値の学習セットとします。したがって、は学習セットのサイズです。私たちは、セット多くの特徴（特徴空間の次元をIE）であることを。ましょ表すの座標番目の。i∈{0,1}i∈{0,1}i \in \{0, 1\}{xi1,…,xini}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}iiin0+n1=nn0+n1=nn_0 + n_1 = npppx[i]x[i]x[i]iiix∈Rpx∈Rpx \in \mathbb{R}^p 詳細を提供できない場合は、完全な参考文献を提供してください。編集（継続的に更新）：以下の回答で提案されている手順貪欲な前方選択バイナリ分類のための変数選択手順バイナリ消去のための後方消去変数選択手順メトロポリススキャン/ MCMC バイナリ分類の変数選択手順ペナルティ付きロジスティック回帰バイナリ分類の変数選択手順これはコミュニティWikiであるため、より多くの議論と更新があります。ある意味で、変数の順序付けは許可するが変数の選択は許可しない手順を提供します（機能の数の選択方法については非常にわかりにくいので、クロス検証を使用すると思いますか？）この方向の答えは？これはあなたが変数の数を選択する方法についての情報を追加するために、回答writterするコミュニティ必要はありませんされてウィキとして（？私はここで、この方向での質問opennedているの数を選択することが非常に高い次元でのクロス検証を（非常に高次元の分類で使用される変数））

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

3

scikit-learnを使用した多項式回帰

多項式回帰にscikit-learnを使用しようとしています。私が読んだ多項式回帰は、線形回帰の特殊なケースです。scikitの一般化された線形モデルのいずれかが、高次の多項式に適合するようにパラメーター化できるかもしれないと思っていましたが、それを行うオプションはありません。私はポリカーネルでサポートベクターリグレッサーを使用することに成功しました。これは私のデータのサブセットでうまく機能しましたが、大きなデータセットに適合するにはかなり時間がかかりますので、（ある程度の精度を交換しても）さらに高速なものを見つける必要があります。ここで明らかな何かを見逃していますか？

29 regression machine-learning large-data polynomial scikit-learn

4

RMSLE（二乗平均平方根誤差）をどのように解釈しますか？

RMSLE（Root Mean Squared Logarithmic Error）を使用して機器のカテゴリの販売価格を予測するパフォーマンスを評価する機械学習コンテストを行っています。問題は、最終結果の成功をどのように解釈するかわからないことです。たとえば、私はのRMSLE達成した場合に、私はそれ指数パワー上げることができるとRMSEのようにそれを解釈しますか？（つまり）？1.0521.0521.052E 1.052 = 2.863 = R M S Eeeee1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE それから、私の予測は実際の価格から平均でだったと言えますかまたは、メトリックを解釈するより良い方法はありますか？または、他のモデルの他のRMSLEと比較することを除いて、メトリックをまったく解釈できますか？ ±$2.863±$2.863\pm \$2.863

29 regression machine-learning interpretation measurement-error theory

2

機械学習分類器のパフォーマンスを統計的に比較する方法は？

推定された分類精度に基づいて、ある分類子が別の分類子よりもベースセットで統計的に優れているかどうかをテストします。各分類子について、トレーニングとテストのサンプルを基本セットからランダムに選択し、モデルをトレーニングして、モデルをテストします。これを各分類子に対して10回行います。したがって、各分類器について10個の推定分類精度測定値があります。ベースデータセットで、がよりも優れた分類器であるかどうかを統計的にテストするにはどうすればよいですか。どのt検定を使用するのが適切ですか？classifier1classifier1classifier 1classifier2classifier2classifier 2

29 machine-learning classification t-test

3

R：データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]

キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

sklearnの分類レポートの数字はどういう意味ですか？

以下に、sklearnのsklearn.metrics.classification_reportドキュメントから抜粋した例を示します。私が理解していないのは、クラスが予測ラベルであると信じる各クラスにf1スコア、精度、リコール値がある理由です。f1スコアはモデルの全体的な精度を示していると思います。また、サポート列は何を教えてくれますか？私はそれに関する情報を見つけることができませんでした。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

29 machine-learning python scikit-learn precision-recall

3

なぜ、より正確な分類器よりも精度の低い分類器の方がAUCが高いのですか？

私は2つの分類器を持っています A：ナイーブベイジアンネットワーク B：ツリー（単一接続）ベイジアンネットワーク精度およびその他の尺度の点では、AはBよりも比較的パフォーマンスが劣ります。ただし、RパッケージROCRおよびAUCを使用してROC分析を実行すると、AのAUCがBのAUCよりも高いことがわかります。これはなぜですかハプニング？真陽性（tp）、偽陽性（fp）、偽陰性（fn）、真陰性（tn）、感度（sen）、特異性（spec）、陽性予測値（ppv）、陰性予測値（npv）、およびAおよびBの精度（acc）は次のとおりです。 +------+---------+---------+ | | A | B | +------+---------+---------+ | tp | 3601 | 769 | | fp | 0 | 0 | | fn | 6569 | 5918 | | tn | 15655 | 19138 | | sens | 0.35408 | 0.11500 | | spec …

29 machine-learning classification roc auc bayesian-network

2

SVMアルゴリズムの背後にある統計モデルとは何ですか？

モデルベースのアプローチを使用してデータを扱う場合、最初のステップはデータモデルを統計モデルとしてモデル化することであることを学びました。次のステップは、この統計モデルに基づいた効率的/高速な推論/学習アルゴリズムの開発です。それでは、どの統計モデルがサポートベクターマシン（SVM）アルゴリズムの背後にあるのかを聞きたいのですが。

28 machine-learning svm modeling

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」