統計とビッグデータ classification

2

分類にSVMを使用しており、線形カーネルとRBFカーネルの最適なパラメーターを決定しようとしています。線形カーネルの場合、交差検証されたパラメーター選択を使用してCを決定し、RBFカーネルの場合、グリッド検索を使用してCおよびガンマを決定します。私は20（数値）機能と70のトレーニング例を7つのクラスに分類する必要があります。 Cおよびガンマパラメータの最適値を決定するために、どの検索範囲を使用する必要がありますか？

32 classification svm kernel-trick

3

Naive Bayesはどのように線形分類器ですか？

私はここで他のスレッドを見ましたが、答えが実際の質問を満たしたとは思いません。私が絶えず読んでいるのは、Naive Bayesが線形分類器であるということです（例：ここ対数オッズデモンストレーションを使用し）である（線形決定境界を描画する）ことです。ただし、2つのガウス雲をシミュレートし、決定境界に適合させて、そのような結果を得ました（naiveBayes（）を使用してrのライブラリe1071）ご覧のとおり、決定境界は非線形です。パラメーター（条件付き確率）は、分類子自体がデータを線形に分離するというよりも、対数空間における線形結合であると言っているのですか？

31 classification naive-bayes

2

Rのランダムフォレスト分類における一連の予測変数の相対的重要性

randomForestRの分類モデルに対する変数セットの相対的な重要度を決定したいのですが、importance関数はMeanDecreaseGini個々の予測変数のメトリックを提供します。セット内の各予測変数でこれを合計するのと同じくらい簡単ですか？例えば： # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of b1+b2?

31 r machine-learning classification random-forest

3

クラスの不均衡の問題の根本的な原因は何ですか？

私は最近、機械学習/統計学習の「クラスの不均衡問題」について多くのことを考えてきましたが、何が起こっているのか分からないという感覚をさらに深めています。まず、用語を定義（または試行）します。クラス不均衡問題マシン/統計的学習では1クラスに0のクラスの割合が非常に偏っているとき、いくつかのバイナリ分類（*）アルゴリズムはうまく機能しないという観察です。したがって、たとえば、上記の例では、すべての1クラスごとに100個の000クラスがある場合、クラスの不均衡は1から100または1 ％です。1111111001001001%1%1\% 私が見た問題の声明のほとんどは、十分な資格と考えるもの（どのモデルが苦労しているのか、不均衡が問題であるか）を欠いており、これが私の混乱の原因の1つです。機械学習/統計学習の標準テキストの調査では、ほとんど何もわかりません。統計斜の要素と統計的学習の概要は、インデックス内の「クラスの不均衡」を含んでいません。予測データ分析の機械学習では、インデックスに「クラスの不均衡」も含まれていません。マーフィーの機械学習：確率的観点には、インデックスに「クラスの不均衡*」が含まれています。SVMのセクションを参照しますが、次の興味深いコメントが見つかりました。 SVMは確率を使用して不確実性をモデル化しないため、これらの困難、およびそれらを修正するために提案された多数のヒューリスティックが根本的に発生するため、出力スコアはクラス間で比較できないことに注意してください。このコメントは私の直観と経験を思い起こさせます：私の以前の仕事では、ロジスティック回帰と勾配ブーストツリーモデルを（二項対数尤度を最小化するために）不均衡なデータ（1%1%1\%クラスの不均衡の程度）に、パフォーマンスの明らかな問題。私は（どこかで）分類木ベースのモデル（木自体とランダムフォレスト）もクラスの不均衡の問題に苦しんでいると読みました。これにより、水が少し濁り、ツリーは何らかの意味で確率を返します。つまり、ツリーの各終端ノードのターゲットクラスの投票レコードです。まとめると、私が本当に望んでいるのは、クラスの不均衡問題（存在する場合）を引き起こす力の概念的な理解です。不適切に選択されたアルゴリズムと怠algorithmsなデフォルトの分類しきい値を使用して自分自身で行うことですか？適切なスコアリング基準を最適化する確率モデルを常に当てはめると消えますか？別の言い方をすれば、原因は単に損失関数の不適切な選択、つまり、厳密な分類ルールと全体的な精度に基づいてモデルの予測力を評価することですか？その場合、適切なスコアリングルールを最適化しないモデルは役に立たない（または少なくとも有用性が低い）か？（*）分類とは、バイナリ応答データに適合する統計モデルを意味します。私はない、それはかもしれないが、私の目標は、一つのクラスにハード譲渡またはその他であると仮定します。

30 classification predictive-models unbalanced-classes scoring-rules

3

マルチクラス分類器の品質を判断する方法

与えられたインスタンスを持つデータセットはと一緒にすべてのインスタンスクラス 1つのクラスに正確に属しバツ私バツ私x_iNNNバツ私バツ私x_iy私y私y_i マルチクラス分類器トレーニングとテストの後、基本的に、テストセット内のすべてのインスタンスについて、真のクラスと予測クラスを含むテーブルを作成しました。したがって、すべてのインスタンスについて、一致（）またはミス（）があります。y私y私y_ia私a私a_iバツ私バツ私x_iy私= a私y私=a私y_i= a_iy私≠ a私y私≠a私y_i\neq a_i 試合の質をどのように評価できますか？問題は、いくつかのクラスが多くのメンバーを持つことができる、つまり多くのインスタンスがそれに属するということです。すべてのデータポイントの50％が1つのクラスに属し、最終的な分類子が全体で50％正しい場合、明らかに何も得られません。入力が何であれ、その最大クラスを出力する単純な分類器を作成することもできました。各クラスの既知のテストセットの一致とヒットの結果に基づいて分類子の品質を推定する標準的な方法はありますか？特定のクラスごとに一致率を区別することも重要かもしれません。私が考えることができる最も単純なアプローチは、最大クラスの正しい一致を除外することです。ほかに何か？

30 machine-learning classification multi-class

7

統計の枝は何ですか？

数学には、代数、分析、トポロジーなどの分岐があります。機械学習には、教師あり、教師なし、強化学習があります。これらの各ブランチ内には、メソッドをさらに分割するより細かいブランチがあります。統計との類似点を描くことができません。統計（およびサブブランチ）の主要なブランチは何ですか？完全なパーティションはおそらく不可能ですが、大きな空白のマップよりも優れています。視覚的な例：

30 self-study classification

4

トレーニングデータセットのクラスのバランスをとるべきなのはいつですか？

トレーニングデータの不均衡なクラスが問題につながる可能性があることを学んだオンラインコースがありました。これは、不均衡が多すぎる場合に良い結果が得られるため、分類アルゴリズムが多数決ルールに従うためです。割り当てでは、多数派クラスのアンダーサンプリングによりデータのバランスを取る必要がありました。ただし、このブログでは、バランスの取れたデータはさらに悪いと誰かが主張しています。 https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ それでどちらですか？データのバランスを取るべきかどうかクラスの不均衡な割合に順応できる人もいるかもしれないので、使用されるアルゴリズムに依存しますか？その場合、不均衡なデータで信頼できるのはどれですか？

29 machine-learning classification unbalanced-classes

4

ROCの曲線下面積と全体の精度

ROCの曲線下面積（AUC）と全体的な精度について少し混乱しています。 AUCは全体の精度に比例しますか？言い換えると、全体の精度が大きい場合、AUCが大きくなりますか？または、それらは定義により正の相関がありますか？それらが正の相関関係にある場合、一部の出版物でそれらの両方を報告するのはなぜですか？実際のケースでは、分類タスクを実行し、次のように結果を得ました。分類子Aの精度は85％、AUCは0.98、分類子Bの精度は93％、AUCは0.92です。質問は、どの分類器の方が良いですか？または、これらのような同様の結果を得ることが可能ですか？（実装にバグがあるかもしれません）

29 classification roc

2

単純ベイズと多項式単純ベイズの違い

以前、単純ベイズ分類器を扱ったことがあります。私は最近、多項ナイーブベイズについて読んでいます。また、事後確率=（事前*尤度）/（証拠）。 Naive BayesとMultinomial Naive Bayesの間で見つけた唯一の主な違い（これらの分類子のプログラミング中）は、多項ナイーブベイズする可能性を算出し、単語/トークンの数（確率変数）とナイーブベイズは、以下のことが可能性を計算します。私が間違っている場合は修正してください！

29 bayesian classification text-mining naive-bayes

6

バイナリ分類の変数選択手順

学習セットの観測値よりも多くの変数/機能がある場合、バイナリ分類に適した変数/機能の選択は何ですか？ここでの目的は、分類エラーを最適に削減する機能選択手順を説明することです。一貫性の表記法を修正できます：場合、をグループからの観測値の学習セットとします。したがって、は学習セットのサイズです。私たちは、セット多くの特徴（特徴空間の次元をIE）であることを。ましょ表すの座標番目の。i∈{0,1}i∈{0,1}i \in \{0, 1\}{xi1,…,xini}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}iiin0+n1=nn0+n1=nn_0 + n_1 = npppx[i]x[i]x[i]iiix∈Rpx∈Rpx \in \mathbb{R}^p 詳細を提供できない場合は、完全な参考文献を提供してください。編集（継続的に更新）：以下の回答で提案されている手順貪欲な前方選択バイナリ分類のための変数選択手順バイナリ消去のための後方消去変数選択手順メトロポリススキャン/ MCMC バイナリ分類の変数選択手順ペナルティ付きロジスティック回帰バイナリ分類の変数選択手順これはコミュニティWikiであるため、より多くの議論と更新があります。ある意味で、変数の順序付けは許可するが変数の選択は許可しない手順を提供します（機能の数の選択方法については非常にわかりにくいので、クロス検証を使用すると思いますか？）この方向の答えは？これはあなたが変数の数を選択する方法についての情報を追加するために、回答writterするコミュニティ必要はありませんされてウィキとして（？私はここで、この方向での質問opennedているの数を選択することが非常に高い次元でのクロス検証を（非常に高次元の分類で使用される変数））

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

2

機械学習分類器のパフォーマンスを統計的に比較する方法は？

推定された分類精度に基づいて、ある分類子が別の分類子よりもベースセットで統計的に優れているかどうかをテストします。各分類子について、トレーニングとテストのサンプルを基本セットからランダムに選択し、モデルをトレーニングして、モデルをテストします。これを各分類子に対して10回行います。したがって、各分類器について10個の推定分類精度測定値があります。ベースデータセットで、がよりも優れた分類器であるかどうかを統計的にテストするにはどうすればよいですか。どのt検定を使用するのが適切ですか？classifier1classifier1classifier 1classifier2classifier2classifier 2

29 machine-learning classification t-test

3

なぜ、より正確な分類器よりも精度の低い分類器の方がAUCが高いのですか？

私は2つの分類器を持っています A：ナイーブベイジアンネットワーク B：ツリー（単一接続）ベイジアンネットワーク精度およびその他の尺度の点では、AはBよりも比較的パフォーマンスが劣ります。ただし、RパッケージROCRおよびAUCを使用してROC分析を実行すると、AのAUCがBのAUCよりも高いことがわかります。これはなぜですかハプニング？真陽性（tp）、偽陽性（fp）、偽陰性（fn）、真陰性（tn）、感度（sen）、特異性（spec）、陽性予測値（ppv）、陰性予測値（npv）、およびAおよびBの精度（acc）は次のとおりです。 +------+---------+---------+ | | A | B | +------+---------+---------+ | tp | 3601 | 769 | | fp | 0 | 0 | | fn | 6569 | 5918 | | tn | 15655 | 19138 | | sens | 0.35408 | 0.11500 | | spec …

29 machine-learning classification roc auc bayesian-network

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

0-1の損失を近似するために分類で異なる損失関数を選択することの影響は何ですか

一部の目的関数は最適化が容易であり、一部は困難であることがわかっています。また、使用したいが使いにくい損失関数が多数あります（0-1損失など）。そのため、作業を行うためのプロキシ損失関数をいくつか見つけました。たとえば、ヒンジ損失またはロジスティック損失を使用して、0-1の損失を「概算」します。次のプロットは、Chris BishopのPRML本からのものです。ヒンジ損失は青、ログ損失は赤、平方損失は緑、0/1エラーは黒でプロットされます。（ヒンジ損失とロジスティック損失の）そのような設計がある理由は、目的関数を凸にしたいからです。ヒンジ損失とロジスティック損失を調べることにより、強く誤分類されたインスタンスに対してよりペナルティを課し、興味深いことに、正しく分類されたインスタンスが弱く分類された場合にもペナルティを課します。それは本当に奇妙なデザインです。私の質問は、ヒンジ損失やロジスティック損失など、さまざまな「プロキシ損失関数」を使用して支払う必要がある価格はいくらですか？

27 machine-learning classification optimization loss-functions

タグ付けされた質問 「classification」

タグ付けされた質問「classification」