タグ付けされた質問 「classification」

統計的分類は、サブ母集団が既知である観測を含むデータのトレーニングセットに基づいて、サブ母集団のアイデンティティが不明な場合に、新しい観測が属するサブ母集団を識別する問題です。したがって、これらの分類は、統計学によって研究することができる変数の動作を示します。

2
SVMの最適なCおよびガンマパラメータを決定するための検索範囲は?
分類にSVMを使用しており、線形カーネルとRBFカーネルの最適なパラメーターを決定しようとしています。線形カーネルの場合、交差検証されたパラメーター選択を使用してCを決定し、RBFカーネルの場合、グリッド検索を使用してCおよびガンマを決定します。 私は20(数値)機能と70のトレーニング例を7つのクラスに分類する必要があります。 Cおよびガンマパラメータの最適値を決定するために、どの検索範囲を使用する必要がありますか?

3
Naive Bayesはどのように線形分類器ですか?
私はここで他のスレッドを見ましたが、答えが実際の質問を満たしたとは思いません。私が絶えず読んでいるのは、Naive Bayesが線形分類器であるということです(例:ここ対数オッズデモンストレーションを使用し)である(線形決定境界を描画する)ことです。 ただし、2つのガウス雲をシミュレートし、決定境界に適合させて、そのような結果を得ました(naiveBayes()を使用してrのライブラリe1071) ご覧のとおり、決定境界は非線形です。パラメーター(条件付き確率)は、分類子自体がデータを線形に分離するというよりも、対数空間における線形結合であると言っているのですか?

2
Rのランダムフォレスト分類における一連の予測変数の相対的重要性
randomForestRの分類モデルに対する変数セットの相対的な重要度を決定したいのですが、importance関数はMeanDecreaseGini個々の予測変数のメトリックを提供します。セット内の各予測変数でこれを合計するのと同じくらい簡単ですか? 例えば: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of b1+b2?

3
クラスの不均衡の問題の根本的な原因は何ですか?
私は最近、機械学習/統計学習の「クラスの不均衡問題」について多くのことを考えてきましたが、何が起こっているのか分からないという感覚をさらに深めています。 まず、用語を定義(または試行)します。 クラス不均衡問題マシン/統計的学習では1クラスに0のクラスの割合が非常に偏っているとき、いくつかのバイナリ分類(*)アルゴリズムはうまく機能しないという観察です。 したがって、たとえば、上記の例では、すべての1クラスごとに100個の000クラスがある場合、クラスの不均衡は1から100または1 %です。1111111001001001%1%1\% 私が見た問題の声明のほとんどは、十分な資格と考えるもの(どのモデルが苦労しているのか、不均衡が問題であるか)を欠いており、これが私の混乱の原因の1つです。 機械学習/統計学習の標準テキストの調査では、ほとんど何もわかりません。 統計斜の要素と統計的学習の概要は、インデックス内の「クラスの不均衡」を含んでいません。 予測データ分析の機械学習では、インデックスに「クラスの不均衡」も含まれていません。 マーフィーの機械学習:確率的観点に は、インデックスに「クラスの不均衡*」が含まれています。SVMのセクションを参照しますが、次の興味深いコメントが見つかりました。 SVMは確率を使用して不確実性をモデル化しないため、これらの困難、およびそれらを修正するために提案された多数のヒューリスティックが根本的に発生するため、出力スコアはクラス間で比較できないことに注意してください。 このコメントは私の直観と経験を思い起こさせます:私の以前の仕事では、ロジスティック回帰と勾配ブーストツリーモデルを(二項対数尤度を最小化するために)不均衡なデータ(1%1%1\%クラスの不均衡の程度)に、パフォーマンスの明らかな問題。 私は(どこかで)分類木ベースのモデル(木自体とランダムフォレスト)もクラスの不均衡の問題に苦しんでいると読みました。これにより、水が少し濁り、ツリーは何らかの意味で確率を返します。つまり、ツリーの各終端ノードのターゲットクラスの投票レコードです。 まとめると、私が本当に望んでいるのは、クラスの不均衡問題(存在する場合)を引き起こす力の概念的な理解です。 不適切に選択されたアルゴリズムと怠algorithmsなデフォルトの分類しきい値を使用して自分自身で行うことですか? 適切なスコアリング基準を最適化する確率モデルを常に当てはめると消えますか?別の言い方をすれば、原因は単に損失関数の不適切な選択、つまり、厳密な分類ルールと全体的な精度に基づいてモデルの予測力を評価することですか? その場合、適切なスコアリングルールを最適化しないモデルは役に立たない(または少なくとも有用性が低い)か? (*)分類とは、バイナリ応答データに適合する統計モデルを意味します。私はない、それはかもしれないが、私の目標は、一つのクラスにハード譲渡またはその他であると仮定します。

3
マルチクラス分類器の品質を判断する方法
与えられた インスタンスを持つデータセットはと一緒にすべてのインスタンスクラス 1つのクラスに正確に属しバツ私バツ私x_iNNNバツ私バツ私x_iy私y私y_i マルチクラス分類器 トレーニングとテストの後、基本的に、テストセット内のすべてのインスタンスについて、真のクラスと予測クラスを含むテーブルを作成しました。したがって、すべてのインスタンスについて、一致()またはミス()があります。y私y私y_ia私a私a_iバツ私バツ私x_iy私= a私y私=a私y_i= a_iy私≠ a私y私≠a私y_i\neq a_i 試合の質をどのように評価できますか?問題は、いくつかのクラスが多くのメンバーを持つことができる、つまり多くのインスタンスがそれに属するということです。すべてのデータポイントの50%が1つのクラスに属し、最終的な分類子が全体で50%正しい場合、明らかに何も得られません。入力が何であれ、その最大クラスを出力する単純な分類器を作成することもできました。 各クラスの既知のテストセットの一致とヒットの結果に基づいて分類子の品質を推定する標準的な方法はありますか?特定のクラスごとに一致率を区別することも重要かもしれません。 私が考えることができる最も単純なアプローチは、最大クラスの正しい一致を除外することです。ほかに何か?

7
統計の枝は何ですか?
数学には、代数、分析、トポロジーなどの分岐があります。機械学習には、教師あり、教師なし、強化学習があります。これらの各ブランチ内には、メソッドをさらに分割するより細かいブランチがあります。 統計との類似点を描くことができません。統計(およびサブブランチ)の主要なブランチは何ですか?完全なパーティションはおそらく不可能ですが、大きな空白のマップよりも優れています。 視覚的な例:

4
トレーニングデータセットのクラスのバランスをとるべきなのはいつですか?
トレーニングデータの不均衡なクラスが問題につながる可能性があることを学んだオンラインコースがありました。これは、不均衡が多すぎる場合に良い結果が得られるため、分類アルゴリズムが多数決ルールに従うためです。割り当てでは、多数派クラスのアンダーサンプリングによりデータのバランスを取る必要がありました。 ただし、このブログでは、バランスの取れたデータはさらに悪いと誰かが主張しています。 https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ それでどちらですか?データのバランスを取るべきかどうか クラスの不均衡な割合に順応できる人もいるかもしれないので、使用されるアルゴリズムに依存しますか?その場合、不均衡なデータで信頼できるのはどれですか?

4
ROCの曲線下面積と全体の精度
ROCの曲線下面積(AUC)と全体的な精度について少し混乱しています。 AUCは全体の精度に比例しますか?言い換えると、全体の精度が大きい場合、AUCが大きくなりますか?または、それらは定義により正の相関がありますか? それらが正の相関関係にある場合、一部の出版物でそれらの両方を報告するのはなぜですか? 実際のケースでは、分類タスクを実行し、次のように結果を得ました。分類子Aの精度は85%、AUCは0.98、分類子Bの精度は93%、AUCは0.92です。質問は、どの分類器の方が良いですか?または、これらのような同様の結果を得ることが可能ですか?(実装にバグがあるかもしれません)

2
単純ベイズと多項式単純ベイズの違い
以前、単純ベイズ分類器を扱ったことがあります。私は最近、多項ナイーブベイズについて読んでいます。 また、事後確率=(事前*尤度)/(証拠)。 Naive BayesとMultinomial Naive Bayesの間で見つけた唯一の主な違い(これらの分類子のプログラミング中)は、 多項ナイーブベイズする可能性を算出し、単語/トークンの数(確率変数)とナイーブベイズは、以下のことが可能性を計算します。 私が間違っている場合は修正してください!

6
バイナリ分類の変数選択手順
学習セットの観測値よりも多くの変数/機能がある場合、バイナリ分類に適した変数/機能の選択は何ですか?ここでの目的は、分類エラーを最適に削減する機能選択手順を説明することです。 一貫性の表記法を修正できます:場合、をグループからの観測値の学習セットとします。したがって、は学習セットのサイズです。私たちは、セット多くの特徴(特徴空間の次元をIE)であることを。ましょ表すの座標番目の。i∈{0,1}i∈{0,1}i \in \{0, 1\}{xi1,…,xini}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}iiin0+n1=nn0+n1=nn_0 + n_1 = npppx[i]x[i]x[i]iiix∈Rpx∈Rpx \in \mathbb{R}^p 詳細を提供できない場合は、完全な参考文献を提供してください。 編集(継続的に更新):以下の回答で提案されている手順 貪欲な前方選択 バイナリ分類のための変数選択手順 バイナリ消去のための後方消去変数選択手順 メトロポリススキャン/ MCMC バイナリ分類の変数選択手順 ペナルティ付きロジスティック回帰 バイナリ分類の変数選択手順 これはコミュニティWikiであるため、より多くの議論と更新があります。 ある意味で、変数の順序付けは許可するが変数の選択は許可しない手順を提供します(機能の数の選択方法については非常にわかりにくいので、クロス検証を使用すると思いますか?)この方向の答えは?これはあなたが変数の数を選択する方法についての情報を追加するために、回答writterするコミュニティ必要はありませんされてウィキとして(?私はここで、この方向での質問opennedているの数を選択することが非常に高い次元でのクロス検証を(非常に高次元の分類で使用される変数))

2
機械学習分類器のパフォーマンスを統計的に比較する方法は?
推定された分類精度に基づいて、ある分類子が別の分類子よりもベースセットで統計的に優れているかどうかをテストします。各分類子について、トレーニングとテストのサンプルを基本セットからランダムに選択し、モデルをトレーニングして、モデルをテストします。これを各分類子に対して10回行います。したがって、各分類器について10個の推定分類精度測定値があります。ベースデータセットで、がよりも優れた分類器であるかどうかを統計的にテストするにはどうすればよいですか。どのt検定を使用するのが適切ですか?classifier1classifier1classifier 1classifier2classifier2classifier 2

3
なぜ、より正確な分類器よりも精度の低い分類器の方がAUCが高いのですか?
私は2つの分類器を持っています A:ナイーブベイジアンネットワーク B:ツリー(単一接続)ベイジアンネットワーク 精度およびその他の尺度の点では、AはBよりも比較的パフォーマンスが劣ります。ただし、RパッケージROCRおよびAUCを使用してROC分析を実行すると、AのAUCがBのAUCよりも高いことがわかります。これはなぜですかハプニング? 真陽性(tp)、偽陽性(fp)、偽陰性(fn)、真陰性(tn)、感度(sen)、特異性(spec)、陽性予測値(ppv)、陰性予測値(npv)、およびAおよびBの精度(acc)は次のとおりです。 +------+---------+---------+ | | A | B | +------+---------+---------+ | tp | 3601 | 769 | | fp | 0 | 0 | | fn | 6569 | 5918 | | tn | 15655 | 19138 | | sens | 0.35408 | 0.11500 | | spec …

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
0-1の損失を近似するために分類で異なる損失関数を選択することの影響は何ですか
一部の目的関数は最適化が容易であり、一部は困難であることがわかっています。また、使用したいが使いにくい損失関数が多数あります(0-1損失など)。そのため、作業を行うためのプロキシ損失関数をいくつか見つけました。たとえば、ヒンジ損失またはロジスティック損失を使用して、0-1の損失を「概算」します。 次のプロットは、Chris BishopのPRML本からのものです。ヒンジ損失は青、ログ損失は赤、平方損失は緑、0/1エラーは黒でプロットされます。 (ヒンジ損失とロジスティック損失の)そのような設計がある理由は、目的関数を凸にしたいからです。 ヒンジ損失とロジスティック損失を調べることにより、強く誤分類されたインスタンスに対してよりペナルティを課し、興味深いことに、正しく分類されたインスタンスが弱く分類された場合にもペナルティを課します。それは本当に奇妙なデザインです。 私の質問は、ヒンジ損失やロジスティック損失など、さまざまな「プロキシ損失関数」を使用して支払う必要がある価格はいくらですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.