タグ付けされた質問 「classification」

統計的分類は、サブ母集団が既知である観測を含むデータのトレーニングセットに基づいて、サブ母集団のアイデンティティが不明な場合に、新しい観測が属するサブ母集団を識別する問題です。したがって、これらの分類は、統計学によって研究することができる変数の動作を示します。

3
非常に不均衡なデータの分類/評価指標
不正検出(クレジットスコアリングのような)問題に対処します。そのため、詐欺的観測と非詐欺的観測の間には非常に不均衡な関係があります。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlは、さまざまな分類指標の優れた概要を提供します。Precision and Recallまたはkappa両方が良い選択のようです: そのような分類器の結果を正当化する1つの方法は、それらをベースライン分類器の結果と比較し、それらが実際にランダムチャンス予測よりも優れていることを示すことです。 私が理解している限りkappaでは、ランダムなチャンスが考慮されるので、ここでの方がわずかに良い選択かもしれません。より平易な英語でCohenのカッパ Iことを理解しkappa、情報ゲインの概念を扱いました: [...] 80%の観測精度は、50%の予測精度に対して、75%の予測精度ではあまり印象的ではありません[...] したがって、私の質問は次のようになります。 kappaこの問題に対してより適切な分類メトリックであると仮定するのは正しいですか? 単に使用kappaするだけで、分類アルゴリズムに対する不均衡の悪影響を防ぐことができますか?再(ダウン/アップ)サンプリングまたはコストベースの学習(http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdfを参照)はまだ必要ですか?

3
部分依存プロットのy軸の解釈
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 5年前に移行され ました。 部分依存プロットに関する他のトピックを読みましたが、それらのほとんどは、それらを正確に解釈する方法ではなく、異なるパッケージで実際にプロットする方法に関するものです。 私はかなりの量の部分依存プロットを読んで作成しています。私は、彼らが私のモデルからの他のすべての変数(χc)の平均の影響で関数ƒS(χS)に対する変数χsの限界効果を測定することを知っています。yの値が大きいほど、クラスの正確な予測に大きな影響を与えます。しかし、私はこの定性的な解釈に満足していません。 私のモデル(ランダムフォレスト)は、2つの控えめなクラスを予測しています。「はい」と「いいえ」。TRIは、これに適した変数であることが証明されている変数です。 私が考え始めたのは、Y値が正しい分類の確率を示しているということです。例:y(0.2)は、TRI値が30を超えていると、True Positive分類を正しく識別する可能性が20%であることを示しています。 逆に y(-0.2)は、TRI値が<〜15の場合、True Negative分類を正しく識別する確率が20%であることを示しています。 文献で行われている一般的な解釈は、「TRI 30より大きい値がモデルの分類にプラスの影響を与え始める」というように聞こえますが、それだけです。潜在的にあなたのデータについて多くを語ることができるプロットにとって、それはとても曖昧で無意味に聞こえます。 また、すべてのプロットは、y軸の範囲内で-1から1の範囲で制限されます。-10〜10などの他のプロットを見ました。これは、予測しようとしているクラスの数の関数ですか? 誰もこの問題に話すことができるかどうか疑問に思っていました。これらのプロットまたは私を助けてくれるいくつかの文献をどのように解釈すべきかを教えてください。多分私はこれを読みすぎていますか? 統計学習の要素であるデータマイニング、推論、および予測を非常によく読んでおり、素晴らしい出発点でしたが、それだけです。

4
Leave-one-out相互検証に関するShaoの結果はいつ適用されますか?
Jun Shaoは、彼の論文「Cross-Validationによる線形モデル選択」で、多変量​​線形回帰の変数選択の問題について、leave-one-out相互検証(LOOCV)の方法が「漸近的に一貫していない」ことを示しています。平易な英語では、変数が多すぎるモデルを選択する傾向があります。シミュレーション研究で、Shaoは、わずか40回の観測であっても、LOOCVが他の交差検証手法よりも劣っていることを示しています。 この論文は多少議論の余地があり、多少無視されています(公開から10年後、私の計量化学の同僚はそれを聞いたことがなく、変数選択にLOOCVを喜んで使用していました...)。また、その結果は元の限られた範囲をいくらか超えているという信念もあります(私はこれに罪を犯しています)。 それでは、これらの結果はどこまで拡大するのでしょうか?次の問題に適用できますか? ロジスティック回帰/ GLMの変数選択? Fisher LDA分類の変数選択? 有限(または無限)カーネルスペースを持つSVMを使用した変数選択? 分類におけるモデルの比較、異なるカーネルを使用するSVMなど 線形回帰のモデルの比較、たとえばMLRとリッジ回帰の比較? 等

2
不均衡なデータのロジスティック回帰に重みを追加する
不均衡なデータ(9:1)でロジスティック回帰をモデル化します。glmR の関数でweightsオプションを試してみたかったのですが、それが何をするのか100%確信できません。 私の出力変数がであるとしましょうc(0,0,0,0,0,0,0,0,0,1)。今、私は「1」に10倍の重みを与えたいです。だから私は重みの引数を与えますweights=c(1,1,1,1,1,1,1,1,1,1,1,10)。 私がそれをするとき、それは最尤法の計算で考慮されます。私は正しいですか?「1」の誤分類は、「0」の誤分類よりも10倍悪いだけです。

3
パーセプトロン規則から勾配降下へ:シグモイド活性化関数を持つパーセプトロンはロジスティック回帰とどのように異なりますか?
本質的に、私の質問は、多層パーセプトロンにおいて、パーセプトロンがシグモイド活性化機能とともに使用されるということです。更新ルールでは、は次のように計算されます。y^y^\hat{y} y^= 11 + exp(− wTバツ私)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} この「シグモイド」パーセプトロンは、ロジスティック回帰とどのように違いますか? 単一層のシグモイドパーセプトロンは、両方とも更新ルールの。また、両方とも予測でをます。ただし、多層パーセプトロンでは、シグモイド活性化関数を使用して、ロジスティック回帰と単層パーセプトロンとは対照的に、オンオフ信号ではなく確率を返します。記号( Y =1y^= 11 + exp(− wTバツ私)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}符号(y^= 11 + exp(− wTバツ私))sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}) 「パーセプトロン」という用語の使用法は少し曖昧かもしれないと思うので、単層パーセプトロンについての私の現在の理解に基づいて背景を説明しましょう。 古典的なパーセプトロン規則 まず、ステップ関数があるF. Rosenblattによる古典的なパーセプトロン: Δのワットd= η(y私− y私^)xI Dy私、y私^∈ { - 1 、1 }Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\} 重みを更新するには wk:= wk+ …


5
ランダムフォレストの誤分類のコストを制御する方法は?
RパッケージrandomForestで誤分類のコストを制御することは可能ですか? 私自身の研究では、偽陰性(例えば、人が病気にかかっている可能性があるというミス)は、偽陽性よりもはるかに費用がかかります。パッケージrpartを使用すると、損失マトリックスを指定して誤分類に異なる重みを付けることにより、誤分類コストを制御できます。同様の何かが存在しrandomForestますか?たとえば、classwtGini基準を制御するオプションを使用する必要がありますか?

4
この場合、最小二乗解法の結果が悪いのはなぜですか?
ビショップによる「パターン認識と機械学習」の第4章の204ページに画像がありますが、ここで最小二乗解法が悪い結果を与える理由がわかりません。 前の段落では、次の画像に見られるように、最小二乗法は外れ値に対するロバスト性に欠けているという事実についてでしたが、他の画像で何が起こっているのか、LSがそこに悪い結果を与える理由はわかりません。

5
分類結果の重要性をテストする正しい方法は何ですか
いくつかの異なる分類器をトレーニングしたり、いくつかの異なる特徴抽出方法を使用したりする多くの状況があります。文献では、著者はしばしば、データのランダムな分割のセット(つまり、二重にネストされた交差検証の後)で平均分類誤差を与え、時には分割での誤差にも分散を与えます。しかし、これだけでは、ある分類器が別の分類器よりもはるかに優れていると言うには不十分です。これに対する多くの異なるアプローチを見てきました-カイ2乗検定、t検定、事後検定付きANOVAなどを使用します。 統計的有意性を判断するには、どの方法を使用する必要がありますか?その疑問の根底にあるのは、分類スコアの分布についてどのような仮定を立てるべきかということです。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
クラスの確率を予測する機械学習
例が2つのクラスのいずれかに属する確率を出力する分類子を探しています。 ロジスティック回帰と単純ベイズを知っていますが、同様の方法で機能する他の製品について教えてください。つまり、例が属するクラスではなく、例が特定のクラスに適合する確率を予測する分類子ですか? これらのさまざまな分類器の長所と短所(ロジスティック回帰と単純ベイズを含む)について共有できる考えのボーナスポイント。たとえば、マルチクラス分類の方が良いでしょうか?

3
線形分離性のテスト
高次元で2クラスデータセットの線形分離性をテストする方法はありますか?私の特徴ベクトルの長さは40です。 ロジスティック回帰実験を常に実行し、ヒット率と誤警報率を決定して、2つのクラスが線形に分離可能かどうかを判断できることはわかっていますが、それを行うための標準的な手順が既に存在するかどうかを知ることは有益です。


1
アンサンブル学習のk倍交差検証
アンサンブル学習のk倍交差検証のためにデータを分割する方法について混乱しています。 分類のためのアンサンブル学習フレームワークがあると仮定します。最初のレイヤーには、svm、決定木などの分類モデルが含まれています。 2番目のレイヤーには、最初のレイヤーからの予測を組み合わせて最終的な予測を行う投票モデルが含まれています。 5つのフォールドクロス検証を使用する場合、5つのフォールドを次のように使用することを考えています。 最初のレイヤーをトレーニングするための3つ折り 2番目のレイヤーをトレーニングするための1つ折り テスト用に1つ折り これは正しい方法ですか?第1層と第2層のトレーニングデータは独立している必要がありますか?アンサンブル学習フレームワークが堅牢になるように、それらは独立しているべきだと考えています。 私の友人は、第1層と第2層のトレーニングデータは同じであるべきだと提案しています。 1層目と2層目をトレーニングするための4つの折り目 テスト用に1つ折り このようにして、アンサンブル学習フレームワークのより正確なエラーが発生し、単一のトレーニングデータに基づいているため、フレームワークの反復的な調整がより正確になります。さらに、第2層は、独立したトレーニングデータに偏っている場合があります。 アドバイスは大歓迎です

1
分類でトレーニングデータを生成するための層別サンプリングとランダムサンプリングの利点
元のデータセットを分類用のトレーニングとテストセットに分割するときに、ランダムサンプリングではなく層別サンプリングを使用する利点があるかどうかを知りたいと思います。 また、層化サンプリングは、ランダムサンプリングよりも分類器により多くのバイアスを導入しますか? データ準備に層化サンプリングを使用したいアプリケーションは、元のデータセットのでトレーニングされたRandom Forests分類器です。分類器の前に、クラスのサイズのバランスをとる合成サンプル生成(SMOTE [1])のステップもあります。2323\frac{2}{3} [1] Chawla、Nitesh V.、他 「SMOTE:合成マイノリティオーバーサンプリングテクニック。」Journal of Artificial Intelligence Research 16(2002):321-357。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.