統計とビッグデータ classification

3

不正検出（クレジットスコアリングのような）問題に対処します。そのため、詐欺的観測と非詐欺的観測の間には非常に不均衡な関係があります。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlは、さまざまな分類指標の優れた概要を提供します。Precision and Recallまたはkappa両方が良い選択のようです：そのような分類器の結果を正当化する1つの方法は、それらをベースライン分類器の結果と比較し、それらが実際にランダムチャンス予測よりも優れていることを示すことです。私が理解している限りkappaでは、ランダムなチャンスが考慮されるので、ここでの方がわずかに良い選択かもしれません。より平易な英語でCohenのカッパ Iことを理解しkappa、情報ゲインの概念を扱いました： [...] 80％の観測精度は、50％の予測精度に対して、75％の予測精度ではあまり印象的ではありません[...] したがって、私の質問は次のようになります。 kappaこの問題に対してより適切な分類メトリックであると仮定するのは正しいですか？単に使用kappaするだけで、分類アルゴリズムに対する不均衡の悪影響を防ぐことができますか？再（ダウン/アップ）サンプリングまたはコストベースの学習（http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdfを参照）はまだ必要ですか？

22 classification unbalanced-classes precision-recall cohens-kappa model-evaluation

3

部分依存プロットのy軸の解釈

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 5年前に移行されました。部分依存プロットに関する他のトピックを読みましたが、それらのほとんどは、それらを正確に解釈する方法ではなく、異なるパッケージで実際にプロットする方法に関するものです。私はかなりの量の部分依存プロットを読んで作成しています。私は、彼らが私のモデルからの他のすべての変数（χc）の平均の影響で関数ƒS（χS）に対する変数χsの限界効果を測定することを知っています。yの値が大きいほど、クラスの正確な予測に大きな影響を与えます。しかし、私はこの定性的な解釈に満足していません。私のモデル（ランダムフォレスト）は、2つの控えめなクラスを予測しています。「はい」と「いいえ」。TRIは、これに適した変数であることが証明されている変数です。私が考え始めたのは、Y値が正しい分類の確率を示しているということです。例：y（0.2）は、TRI値が30を超えていると、True Positive分類を正しく識別する可能性が20％であることを示しています。逆に y（-0.2）は、TRI値が<〜15の場合、True Negative分類を正しく識別する確率が20％であることを示しています。文献で行われている一般的な解釈は、「TRI 30より大きい値がモデルの分類にプラスの影響を与え始める」というように聞こえますが、それだけです。潜在的にあなたのデータについて多くを語ることができるプロットにとって、それはとても曖昧で無意味に聞こえます。また、すべてのプロットは、y軸の範囲内で-1から1の範囲で制限されます。-10〜10などの他のプロットを見ました。これは、予測しようとしているクラスの数の関数ですか？誰もこの問題に話すことができるかどうか疑問に思っていました。これらのプロットまたは私を助けてくれるいくつかの文献をどのように解釈すべきかを教えてください。多分私はこれを読みすぎていますか？統計学習の要素であるデータマイニング、推論、および予測を非常によく読んでおり、素晴らしい出発点でしたが、それだけです。

22 r classification data-visualization random-forest interpretation

4

Leave-one-out相互検証に関するShaoの結果はいつ適用されますか？

Jun Shaoは、彼の論文「Cross-Validationによる線形モデル選択」で、多変量線形回帰の変数選択の問題について、leave-one-out相互検証（LOOCV）の方法が「漸近的に一貫していない」ことを示しています。平易な英語では、変数が多すぎるモデルを選択する傾向があります。シミュレーション研究で、Shaoは、わずか40回の観測であっても、LOOCVが他の交差検証手法よりも劣っていることを示しています。この論文は多少議論の余地があり、多少無視されています（公開から10年後、私の計量化学の同僚はそれを聞いたことがなく、変数選択にLOOCVを喜んで使用していました...）。また、その結果は元の限られた範囲をいくらか超えているという信念もあります（私はこれに罪を犯しています）。それでは、これらの結果はどこまで拡大するのでしょうか？次の問題に適用できますか？ロジスティック回帰/ GLMの変数選択？ Fisher LDA分類の変数選択？有限（または無限）カーネルスペースを持つSVMを使用した変数選択？分類におけるモデルの比較、異なるカーネルを使用するSVMなど線形回帰のモデルの比較、たとえばMLRとリッジ回帰の比較？等

22 classification model-selection cross-validation

2

不均衡なデータのロジスティック回帰に重みを追加する

不均衡なデータ（9：1）でロジスティック回帰をモデル化します。glmR の関数でweightsオプションを試してみたかったのですが、それが何をするのか100％確信できません。私の出力変数がであるとしましょうc(0,0,0,0,0,0,0,0,0,1)。今、私は「1」に10倍の重みを与えたいです。だから私は重みの引数を与えますweights=c(1,1,1,1,1,1,1,1,1,1,1,10)。私がそれをするとき、それは最尤法の計算で考慮されます。私は正しいですか？「1」の誤分類は、「0」の誤分類よりも10倍悪いだけです。

21 regression logistic classification unbalanced-classes weighted-data

3

パーセプトロン規則から勾配降下へ：シグモイド活性化関数を持つパーセプトロンはロジスティック回帰とどのように異なりますか？

本質的に、私の質問は、多層パーセプトロンにおいて、パーセプトロンがシグモイド活性化機能とともに使用されるということです。更新ルールでは、は次のように計算されます。y^y^\hat{y} y^= 11 + exp（− wTバツ私）y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} この「シグモイド」パーセプトロンは、ロジスティック回帰とどのように違いますか？単一層のシグモイドパーセプトロンは、両方とも更新ルールの。また、両方とも予測でをます。ただし、多層パーセプトロンでは、シグモイド活性化関数を使用して、ロジスティック回帰と単層パーセプトロンとは対照的に、オンオフ信号ではなく確率を返します。記号（ Y =1y^= 11 + exp（− wTバツ私）y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}符号（y^= 11 + exp（− wTバツ私））sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}) 「パーセプトロン」という用語の使用法は少し曖昧かもしれないと思うので、単層パーセプトロンについての私の現在の理解に基づいて背景を説明しましょう。古典的なパーセプトロン規則まず、ステップ関数があるF. Rosenblattによる古典的なパーセプトロン： Δのワットd= η（y私− y私^）xI Dy私、y私^∈ { - 1 、1 }Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\} 重みを更新するには wk：= wk+ …

21 logistic classification neural-networks gradient-descent perceptron

2

時系列のたたみ込みニューラルネットワーク？

時系列分類を行うたたみ込みニューラルネットをトレーニングするコードが存在するかどうかを知りたいです。最近の論文（http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf）を見てきましたが、何かが存在するのか、自分でコーディングしたのかはわかりません。

21 time-series classification neural-networks conv-neural-network

5

ランダムフォレストの誤分類のコストを制御する方法は？

RパッケージrandomForestで誤分類のコストを制御することは可能ですか？私自身の研究では、偽陰性（例えば、人が病気にかかっている可能性があるというミス）は、偽陽性よりもはるかに費用がかかります。パッケージrpartを使用すると、損失マトリックスを指定して誤分類に異なる重みを付けることにより、誤分類コストを制御できます。同様の何かが存在しrandomForestますか？たとえば、classwtGini基準を制御するオプションを使用する必要がありますか？

21 r classification random-forest loss-functions metric

4

この場合、最小二乗解法の結果が悪いのはなぜですか？

ビショップによる「パターン認識と機械学習」の第4章の204ページに画像がありますが、ここで最小二乗解法が悪い結果を与える理由がわかりません。前の段落では、次の画像に見られるように、最小二乗法は外れ値に対するロバスト性に欠けているという事実についてでしたが、他の画像で何が起こっているのか、LSがそこに悪い結果を与える理由はわかりません。

21 classification least-squares

5

分類結果の重要性をテストする正しい方法は何ですか

いくつかの異なる分類器をトレーニングしたり、いくつかの異なる特徴抽出方法を使用したりする多くの状況があります。文献では、著者はしばしば、データのランダムな分割のセット（つまり、二重にネストされた交差検証の後）で平均分類誤差を与え、時には分割での誤差にも分散を与えます。しかし、これだけでは、ある分類器が別の分類器よりもはるかに優れていると言うには不十分です。これに対する多くの異なるアプローチを見てきました-カイ2乗検定、t検定、事後検定付きANOVAなどを使用します。統計的有意性を判断するには、どの方法を使用する必要がありますか？その疑問の根底にあるのは、分類スコアの分布についてどのような仮定を立てるべきかということです。

21 classification statistical-significance

4

新しいベクターをPCA空間に投影する方法は？

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

クラスの確率を予測する機械学習

例が2つのクラスのいずれかに属する確率を出力する分類子を探しています。ロジスティック回帰と単純ベイズを知っていますが、同様の方法で機能する他の製品について教えてください。つまり、例が属するクラスではなく、例が特定のクラスに適合する確率を予測する分類子ですか？これらのさまざまな分類器の長所と短所（ロジスティック回帰と単純ベイズを含む）について共有できる考えのボーナスポイント。たとえば、マルチクラス分類の方が良いでしょうか？

20 machine-learning probability logistic classification naive-bayes

3

線形分離性のテスト

高次元で2クラスデータセットの線形分離性をテストする方法はありますか？私の特徴ベクトルの長さは40です。ロジスティック回帰実験を常に実行し、ヒット率と誤警報率を決定して、2つのクラスが線形に分離可能かどうかを判断できることはわかっていますが、それを行うための標準的な手順が既に存在するかどうかを知ることは有益です。

20 machine-learning classification

4

「大きいp、小さいn」結果の概要

誰かが「Large 、Small n」の結果に関する調査論文を教えてくれますか？私は別の研究の文脈でどのようにこの問題はマニフェスト自体のに興味を持っています例えば回帰、分類、ホテリングテスト、など。pppnnn

20 regression classification multivariate-analysis

1

アンサンブル学習のk倍交差検証

アンサンブル学習のk倍交差検証のためにデータを分割する方法について混乱しています。分類のためのアンサンブル学習フレームワークがあると仮定します。最初のレイヤーには、svm、決定木などの分類モデルが含まれています。 2番目のレイヤーには、最初のレイヤーからの予測を組み合わせて最終的な予測を行う投票モデルが含まれています。 5つのフォールドクロス検証を使用する場合、5つのフォールドを次のように使用することを考えています。最初のレイヤーをトレーニングするための3つ折り 2番目のレイヤーをトレーニングするための1つ折りテスト用に1つ折りこれは正しい方法ですか？第1層と第2層のトレーニングデータは独立している必要がありますか？アンサンブル学習フレームワークが堅牢になるように、それらは独立しているべきだと考えています。私の友人は、第1層と第2層のトレーニングデータは同じであるべきだと提案しています。 1層目と2層目をトレーニングするための4つの折り目テスト用に1つ折りこのようにして、アンサンブル学習フレームワークのより正確なエラーが発生し、単一のトレーニングデータに基づいているため、フレームワークの反復的な調整がより正確になります。さらに、第2層は、独立したトレーニングデータに偏っている場合があります。アドバイスは大歓迎です

20 classification cross-validation ensemble

1

分類でトレーニングデータを生成するための層別サンプリングとランダムサンプリングの利点

元のデータセットを分類用のトレーニングとテストセットに分割するときに、ランダムサンプリングではなく層別サンプリングを使用する利点があるかどうかを知りたいと思います。また、層化サンプリングは、ランダムサンプリングよりも分類器により多くのバイアスを導入しますか？データ準備に層化サンプリングを使用したいアプリケーションは、元のデータセットのでトレーニングされたRandom Forests分類器です。分類器の前に、クラスのサイズのバランスをとる合成サンプル生成（SMOTE [1]）のステップもあります。2323\frac{2}{3} [1] Chawla、Nitesh V.、他「SMOTE：合成マイノリティオーバーサンプリングテクニック。」Journal of Artificial Intelligence Research 16（2002）：321-357。

20 classification cross-validation random-forest train stratification

タグ付けされた質問 「classification」

タグ付けされた質問「classification」