統計とビッグデータ classification

1

私は、さまざまなブログ、ウェブサイトを読んで勾配ブーストを理解し、たとえばXGBoostソースコードを調べて私の答えを見つけようとしています。ただし、勾配ブースティングアルゴリズムが確率推定値を生成する方法についての理解できる説明は見当たらないようです。それで、彼らはどのように確率を計算しますか？

11 machine-learning classification boosting ensemble xgboost

3

「良い」分類子は私の精密再現率曲線を破壊しました。どうした？

私は不均衡なデータを処理しています。そこでは、すべてのclass = 1に対して約40のclass = 0ケースがあります。個々の機能を使用してクラスを合理的に区別することができ、6つの機能でナイーブベイズとSVM分類器をトレーニングし、データのバランスをとることで、より良い識別が得られました（以下のROC曲線）。それは結構です、そして私はうまくやっていると思いました。ただし、この特定の問題の慣例は、通常50％から90％の間の精度レベルでヒットを予測することです。例：「90％の精度でいくつかのヒットを検出しました。」これを試したところ、分類子から得られる最大精度は約25％でした（黒い線、下のPR曲線）。 PR曲線は不均衡に敏感でROC曲線はそうではないので、これをクラスの不均衡問題として理解できました。ただし、不均衡は個々の機能に影響を与えていないようです。個々の機能（青とシアン）を使用すると、かなり高い精度を得ることができます。何が起こっているのかわかりません。結局のところ、データが非常に不均衡であるため、PRスペースですべてがうまく機能していなければ、それを理解できました。分類子がROC と PRの領域で見た目が悪い場合にも、それを理解できました。しかし、ROCによって判断されると分類子をより良くするために何が起こっているのですか？編集：TPR /リコールの低い領域（TPRが0から0.35の間）では、個々の機能がROC曲線とPR曲線の両方の分類子を常に上回っていることに気付きました。多分私の混乱は、ROC曲線が高いTPR領域（分類器がうまく機能している場合）を「強調」し、PR曲線が低いTPR（分類器が悪い場合）を強調しているためです。編集2：バランスの取れていないデータ、つまり生データと同じ不均衡でのトレーニングにより、PR曲線が復活しました（以下を参照）。私の問題は分類子の不適切なトレーニングだったと思いますが、何が起こったのか完全には理解できません。

11 classification svm roc naive-bayes precision-recall

5

どうしてもビニングを避けなければならないのですか？

だから私はなぜビニングが常に避けられるべきかについてのいくつかの投稿を読んだ。その主張の人気のあるリファレンスはこのリンクです。主な逃避は、ビニングポイント（またはカットポイント）がかなり恣意的であることと、その結果として生じる情報の損失であり、そのスプラインが優先されることです。ただし、私は現在、Spotify APIを使用しています。SpotifyAPIには、いくつかの機能に対する継続的な信頼度の測定値が多数あります。 1つの機能「instrumentalness」を参照すると、参照は次のように述べています。トラックにボーカルが含まれていないかどうかを予測します。「Ooh」と「aah」のサウンドは、この文脈ではインストゥルメンタルとして扱われます。ラップや話し言葉のトラックは明らかに「ボーカル」です。インストルメンタル値が1.0に近いほど、トラックにボーカルコンテンツが含まれていない可能性が高くなります。0.5を超える値は、インストゥルメンタルトラックを表すことを目的としていますが、値が1.0に近づくほど信頼性が高くなります。データの非常に左に歪んだ分布を考えると（サンプルの約90％がかろうじて0を超えているため、この機能を2つのカテゴリ機能に変換するのが賢明であることがわかりました。 "（0.5未満の値を持つすべてのサンプル）。これは間違っていますか？そして、私の（継続的な）データのほぼすべてが単一の値を中心に展開している場合、代替手段は何でしょうか？スプラインについて私が理解していることから、それらは分類の問題（私がやっていること）でも機能しません。

10 classification categorical-data continuous-data splines binning

3

分類にLDAではなくPCAをいつ使用しますか？

私は、主成分分析と多重判別分析（線形判別分析）の違いについてこの記事を読んでおり、MDA / LDAではなくPCAを使用する理由を理解しようとしています。説明は次のように要約されます。 PCAで大まかに言えば、データが最も分散している（PCAはデータセット全体を1つのクラスとして扱うため、クラス内で）最大の分散を持つ軸を見つけようとしています。MDAでは、クラス間の分散をさらに最大化しています。常に分散を最大化し、クラス間の分散を最大化したいと思いませんか？

10 classification pca dimensionality-reduction discriminant-analysis

1

ニューラルネットワークは通常、トレーニング中に「キックイン」するのにしばらく時間がかかりますか？

バックプロパゲーションを使用して、分類用のディープニューラルネットワークをトレーニングしようとしています。具体的には、Tensor Flowライブラリを使用して、画像分類に畳み込みニューラルネットワークを使用しています。トレーニング中に私は奇妙な行動を経験しており、これが典型的であるのか、それとも私が何か間違ったことをしているのかと思っています。したがって、私の畳み込みニューラルネットワークには8つのレイヤーがあります（5つの畳み込み、3つが完全に接続されています）。すべての重みとバイアスは、小さな乱数で初期化されます。次に、ステップサイズを設定し、Tensor FlowのAdam Optimizerを使用して、ミニバッチでトレーニングを進めます。私が話している奇妙な振る舞いは、私のトレーニングデータの最初の約10ループでは、トレーニング損失は一般に減少しないということです。ウェイトは更新されていますが、トレーニングロスはほぼ同じ値のままで、ミニバッチ間で上昇または下降する場合があります。しばらくこのままで、損失は減らないという印象を常に持っています。その後、突然、トレーニングロスが劇的に減少します。たとえば、トレーニングデータの約10ループ内で、トレーニングの精度は約20％から約80％になります。それ以降、すべてがうまく収束します。トレーニングパイプラインを最初から実行するたびに同じことが起こります。以下は、実行例を示すグラフです。だから、私が疑問に思っているのは、これがディープニューラルネットワークのトレーニングによる通常の動作であり、「キックイン」に時間がかかるかどうかです。それとも、この遅延を引き起こしている何か間違っていることがあるのでしょうか？どうもありがとう！

10 machine-learning classification neural-networks conv-neural-network tensorflow

3

RBF SVMの使用例（対ロジスティック回帰とランダムフォレスト）

放射状ベース関数カーネルを備えたサポートベクターマシンは、汎用の教師付き分類器です。私はこれらのSVMの理論的な基盤とその長所を知っていますが、それらが推奨される方法である場合については知りません。では、RBF SVMが他のML技術よりも優れているクラスの問題はありますか？（スコア、またはその他-堅牢性、開始の容易さ、解釈可能性など）私のデフォルトのアプローチはロジスティック回帰（おそらくいくつかの相互作用による）、ランダムフォレスト、および少しのニューラルネットワークに集中しているので、私は尋ねています。私のMLをしている友達（Kaggleの勝者もいます）はSVMユーザーではありません（ただし、私のコミュニティのアーティファクトであるか、彼らが対処する問題である可能性があります）。

10 machine-learning logistic classification svm random-forest

4

線形分類器による過剰適合

今日、私たちの教授はクラスで「線形分類器による過剰適合は不可能である」と述べました。線形分類子でもトレーニングセットの外れ値に敏感である可能性があるので、私はそれを間違っていると考えています。たとえば、ハードマージンのサポートベクトルマシンを考えてみます。それとも私は間違っていますか？明らかに、線形性はおそらくモデルの複雑さが低いために過適合を防ぐでしょうが、それでも過適合が不可能であるべき理由はわかりません。もう1つのポイントは、この問題について考えてみたところ、「過剰適合」が正式に定義されているようには見えないことに気付きました。何故ですか？トレーニングとテストセットのパフォーマンスの間の距離の測定によって、このような形式化が可能になりますか？ありがとう

10 classification overfitting

1

不均衡なデータセットのROC曲線

入力行列とバイナリ出力考えます。XXXyyy 分類子のパフォーマンスを測定する一般的な方法は、ROC曲線を使用することです。 ROCプロットでは、対角線はランダム分類子から得られる結果です。不均衡な出力場合、ランダム分類子のパフォーマンスは、異なる確率でまたはを選択して改善できます。yyy000111 このような分類子のパフォーマンスは、ROC曲線プロットでどのように表すことができますか？もう斜めではなく、角度の異なる直線にすべきでしょうか？

10 classification roc unbalanced-classes

2

ディシジョンツリーでAdaboostを使用する理由

私は分類タスク、特にAdaboostのブースティングアルゴリズムについて少し読んでいます。Adaboostの目的はいくつかの「弱い学習者」を取ることであり、トレーニングデータの一連の反復を通じて、分類子をプッシュして、モデルが繰り返し間違いを犯すクラスを予測することを学習することを理解しています。しかし、私がこれまでに行った非常に多くのリーディングで、決定木を弱い分類子として使用しているのはなぜかと思いました。これには特別な理由がありますか？Adaboostの特に良い候補または悪い候補になる特定の分類子はありますか？

10 machine-learning classification algorithms boosting

2

R randomForestsの分類のしきい値を変更するにはどうすればよいですか？

すべての種分布モデリングの文献では、確率を出力するモデル（RandomForestsなど）を使用して種の存在/不在を予測するときに、実際に種を存在または不在として分類するためのしきい値確率の選択が重要であり、常にデフォルトの0.5に依存するわけではありません。これについて少し助けが必要です！これが私のコードです： library(randomForest) library(PresenceAbsence) #build model RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500) #eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted RFpred <- predict(RFfit, …

10 r classification random-forest threshold

3

ロジスティック回帰のベイズの適合度を視覚化する方法

ベイジアンロジスティック回帰問題の場合、私は事後予測分布を作成しました。私は予測分布からサンプリングし、観測ごとに（0,1）の数千のサンプルを受け取ります。適合度を視覚化することは、面白くありません。次に例を示します。このプロットは、10,000個のサンプル+観測されたデータム点を示しています（左側の方に赤い線が表示されます：観測です）。問題は、このプロットが情報を提供することがほとんどないことであり、データポイントごとに1つずつ、計23を用意します。 23データポイントと後方サンプルを視覚化するより良い方法はありますか？別の試み：ここの論文に基づく別の試み

10 bayesian data-visualization classification goodness-of-fit binary-data

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

「モデルを学ぶ」という用語はどこから来たのですか

ここのデータマイナーがこの用語を使用することをよく耳にします。分類の問題に取り組んだ統計学者として、「分類子を訓練する」という用語をよく知っており、「モデルを学習する」と同じことを想定しています。「分類子を訓練する」という言葉は気にしません。これは、トレーニングデータを使用してモデルパラメータの適切な「改善された」推定値を取得するため、モデルの当てはめのアイデアを描いているようです。しかし、それは知識を得るための手段を学ぶでしょう。わかりやすい英語で「モデルを学ぶ」とは、それが何かを知ることを意味します。しかし、実際にはモデルを「知る」ことはありません。モデルは現実に近似していますが、正しいモデルはありません。それはボックスが「モデルは正しくないが、いくつかは有用である」と言ったようです。データマイナーの応答を聞きたいです。この用語の由来は？それを使うなら、なぜそれが好きですか？

10 classification data-mining terminology model

3

統計的有意性を使用して2つの異なるモデルの精度を比較する方法

私は時系列予測に取り組んでいます。2つのデータセットとます。 3つの予測モデルがあります。これらのモデルはすべて、データセットサンプルを使用してトレーニングされ、そのパフォーマンスはデータセットサンプルを使用して測定されます。パフォーマンスメトリックがMSE（またはその他）であるとします。データセットについて測定し、それらのモデルのMSEある及び。あるモデルの別のモデルに対する改善が統計的に有意であることをどのようにテストできますか？D1={x1,x2,....xn}D1={x1,x2,....xn}D1=\{x_1, x_2,....x_n\}D2={xn+1,xn+2,xn+3,....,xn+k}D2={xn+1,xn+2,xn+3,....,xn+k}D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}M1,M2,M3M1,M2,M3M1, M2, M3D1D1D1D2D2D2D2D2D2MSE1,MSE2,MSE1,MSE2,MSE_1, MSE_2, MSE3MSE3MSE_3 たとえば、、、、これらのMSEの計算に基づくデータセットサンプルの総数が2000 であるとします、、およびが大幅に異なることをどのようにテストできますか。誰かがこの問題で私を助けることができれば私は非常に感謝します。MSE1=200MSE1=200MSE_1=200MSE2=205MSE2=205MSE_2=205MSE3=210MSE3=210MSE_3=210D2D2D2MSE1MSE1MSE_1MSE2MSE2MSE_2MSE3MSE3MSE_3

10 time-series machine-learning statistical-significance classification model-evaluation

1

比率とバイナリ分類器のテスト

部品を作る機械のプロトタイプを持っています。最初のテストで、マシンはパーツを生成し、バイナリ分類子は、パーツに欠陥があり（、通常および）、パーツが良好であることをてくれます。d 1 d 1 < N 1 d 1 /N1N1N_1d1d1d_1d1< N1d1<N1d_1 < N_1N 1 ≈ 10 4 N 1 - D 1d1/ N1< 0.01d1/N1<0.01d_1/N_1<0.01N1≈ 104N1≈104N_1\approx10^4N1− d1N1−d1N_1-d_1 次に、技術者は、欠陥のある部品の数を減らすために、機械に変更を加えます。 2回目以降のテストでは、変更されたマシンがパーツを生成し、同じバイナリ分類子（そのまま）により、パーツに欠陥があることがます。とにかく、はと非常に似ています。d 2 d 2 / N 2 dN2N2N_2d2d2d_2d2/N2d2/N2d_2/N_2d1/N1d1/N1d_1/N_1 技術者は、彼の変更が有効かどうかを知りたいと考えています。分類子が完全である（その感度が100％で、その特異度が100％である）と仮定すると、比率のテストを実行できます（Rを使用して、と入力するだけですprop.test(c(d1,d2),c(N1,N2))）。しかし、分類子は完全ではないので、技術者に適切に回答するために、分類子の感度と特異度（どちらも不明）をどのように考慮することができますか？

10 hypothesis-testing statistical-significance classification proportion

タグ付けされた質問 「classification」

タグ付けされた質問「classification」