統計とビッグデータ classification

1

私の質問は分類木を扱っています。Irisデータセットの次の例を考えてみます。最初の分割に最適な予測子を手動で選択したい。CARTアルゴリズムによると、分割を行うための最良の機能は、パーティションの不純性の減少を最大化する機能であり、ジニゲインとも呼ばれます。 G i n i G a i n （N、X）= G i n i （N）− | N1|| N|G i n i （N1）− | N2|| N|G i n i （N1）G私ん私Ga私ん（N、バツ）=G私ん私（N）−|N1||N|G私ん私（N1）−|N2||N|G私ん私（N1）GiniGain(N,X)=Gini(N)-\frac{\lvert N_{1} \rvert }{\lvert N \rvert }Gini(N_{1})-\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{1}) ここで、与えられた機能であり、分割がなされるべきでノードであり、と分割することによって作成された2つのつの子ノードである。は、ノードの要素数です。バツバツXNNNN1N1N_{1}N2N2N_{2}NNN| 。||。|\lvert . \rvert そして、。ここで、はノード内のカテゴリの数です KG i n …

8 r machine-learning classification data-mining cart

1

不均衡なデータのアップサンプリングまたはダウンサンプリングは実際に効果的ですか？どうして？

不均衡なデータの分類を処理する方法として、データのアップサンプリングまたはダウンサンプリングについてよく耳にします。これは、（確率的またはスコアベースではなく）バイナリ分類器を使用してブラックボックスとして扱う場合に役立つ可能性があることを理解しているため、「ROC曲線上の位置を微調整する唯一の方法はサンプリングスキーム"（引用符で囲んでいるのは、分類子が本質的にバイナリの場合、実際のROC曲線がないためですが、偽陽性と偽陰性をトレードオフする同じ概念が依然として適用されます）。しかし、実際に何らかのスコアにアクセスして、後でしきい値を決定して決定を下す場合も、同じ理由が成り立たないようです。この場合、実際のROC分析などのより優れたツールを使用できる場合に、誤検出と誤検出の間の望ましいトレードオフについての見解を表現するための特別な方法ではありませんか？この場合、アップサンプリングまたはダウンサンプリングで各クラスの分類子の「前」を変更することを期待するのは変だと思われます（つまり、そのクラスになる無条件の確率、ベースライン予測）。分類子の「オッズ比」が変化すると予想します（分類子が共変量に基づいてベースライン予測をどの程度調整するか）。だから私の質問です：バイナリブラックボックスではない分類子がある場合、アップサンプリングまたはダウンサンプリングがしきい値を好みに合わせて調整するよりもはるかに優れた効果を期待する理由はありますか？それができない場合、合理的なパフォーマンスメトリック（たとえば、精度ではない）でのアップまたはダウンサンプリングのかなり大きな影響を示す経験的研究はありますか？

8 classification roc unbalanced-classes

3

仕事の説明から情報をどのように分類/抽出しますか？

ユーザーが入力した一連のジョブの説明があります。あらゆる種類のミススペルと悪いデータがあります。つまり： ... tulane univ hospital tulip tullett prebon ... weik investment weill cornell university medical center weis weiss waldee hohimer dds welded constrction l.p. welder welder welder ... 仕事に関連する洞察でこの価値を「高める」ためにどのようなステップを踏みますか？私が考えることができる最高のものは、それをwolfram alphaに与えることです。しかし、Pythonを使用して利用できる他のアクセシブルなテクニックはあるのでしょうか。更新：標準の職業分類があることがわかりました。名前をSOCに、SOCを平均給与の範囲に一致させたいと思います。

8 classification categorical-data text-mining

1

適切なスコアリングルールを使用して、ロジスティック回帰からクラスメンバーシップを決定する

ロジスティック回帰を使用して、イベントが発生する可能性を予測しています。最終的に、これらの確率は実稼働環境に入れられ、「はい」の予測に到達することにできるだけ焦点を当てます。したがって、この決定を通知するために使用する他の方法に加えて、どの「決定的」ヒットまたは「非ヒット」がアプリオリ（本番稼働前）であるかを知ることは有用です。私の質問は、予測された確率に基づいて決定的なクラス（1,0）を予測する適切な方法は何ですか？具体的にglmnetは、モデリングにRのパッケージを使用しています。このパッケージは、はいまたはいいえのしきい値として0.5確率を任意に選択します。決定的なクラスに外挿するには、予測確率に基づいて適切なスコアリングルールの結果を取得する必要があると思います。私のモデリングプロセスの例を以下に示します。 mods <- c('glmnet', 'scoring') lapply(mods, require, character.only = T) # run cross-validated LASSO regression fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial', type.measure = 'auc') # generate predicted probabilities across new data df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min') …

8 r logistic classification loss-functions scoring-rules

4

sklearn、3クラス分類のランダムフォレストの適切なOobスコアは何ですか？[重複]

この質問にはすでに回答があります：診断メトリック（R2R2R^2 / AUC /精度/ RMSEなど）の値に基づいて、私のモデルは良いですか？（3つの答え） 7か月前に閉鎖。約45,000のサンプルで構成される学習データがあり、それぞれ21の機能があります。3つのクラス（-1、0、1）のラベルが付けられたこのデータでランダムフォレスト分類器をトレーニングしようとしています。クラスのサイズはほぼ同じです。私のランダムフォレスト分類子モデルはgini、その分割品質基準として使用しています。木の数は10であり、木の深さを制限していません。ほとんどの機能は無視できるほどの重要性を示しています。平均は約5％、それらの3分の1は重要度0、それらの3分の1は平均より上に重要です。ただし、おそらく最も印象的な事実は、oob（out-of-bag）スコア（1％未満）です。それはモデルが失敗したと私に思わせました、そして実際に、サイズ〜40kの新しい独立したセットでモデルをテストしたところ、63％（これまでのところ良い音）のスコアを得ましたが、混同行列をより詳しく調べると、モデルはクラス0でのみ成功し、1と-1の間で決定する場合、約50％のケースで失敗します。添付されたPythonの出力： array([[ 7732, 185, 6259], [ 390, 11506, 256], [ 7442, 161, 6378]]) これは当然のことですが、0クラスには予測をはるかに容易にする特別なプロパティがあるためです。しかし、私が見つけたOobスコアがすでにモデルが良くない兆候であるというのは本当ですか？ランダムフォレストのOobスコアはいくつですか？モデルが「良好」であるか、oobスコアのみを使用するか、またはモデルの他の結果と組み合わせて使用するかを決定するのに役立つ経験則はありますか？編集：不正なデータ（データの約3分の1）を削除した後、ラベルは0の場合は2％程度、-1 / + 1の場合は49％でした。oobスコアは0.011で、テストデータのスコアは0.49であり、混同行列はクラス1（予測の約3/4）にほとんど偏っていません。

8 classification random-forest out-of-sample

2

厳密にバイナリデータの分類モデルを構築する

厳密にバイナリであるデータセットがあります。各変数の値のセットはドメイン内にあります：true、false。このデータセットの「特別な」プロパティは、値の圧倒的多数が「false」であることです。ベイジアンネットワーク学習アルゴリズムを使用して、データからネットワークを学習しました。ただし、ターゲットノードの1つ（最も重要なノードは死）の場合、AUCの結果はあまり良くありません。偶然より少し良いです。CVについて私に提案されているポジティブ予測値（PPV）でさえ、他のアプローチを使用した文献で報告されているものと競合しませんでした。AUC（ROC分析）は、臨床研究のこの領域で報告される典型的なベンチマークですが、他にアイデアがある場合は、分類モデルをより適切にベンチマークする方法についての提案も開かれています。そのため、このプロパティを使用してこのタイプのデータセット（ほとんどの場合、偽の値）に対して他のどの分類モデルを試すことができるか考えていました。ベクターマシンのヘルプをサポートしますか？私の知る限り、SVMは連続変数（予測子としての変数）のみを扱います（ただし、マルチクラスに適合されています）。しかし、私の変数はすべてバイナリです。ランダムフォレストは役に立ちますか？ここでロジスティック回帰が適用されますか？私の知る限り、ロジスティック回帰の予測子も連続しています。予測子としてのバイナリ変数の一般化バージョンはありますか？分類のパフォーマンスは別として、SVMとランダムフォレストはベイジアンネットワークよりも優れていると思いますが、問題はこれらのモデルの関係を説明する方法（特に臨床医）に移ります。

8 machine-learning classification svm random-forest bayesian-network

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

ブレイマンのコードを使用して教師なしランダムフォレスト分類を実行する方法

私はブレイマンのランダムフォレストコード（http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2）を使用して、衛星データの分類（教師あり学習）を行っています。サンプルサイズが2000、変数サイズが10のトレーニングとテストのデータセットを使用しています。データは2つのクラスAとBに分類されます。教師あり学習モードでは、アルゴリズムは非常に低い分類エラー（<2％）で良好に実行されます。ここで、テストデータセットにクラスラベルのない教師なし分類を試し、アルゴリズムがクラスを予測する方法を確認します。ブレイマンのコードを使用して教師なし分類を実装する方法はありますか？この方法のエラーは、監視あり分類よりも高くなりますか？アルゴリズムのデータと実行パラメーターの設定を以下に示します。 DESCRIBE DATA 1 mdim = 10、ntrain = 2000、nclass = 2、maxcat = 1、1 ntest = 2000、labelts = 1、labeltr = 1、 SET RUN PARAMETERS 2 mtry0 = 3、ndsize = 1、jbt = 500、look = 100、lookcls = 1、2 jclasswt = 0、mdim2nd = 0、mselect = 0、

8 machine-learning classification random-forest

1

非正規データのマハラノビス距離

マハラノビス距離は、分類の目的で使用される場合、通常、多変量正規分布を想定しており、重心からの距離は分布に従う必要があります（自由度は次元/特徴の数に等しい）。マハラノビス距離を使用して、新しいデータポイントがセットに属する確率を計算できます。χ2χ2\chi^2ddd 多変量正規分布に従わないデータセットがあります（）。理論的には、各特徴はポアソン分布に従う必要があり、経験的にこれは多くの（）特徴に当てはまるようで、ノイズに含まれていない特徴で、分析から削除できます。このデータの新しいポイントをどのように分類できますか？d≈1000d≈1000d \approx 1000≈200≈200\approx 200 2つのコンポーネントがあると思います。このデータの適切な「マハラノビス距離」式は何ですか（つまり、多変量ポアソン分布）。他の分布への距離の一般化はありますか？通常のマハラノビス距離を使用しても、別の定式化を使用しても、これらの距離の分布はどうなりますか？仮説検定を行う別の方法はありますか？あるいは... 各クラスの既知のデータポイントのは、（少なすぎます。経験的に最小値を決定します）から約まで幅広く変化します。マハラノビス距離はでスケーリングされるため、1つのモデル/クラスから次のモデル/クラスまでの距離を直接比較することはできません。データが正常に分布している場合、カイ2乗検定は、さまざまなモデルからの距離を比較する方法を提供します（臨界値または確率を提供することに加えて）。「マハラノビスのような」距離を直接比較する別の方法がある場合、たとえそれが確率を提供していなくても、私はそれで作業することができます。nnnn=1n=1n=1n=6000n=6000n=6000nnn

8 hypothesis-testing classification multivariate-analysis poisson-distribution joint-distribution

2

分類と回帰の予測に関するサンプルサイズ

仮説検定に関して、サンプルサイズの推定はパワーを介して行われ、同じサイズを増やすと推定される効果の精度が上がることは直感的です。しかし、分類と回帰の両方の予測についてはどうでしょうか？予測問題のどの側面が、一般化誤差または回帰のRMSEの推定以外のサンプルサイズの影響を受けます。要するに、仮説検定の設定で力に寄与するプロパティは、ペナルティ付き回帰/データマイニング/アルゴリズムモデリングを通じて予測を成功させるプロパティとは異なります。サンプルサイズはこれらのテクニックの成功にどのように影響しますか？この考えを説明する1つの論文がこれです。だれでもコメントの参照を提供できますか？ありがとう。

8 classification sample-size prediction

3

svmが同じデータのディシジョンツリーほど良くないのはなぜですか？

私は機械学習に慣れていないため、scikit-learn（sklearn）を使用して分類の問題に対処しようとしています。DecisionTreeとSVMはどちらも、この問題の分類子をトレーニングできます。私はとを使用sklearn.ensemble.RandomForestClassifierしsklearn.svm.SVCて、同じトレーニングデータを適合させます（エントリあたり50個の機能を持つ約500,000エントリ）。RandomForestClassifierは約1分で分級して出てきます。SVCは、 24時間以上を使用し、まだ実行し続けます。 SVCのパフォーマンスが非効率的であるのはなぜですか？データセットはSVCに対して大きすぎますか？あるSVCは、このような問題のために不適切な？

8 machine-learning classification svm scikit-learn

3

バイナリシーケンスでのクラスターの検出

私は次のようなバイナリシーケンスを持っています 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 以下の図のように、ほとんどが1のクラスターの後に多数のゼロが続きます（黒は1を表します）。これらの1のクラスターを自動的に検出し、スパン（画像では赤い線で示されます）を生成できる手法（RまたはPythonが望ましい）を適用したいと思います。私はこれをしきい値で実行できることを知っています。つまり、2つのクラスターを少なくともn 0 で区切ってクラスターにする必要があると言いますが、事前定義されたしきい値を使用しない他の確立された方法があるのだろうかと思います。何か案が？

8 classification clustering data-mining pattern-recognition binary-data

5

連続応答変数の符号を予測するための分類と回帰

たとえば、プロジェクトが利益を生むかどうかを予測したいとします。私のサンプルデータでは、応答変数は実際には連続変数、つまりプロジェクトの$利益/損失です。私の最終的な目標は単なるバイナリ分類（収益性のあるプロジェクトまたは収益性のないプロジェクト）なので、分類手法を使用する必要がありますか？または、連続応答変数が提供する追加情報を捨てないように、回帰を使用する必要がありますか？

8 regression classification predictive-models

3

継続的な結果のための感度と特異性の類似体

結果を二分することなく継続的な結果（たとえば、血圧）を予測する際の継続的な診断テストの感度と特異度（または類似の測定）を計算するにはどうすればよいですか？何か案は？研究者は混合効果モデリング（以下のリンクを参照）を使用してこれを行ったようですが、私は彼らがこの手法を使用することに慣れていません：http : //www.ncbi.nlm.nih.gov/pmc/articles/PMC3026390/ ちなみに、私はRに最も慣れているので、R関数を伴うことを提案する実装には理想的です（ただし、そうでなくても問題ありません）。提案を事前にありがとう！

8 classification mixed-model predictive-models roc continuous-data

1

多変量正規分布と分類の一般化

期待値および共分散行列と単調減少関数密度が、ここではマハラノビス距離です。もちろん、多変量法線はによって回復されます。 ΣG（D）P（ → X）αG（Δ（ → X、 → μ））Δ（ →、 → B）=√μ⃗ μ→\vec \muΣΣ\Sigmag（d）g(d)g(d)p （x⃗ ）∝ g（ Δ （x⃗ 、μ⃗ ））p(x→)∝g(Δ(x→,μ→)) p(\vec x) \propto g \left ( \Delta(\vec x, \vec \mu) \right ) G（D）=EXP（- 1Δ （a⃗ 、b⃗ ）= （a⃗ − b⃗ ）TΣ− 1（a⃗ − b⃗ ）−−−−−−−−−−−−−−−√Δ(a→,b→)=(a→−b→)TΣ−1(a→−b→) \Delta(\vec a, \vec …

8 distributions classification normal-distribution multivariate-analysis

タグ付けされた質問 「classification」

タグ付けされた質問「classification」