統計とビッグデータ classification

1

ロジスティック回帰により、トレーニングサンプルを分離する超平面が検出されることがわかっています。また、サポートベクターマシンが最大マージンを持つ超平面を検出することも知っています。私の質問：ロジスティック回帰（LR）とサポートベクターマシン（SVM）の違いは、LRがトレーニングサンプルを分離する超平面を見つけ、SVMが最大マージンを持つ超平面を見つけることですか？それとも私は間違っていますか？注：LRでは、場合、ロジスティック関数はをます。を分類しきい値と仮定すると、は超平面または決定境界です。θ ⋅ のx = 0θ⋅バツ=0\theta \cdot x = 00.50.50.50.50.50.5θ ⋅ のx = 0θ⋅バツ=0\theta \cdot x = 0

14 machine-learning classification svm data-mining

1

機械学習分類器の大規模または複雑さ

新しい分類アルゴリズムのパフォーマンスを評価するために、精度と複雑さを比較しようとしています（トレーニングと分類でのビッグO）。Machine Learningから：レビュー完全な教師付き分類子リスト、アルゴリズム間の精度表、およびUCIデータリポジトリからの44のテスト問題を取得します。ただし、次のような一般的な分類子のレビュー、論文、またはウェブサイトが見つかりません。 C4.5 RIPPER（これは不可能かもしれないと思うが、誰が知っているか）逆伝播を伴うANN 素朴なベイジアン K-NN SVM 誰かがこれらの分類子の式を持っている場合、それは非常に役立ちます、ありがとう。

14 machine-learning classification multiple-comparisons algorithms time-complexity

3

ランダムフォレストモデルの最新データの重み付け

6つのカテゴリを区別するために、ランダムフォレストで分類モデルをトレーニングしています。私のトランザクションデータには、約60k +の観測値と35の変数があります。これがおおよそどのように見えるかの例を次に示します。 _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG | group1 | |333 | 2013-05-05 | 30 | DE | group2 | |444 | 2013-05-10 | 78 | US | group3 | |555 | 2013-06-15 …

14 r machine-learning classification random-forest

1

ランダムフォレストでのLASSOの使用

次のプロセスを使用してランダムフォレストを作成します。情報ゲインを使用して分割を決定し、データとフィーチャのランダムサンプルでツリーを構築しますリーフノードが定義済みの深さを超えている場合、または任意の分割の結果、リーフカウントが定義済みの最小値よりも少ない場合、リーフノードを終了します。各ツリーにクラスラベルを割り当てるのではなく、リーフノードのクラスの割合を割り当てます事前定義された数が構築された後、ツリーの構築を停止しますこれは、2つの方法で従来のランダムフォレストプロセスに対抗します。1つは、クラスラベルではなく比率を割り当てる枝刈りされたツリーを使用します。2つ目は、停止基準は、アウトオブバッグエラーの推定値ではなく、事前に決定されたツリー数です。私の質問はこれです： N個のツリーを出力する上記のプロセスの場合、ロジスティック回帰とLASSO選択を使用してモデルを近似できますか？誰もがランダムフォレスト分類器をフィッティングし、ロジスティックLASSOで後処理した経験がありますか？ ISLEフレームワークでは、分類問題ではなく、回帰問題の後処理ステップとしてLASSOを使用することに言及しています。さらに、「ランダムな森のなげなわ」をグーグルで検索しても、役に立つ結果は得られません。

14 classification random-forest lasso ensemble

1

RandomForest-MDSプロットの解釈

randomForestを使用して、8つの変数（さまざまな体の姿勢と動き）に基づいて6つの動物の行動（たとえば、立ち、歩き、水泳など）を分類しました。 randomForestパッケージのMDSplotはこの出力を提供し、結果の解釈に問題があります。私は同じデータでPCAを実行し、PC1とPC2のすべてのクラス間で既に良好な分離を得ましたが、ここではDim1とDim2は3つの動作を分離しているようです。これは、これらの3つの動作が他のすべての動作よりも非類似であることを意味します（したがって、MDSは変数間の最大の非類似性を見つけようとしますが、必ずしも最初のステップですべての変数が一致するわけではありません）？3つのクラスターの配置（Dim1やDim2など）は何を示していますか？私はRIが初めてなので、このプロットに凡例をプロットするのにも問題があります（ただし、さまざまな色が何を意味するかはわかりますが）。どうもありがとう！！ RandomForestにClassCenter関数で作成したプロットを追加します。この関数は、プロトタイプのプロットに近接行列（MDSプロットと同じ）も使用します。しかし、6つの異なる動作のデータポイントを見るだけでは、なぜ近接行列がプロトタイプをプロットするのか理解できません。また、虹彩データを使用してclasscenter関数を試しましたが、機能します。しかし、それは私のデータでは機能しないようです... このプロットに使用したコードは次のとおりです be.rf <- randomForest(Behaviour~., data=be, prox=TRUE, importance=TRUE) class1 <- classCenter(be[,-1], be[,1], be.rf$prox) Protoplot <- plot(be[,4], be[,7], pch=21, xlab=names(be)[4], ylab=names(be)[7], bg=c("red", "green", "blue", "yellow", "turquoise", "orange") [as.numeric(factor(be$Behaviour))]) points(class1[,4], class1[,7], pch=21, cex=2, bg=c("red", "green", "blue", "yellow", "turquoise", "orange")) 私のクラス列が最初の列で、8つの予測子がそれに続きます。2つの最良の予測変数をxとyとしてプロットしました。

14 r classification random-forest multidimensional-scaling

5

1クラスのテキスト分類を行う方法

テキスト分類の問題に対処する必要があります。Webクローラーは、特定のドメインのWebページをクロールします。Webページごとに、特定の1つのクラスのみに属しているかどうかを確認します。つまり、このクラスをPositiveと呼ぶと、クロールされた各WebページはPositiveクラスまたはNon-Positiveクラスに属します。クラスPositiveのWebページの大きなトレーニングセットが既にあります。しかし、可能な限り代表的な非陽性クラスのトレーニングセットを作成する方法は？つまり、基本的にそのクラスにすべてを使用できます。確実にクラスPositiveに属さない任意のページを収集できますか？テキスト分類アルゴリズム（私はNaive Bayesアルゴリズムを使用することを好みます）のパフォーマンスは、Non-Positiveクラスに選択したWebページに大きく依存すると確信しています。だから私は何をしますか？誰かアドバイスをください。どうもありがとうございました！

14 classification text-mining naive-bayes binary-data

3

ニューラルネットの隠された活性化関数の選択

NNの隠れ層アクティベーション関数の選択は必要に応じて行う必要があることを別の場所で読みました。つまり、-1から1の範囲の値が必要な場合はtanhを使用し、0から1の範囲にシグモイドを使用します私の質問は、自分のニーズがどのようにわかるのかということです。入力レイヤーの範囲に基づいていますか。たとえば、入力レイヤーの値の全範囲を網羅できる関数を使用するか、入力レイヤーの分布を何らかの形で反映します（ガウス関数）。それとも、問題/ドメイン固有のニーズであり、この選択を行うには経験/判断が必要ですか？それとも単に、「相互検証された最良の最小トレーニングエラーを与えるものを使用する」か？

14 machine-learning classification neural-networks

5

どの統計分類アルゴリズムが入力シーケンスの真/偽を予測できますか？

入力シーケンスが与えられたら、このシーケンスに特定の望ましい特性があるかどうかを判断する必要があります。プロパティはtrueまたはfalseのみです。つまり、シーケンスが属することができるクラスは2つだけです。シーケンスとプロパティの正確な関係は不明ですが、非常に一貫性があり、統計的な分類に役立つはずです。分類器をトレーニングするケースは多数ありますが、このトレーニングセットではシーケンスに間違ったクラスが割り当てられる可能性がわずかにあるという意味で、少しうるさいかもしれません。トレーニングデータの例： Sequence 1: (7 5 21 3 3) -> true Sequence 2: (21 7 5 1) -> true Sequence 3: (12 21 7 5 11 1) -> false Sequence 4: (21 5 7 1) -> false ... 大まかに言うと、プロパティはシーケンス内の値のセット（たとえば、「11」の存在はプロパティがほぼ確実にfalseであることを意味します）、および値の順序（「21 7 5 「プロパティがtrueである可能性が大幅に増加します）。トレーニング後、分類器にのように以前は見えなかったシーケンスを与えることができ(1 21 7 5 3)、プロパティがtrueであるという確信を出力する必要があります。この種の入力/出力で分類器をトレーニングするための有名なアルゴリズムはありますか？私は、単純なベイズ分類器（少なくとも入力が独立しているという仮定をひどく壊すことなく、順序が重要であるという事実に実際には適応できない）を検討しました。また、隠れマルコフモデルのアプローチについても調査しました。これは、入力ごとに1つの出力ではなく、1つの出力しか利用できないため、適用できないようです。私は何を取りこぼしたか？

14 machine-learning classification modeling

1

不均衡なクラスをオーバー/アンダーサンプリングする場合、精度の最大化は誤分類コストの最小化と異なりますか？

まず、データマイニングの書籍で使用されるいくつかの一般的なレイアウトについて説明し、不均衡なデータセットの処理方法を説明します。通常、メインセクションの名前はUnbalanced Datasetsで、これらの2つのサブセクション、コスト重視の分類とサンプリングテクニックについて説明します。まれなクラスの問題に直面すると、コストに敏感な分類とサンプリングの両方を実行できるようです。代わりに、まれなクラスも分類の対象であり、そのクラスのレコードの誤分類がコストがかかる場合は、コストに敏感な手法を適用する必要があると思います。一方、オーバーサンプリングやアンダーサンプリングなどのサンプリング手法は、特定のクラスに焦点を当てることなく、分類のターゲットが全体的に良好な精度である場合に役立ちます。この信念は、分類子をコスト重視にする一般的な方法であるMetaCostの理論的根拠に由来しています：まれなクラスの誤分類エラーにペナルティを課すために分類子をコスト重視にする場合、他のクラスをオーバーサンプリングする必要があります。大まかに言えば、分類器は他のクラスに適応しようとし、まれなクラスに固有になります。これは、まれなクラスをオーバーサンプリングすることの反対であり、通常、この問題に対処するために推奨される方法です。まれなクラスのオーバーサンプリングまたは他のクラスのアンダーサンプリングは、全体の精度を向上させるのに役立ちます。私の考えを確認していただければ幸いです。これを述べると、不均衡なデータセットが直面する一般的な質問は次のとおりです。他のレコードと同じくらい多くのまれなレコードをカウントするデータセットを取得しようとする必要がありますか？私の答えは、正確さを求めている場合です。OK。よりまれなクラスの例を見つけるか、他のクラスの一部のレコードを削除して実行できます。コストに敏感な手法でレアクラスに焦点を当てている場合は、答えます。レアクラスの例を見つけることはできますが、他のクラスのレコードは削除しないでください。後者の場合、分類器を他のクラスに適応させることはできず、まれなクラスの誤分類エラーが増加する可能性があります。あなたは何に答えますか？

14 machine-learning classification unbalanced-classes

2

選択したフィーチャの数を減らすと、エラーのランダムフォレストOOB推定が改善されるのはなぜですか？

ランダムフォレストアルゴリズムを、数千の特徴を持つ2つの既知のグループに分割されたマイクロアレイデータセットの分類子として適用しています。最初の実行後、機能の重要性を確認し、5、10、および20の最も重要な機能を使用してツリーアルゴリズムを再度実行します。すべての機能、トップ10および20について、エラー率のOOB推定値は1.19％であることがわかりましたが、トップ5の機能については0％です。これは私には直観に反しているように思えるので、何かを見逃しているのか、間違ったメトリックを使用しているのかを説明できるかどうか疑問に思っていました。 ntree = 1000、nodesize = 1、mtry = sqrt（n）でRのrandomForestパッケージを使用しています

14 r machine-learning classification random-forest

3

CARTモデルを堅牢にすることはできますか？

私のオフィスの同僚は、今日、「ツリーモデルは極端な観察に巻き込まれるため、良くない」と私に言いました。ここで検索した結果、このスレッドは基本的にクレームをサポートしています。それは私を疑問に導きます-どのような状況でCARTモデルは堅牢になりますか、そしてそれはどのように示されますか？

14 regression classification robust cart

1

評価としてAUCの代わりに正規化されたGiniスコアを使用する理由

Kaggleの競合Porto SeguroのSafe Driver Predictionでは、評価指標として正規化されたGiniスコアを使用しているため、この選択の理由に興味がありました。評価にAUCなどの最も一般的なメトリックの代わりに正規化されたginiスコアを使用する利点は何ですか？

14 classification auc model-evaluation gini

1

キャレットglmnetとcv.glmnet

glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。次のような多くの質問が提起されました。分類モデルtrain.glmnet対cv.glmnet？キャレットでglmnetを使用する適切な方法は何ですか？「キャレット」を使用して「glmnet」を相互検証するしかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります：推定されるラムダはなぜそんなに違うのですか？ library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

1

GAM vs LOESS vsスプライン

コンテキスト：パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。次の認識は正しいですか？レスは、特定の値で応答を推定します。スプラインは、データ（一般化された加法モデルを構成する）に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか？

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

8

偶数と奇数を区別するためにニューラルネットワークをトレーニングする

質問：数字自体を入力としてのみ使用して、奇数と偶数を区別するようにNNをトレーニングすることは可能ですか？次のデータセットがあります。 Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 2つの入力ニューロン（変数が1つ、もう1つがバイアスニューロン）、隠れ層の9つのニューロン、非常に単純な遺伝的アルゴリズムを使用して1つの出力ニューロンでNNをトレーニングしました。各エポックで、2組の重み「ファイト" 互いに対して; エラーが最も大きいものが失われ、勝者の修正バージョンに置き換えられます。このスクリプトは、AND、OR、XOR演算子などの単純な問題を簡単に解決しますが、奇数と偶数を分類しようとすると行き詰まります。今のところ、100のうち53の数字を特定するのが最善で、数時間かかりました。入力を正規化してもしなくても、違いはないようです。不正行為をしたい場合は、データを前処理して、％2を入力としてNNにフィードすることもできますが、それはしたくありません。NNは、モジュロ演算子を含むすべての関数を近似できる必要があります（信じています）。私は何を間違えていますか？

14 machine-learning classification categorical-data neural-networks genetic-algorithms

タグ付けされた質問 「classification」

タグ付けされた質問「classification」