統計とビッグデータ classification

1

誰かがGiniの不純物と情報獲得を意思決定ツリーにいつ使用するか説明してくれませんか？どのような場合にどの方法を使用するのが最適かについての状況/例を教えていただけますか？

11 machine-learning classification data-mining cart

2

入力が携帯電話アカウントの最初の21日間の時系列音声使用データ（秒単位）である時系列分類問題に取り組んでいます。対応するターゲット変数は、そのアカウントが35〜45日の範囲でキャンセルされたかどうかです。したがって、これはバイナリ分類問題です。これまでに試したすべての方法から（さまざまな程度で）非常に悪い結果が得られます。最初に、k-NN分類（さまざまな変更を加えて）を試しましたが、非常に悪い結果が得られました。これにより、時系列から特徴を抽出することになりました。つまり、平均、分散、最大、最小、合計ゼロ日、合計後続ゼロ日、前半平均と後半平均の差などであり、最も予測的な特徴は合計であるように見えました。ゼロ日と合計末尾ゼロ日（いくつかの分類アルゴリズムを使用）。これは最高のパフォーマンスを示しましたが、パフォーマンスはまだあまり良くありませんでした。次の戦略は、トレーニングセットのネガティブインスタンスが非常に少ないため、オーバーサンプルすることでした。これは、より正確なキャンセル予測をもたらしましたが、より多くの偽陽性を犠牲にしています。おそらく、時系列の使用状況データ自体は単純にあまり予測的ではないと考え始めています（常識では予測すべきであるとされていますが）。おそらく、私が考慮していない潜在的な変数がいくつかあります。データを見ると、奇妙な動作も見られます。つまり、一部の例では使用量がほとんどないか、減少している（またはまったくない）場合があり、キャンセルされない場合や、使用量が増加してキャンセルされる場合があります。おそらく、この矛盾した振る舞いは、分類器の非常に明確な決定境界を生成しません。エラーの別の考えられる原因は、多くのトレーニング例が非常にまばらであるという事実です（つまり、使用量がゼロの状態で何日も）。私がまだ試していないアイデアの1つは、時系列をセグメントに分割し、いくつかの機能をそのように生成することですが、あまり望んでいません。

11 time-series classification

2

AUROCまたは精度に基づいて分類子を比較しますか？

バイナリ分類の問題があり、さまざまな分類子を実験しています。分類子を比較したいのですが。AUCまたは精度のどちらが優れているか。なぜ？ Raondom Forest: AUC: 0.828 Accuracy: 79.6667 % SVM: AUC: 0.542 Accuracy: 85.6667 %

11 machine-learning classification auc

2

分類問題におけるクラス分離可能性の測定

線形判別学習者におけるクラス分離可能性の良い尺度の例は、フィッシャーの線形判別比です。機能セットがターゲット変数間の適切なクラス分離を提供するかどうかを判断するために他に役立つメトリックはありますか？特に、ターゲットクラスの分離を最大化するための適切な多変量入力属性を見つけることに関心があり、優れた分離可能性を提供するかどうかをすばやく判断するための非線形/ノンパラメトリック測定値があると便利です。

11 machine-learning classification feature-selection discriminant-analysis

3

ロジスティック回帰における変数の重要性

私はおそらく以前に100回解決された問題を扱っていますが、どこで答えを見つけることができるかわかりません。ロジスティック回帰を使用するとき、多くの特徴与えられ、バイナリのカテゴリ値を予測しようとすると、よく予測する特徴のサブセットを選択することに興味があります。 y yバツ1、。。。、xんx1,...,xnx_1,...,x_nyyyyyy 投げ縄に似た使用可能な手順はありますか？（線形回帰に使用されるなげなわを見ただけです。）適合モデルの係数を見て、さまざまな特徴の重要性を示していますか？編集-いくつかの回答を見た後の説明：当てはめられた係数の大きさについて言及するときは、正規化された（平均0および分散1）特徴に当てはめられたものを意味します。そうでない場合、@ probabilityislogicが指摘したように、1000xはxよりも重要度が低いように見えます。（@Davideが提供していたように）最良のkサブセットを単に見つけることに興味はありませんが、さまざまな機能の相互の重要性を比較検討しています。たとえば、1つの機能は「年齢」で、もう1つの機能は「年齢> 30」です。それらの段階的な重要性は小さいかもしれませんが、両方とも重要かもしれません。

11 machine-learning logistic classification

2

分類のためのSVMでのAdaboostの使用

Adaboostが一連の弱い分類子の線形結合を使用して強い分類子を生成しようとしていることを知っています。ただし、特定の状況や状況で AdaboostとSVMが協調して機能することを示唆するいくつかの論文を読んだことがあります（SVMは強力な分類子ですが）。アーキテクチャとプログラミングの観点から、それらがどのように組み合わさって機能するかを理解することはできません。私は多くの論文（たぶん間違ったもの）を読みましたが、それらがどのように連携するかを明確に説明していませんでした。誰かが効果的な分類のために組み合わせてどのように機能するかについていくつかの光を投げることができますか？いくつかの論文/記事/ジャーナルへのポインタもいただければ幸いです。

11 classification svm references boosting

4

いくつかの接続を削除することで、より良いANNを取得できますか？

たとえば、以下のように接続を削除すると、状況によってANNのパフォーマンスが向上するかどうか疑問に思っていました。 2つの多層ANNのAとBを並列に（同じ入力ノードと出力ノードで）取り、1つのANNを構築して、AとBの隠れた層の間にいくつかの「通信」接続を追加しますか？より良い一般化の結果を得ることができますか？これはどういうわけか実際に使用されているのですか、それとも常に多層の完全に接続されたネットワークを使用しているだけですか？

11 classification neural-networks

1

2クラスモデルのマルチクラス問題への拡張

Adaboostに関するこのペーパーでは、2クラスモデルをKクラスの問題に拡張するための提案とコード（17ページ）を示します。このコードを一般化して、さまざまな2クラスモデルを簡単にプラグインして結果を比較できるようにします。ほとんどの分類モデルには数式インターフェースとpredictメソッドがあるため、これの一部は比較的簡単なはずです。残念ながら、2クラスモデルからクラス確率を抽出する標準的な方法が見つからないため、各モデルにはカスタムコードが必要になります。 Kクラス問題を2クラス問題に分解し、Kモデルを返すために私が書いた関数は次のとおりです。 oneVsAll <- function(X,Y,FUN,...) { models <- lapply(unique(Y), function(x) { name <- as.character(x) .Target <- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat <- data.frame(.Target, X) model <- FUN(.Target~., data=dat, ...) return(model) }) names(models) <- unique(Y) info <- list(X=X, Y=Y, classes=unique(Y)) out <- list(models=models, info=info) class(out) <- 'oneVsAll' return(out) } これは、各モデルを反復処理して予測を行うために私が書いた予測方法です。 predict.oneVsAll <- …

11 r machine-learning classification statistical-learning multi-class

3

映画の評価予測のための分類モデル

私はデータマイニングにいくらか慣れていません。映画の評価予測の分類モデルに取り組んでいます。 IMDBからデータセットを収集しましたが、モデルには決定木と最近傍アプローチを使用する予定です。自由に利用できるデータマイニングツールで、必要な機能を提供できるかどうか知りたいのですが。

11 classification cart

2

分類ツリー（rpart内）を一連のルールに編成していますか？

（Rの）rpartを使用して複雑な分類ツリーが構築されたら、各クラスに対して生成された決定ルールを整理する方法はありますか？では、1つの巨大なツリーを取得する代わりに、クラスごとに一連のルールを取得しますか？（もしそうなら、どうですか？）以下に、例を示す簡単なコード例を示します。 fit <- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis) ありがとう。

11 r classification cart rpart

3

スパースな予測子と応答を使用するCARTのようなメソッドに使用できるライブラリはありますか？

私は、Rのgbmパッケージを使用していくつかの大きなデータセットを処理しています。予測子行列と応答ベクトルの両方がかなりスパースです（つまり、ほとんどのエントリがゼロです）。ここで行ったように、この疎性を利用するアルゴリズムを使用して決定木を構築したいと思っていました。その論文では、私の状況と同様に、ほとんどのアイテムは多くの可能な機能のほんの一部しか持っていないため、データで明示的に示されていない限り、アイテムに特定の機能がないと想定することで、多くの無駄な計算を回避できました。私の希望は、この種のアルゴリズムを使用して同様の高速化を実現できることです（そして、予測精度を向上させるために、ブースティングアルゴリズムをラップします）。彼らは自分のコードを公開していないようだったので、この場合に最適化されたオープンソースのパッケージまたはライブラリ（任意の言語）があるかどうか疑問に思っていました。理想的には、RのMatrixパッケージからスパース行列を直接取得できるものを望みますが、取得できるものは取得します。私は周りを見回しました、そしてこの種のものはそこにあるはずです：化学者はこの問題に頻繁に遭遇するようです（上でリンクした論文は、新しい薬物化合物を見つけることを学ぶことに関するものでした）。ただし、そのうちの1つを転用することもできます。ドキュメント分類は、スパースフィーチャスペースからの学習が役立つ領域でもあるようです（ほとんどのドキュメントにはほとんどの単語が含まれていません）。たとえば、このペーパーでは、C4.5（CARTのようなアルゴリズム）のスパース実装への斜めの参照がありますが、コードはありません。メーリングリストによると、WEKAはスパースデータを受け入れることができますが、上記でリンクした論文の方法とは異なり、WEKAはCPUサイクルの浪費を回避するという点で実際にそれを利用するように最適化されていません。前もって感謝します！

11 r regression machine-learning classification cart

2

音声分類のための畳み込み深い信念ネットワークを理解するにはどうすればよいですか？

「では、階層表現のスケーラブルな教師なし学習のためのたたみ込みの深い信念ネットワーク Leeらによる」。al。（PDF）たたみ込みDBNが提案されています。また、メソッドは画像分類のために評価されます。小さなコーナーやエッジなどの自然なローカル画像機能があるため、これは論理的に聞こえます。で、「教師なし機能畳み込み深い信念ネットワークを使用してオーディオ分類のための学習・リーらによって」。al。この方法は、さまざまなタイプの分類のオーディオに適用されます。話者識別、性別識別、電話分類、およびいくつかの音楽ジャンル/アーティスト分類。このネットワークのたたみ込み部分は、画像をエッジとして説明できるように、音声に対してどのように解釈できますか？

11 classification unsupervised-learning intuition deep-belief-networks

3

なぜk最近傍分類器に合わせる必要があるのですか？

私が理解したように、k-NNは遅延学習アルゴリズムであり、トレーニングフェーズを必要としません。では、なぜ.fit()sklearn を使用する必要があるのでしょうか。それを使用するとどうなりますか？

11 classification scikit-learn k-nearest-neighbour

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

文字列パターンを学習するための機械学習手法

自分で定義したさまざまなカテゴリに属する単語のリストがあります。各カテゴリには独自のパターンがあります（たとえば、1つは特殊文字を含む固定長で、もう1つはこの「単語」のカテゴリでのみ発生する文字の存在です...）。例えば： "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... 私は、トレーニングデータに基づいて、これらのパターンを独自に学習するための機械学習手法を探しています。私はすでに自分でいくつかの予測変数（たとえば、語長、特殊文字の数など）を定義しようとし、ニューラルネットワークを使用してカテゴリを学習および予測しました。しかし、それは実際には私が望むものではありません。各カテゴリーのパターンを自分で習得するテクニック、つまり、私が考えたこともないパターンを習得するテクニックも必要です。したがって、アルゴリズム学習データ（単語カテゴリの例からなる）を指定し、各カテゴリのパターンを学習して、後で類似または等しい単語からカテゴリを予測するようにします。それを行うための最先端の方法はありますか？ご協力いただきありがとうございます

11 machine-learning classification similarities supervised-learning

タグ付けされた質問 「classification」

タグ付けされた質問「classification」