タグ付けされた質問 「classification」

統計的分類は、サブ母集団が既知である観測を含むデータのトレーニングセットに基づいて、サブ母集団のアイデンティティが不明な場合に、新しい観測が属するサブ母集団を識別する問題です。したがって、これらの分類は、統計学によって研究することができる変数の動作を示します。


8
テストデータがトレーニングデータに漏れないようにする方法を教えてください。
予測モデルを構築している人がいると仮定しますが、その人は必ずしも適切な統計的または機械学習の原則に精通しているとは限りません。たぶん私たちは学習中のその人を助けているかもしれませんし、あるいはその人は使用するのに最低限の知識しか必要としない何らかのソフトウェアパッケージを使っているかもしれません。 この人は、実際のテストがサンプル外の精度(またはその他のメトリック)に由来することを非常によく認識するかもしれませんデータの。しかし、私の懸念は、心配する微妙な点があることです。単純な場合、彼らはモデルを構築し、トレーニングデータで評価し、保留されているテストデータで評価します。残念ながら、その時点で戻ってモデル化パラメーターを微調整し、同じ「テスト」データで結果を確認するのは非常に簡単な場合があります。この時点で、データはもはやサンプル外のデータではなく、オーバーフィッティングが問題になる可能性があります。 この問題を解決する1つの潜在的な方法は、多くのサンプル外のデータセットを作成して、各テストデータセットを使用後に破棄し、まったく再利用しないようにすることです。ただし、これには多くのデータ管理が必要です。特に、分析の前に分割を行う必要があります(したがって、事前に分割数を知る必要があります)。 おそらく、従来のアプローチはk倍交差検証です。しかし、ある意味では、特にまだ学習している人にとって有用だと思う「トレーニング」と「テスト」のデータセットの区別を失います。また、これはすべてのタイプの予測モデルに意味があるとは確信していません。 経験の浅いユーザーにはまだある程度明確でありながら、オーバーフィットと漏れのテストの問題を克服するために見落としている方法はありますか?

6
Rのロジスティック回帰の代替
ロジスティック回帰と同じタスクを実行する多くのアルゴリズムが欲しいです。それは、説明変数(X)を使用してバイナリ応答(Y)に予測を与えることができるアルゴリズム/モデルです。 アルゴリズムに名前を付けた後、Rでそれを実装する方法も示すことができれば嬉しいです。他のモデルで更新できるコードは次のとおりです。 set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" function')

5
機械学習で不均衡なデータが本当に問題になるのはいつですか?
ロジスティック回帰、SVM、決定木、バギング、およびその他の類似の質問を使用する際に、不均衡なデータについて複数の質問がありました。これが非常に人気のあるトピックです。残念ながら、各質問はアルゴリズム固有であるようで、不均衡なデータを扱うための一般的なガイドラインは見つかりませんでした。 不均衡なデータを扱うMarc Claesenの回答の1つを引用 (...)学習方法に大きく依存します。ほとんどの汎用アプローチには、これに対処する1つ(または複数の)方法があります。 しかし、データの不均衡について正確に心配する必要があるのはいつですか?主に影響を受けるのはどのアルゴリズムで、どのアルゴリズムを処理できますか?データのバランスを取るためにどのアルゴリズムが必要ですか?このようなQ&Aサイトでは、各アルゴリズムについて議論することは不可能であることを認識しています。むしろ、いつ問題になるかについての一般的なガイドラインを探しています。

6
強く不均衡なクラスを持つバイナリ分類
私は(機能、バイナリ出力0または1)の形式のデータセットを持っていますが、1はほとんど発生しないため、常に0を予測するだけで、70%と90%の間の精度が得られます(見ている特定のデータに応じて)。MLメソッドは、ほぼ同じ精度を与えてくれます。この状況に適用する標準的なメソッドがいくつかあるべきだと思います。これにより、明白な予測ルールよりも精度が向上します。



4
分類確率のしきい値
一般的な分類に関する質問があります。fを分類器とし、データDが与えられた場合に確率のセットを出力します。通常、P(c | D)> 0.5の場合、クラス1を割り当てます。分類)。 私の質問は、もし私が見つけたら、確率を1として分類する場合、つまり0.2よりも大きい場合、分類器のパフォーマンスは向上するということです。分類を行うときにこの新しいしきい値を使用するのは正当ですか? 私は、より小さな信号を発するデータのコンテキストで、より低い分類の必要性を解釈します。まだ分​​類問題にとって重要です。 私はこれがそれを行う1つの方法であると認識していますが、これが正しい思考ではない場合、個々の機能を同様に強調し、しきい値を0.5に保つことができるデータ変換は何ですか?

3
ロジスティック回帰が線形分類器であるのはなぜですか?
ロジスティック関数を使用して入力の線形結合を非線形出力に変換しているので、ロジスティック回帰を線形分類器とみなすにはどうすればよいですか? 線形回帰は、隠れ層のないニューラルネットワークのようなものです。なぜニューラルネットワークは非線形分類器と見なされ、ロジスティック回帰は線形なのでしょうか。

2
サポートベクターマシン用の線形カーネルと非線形カーネル?
サポートベクターマシンを使用する場合、RBFのような線形カーネルと非線形カーネルの選択に関するガイドラインはありますか?特徴の数が多くなると、非線形カーネルはうまく機能しない傾向があると聞いたことがあります。この問題に関する参照はありますか?

2
ランダムフォレストの仮定
ランダムフォレストは初めてなので、基本的な概念にまだ苦労しています。 線形回帰では、独立した観測、一定の分散… ランダムフォレストを使用する場合の基本的な仮定/仮説は何ですか? モデルの仮定に関して、ランダムフォレストとナイーブベイの主な違いは何ですか?

6
時系列分類の機能
可変長時系列に基づく(マルチクラス)分類の問題、つまり、関数 、に依存しない固定サイズ の選択された特徴セットによるタイムセリエのグローバル表現、 そしてこの機能セットで標準の分類方法を使用します。 予測、つまり予測に興味がないF (X T)= Y ∈ [ 1 .. K ]TTTV I D T φ (X T)= V 1、... 、vのD ∈ R、xはT + 1f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ \text{for } X_T = (x_1, \dots, x_T)\\ \text{with } x_t \in \mathbb{R}^d ~, …

4
不均衡なデータに対する決定ツリーのトレーニング
私はデータマイニングが初めてであり、非常に不均衡なデータセットに対してデシジョンツリーをトレーニングしようとしています。ただし、予測精度が低いという問題があります。 データはコースを学習している学生で構成され、クラス変数はコースのステータスであり、2つの値(撤回済みまたは現在)があります。 年齢 人種 性別 コース ... コース状況 データセットには、撤回されたよりも多くの現在のインスタンスがあります。撤回されたインスタンスは、合計インスタンスの2%のみを占めます。 人が将来撤退する確率を予測できるモデルを構築したいと考えています。ただし、トレーニングデータに対してモデルをテストする場合、モデルの精度はひどいです。 データが1つまたは2つのクラスに支配されているディシジョンツリーでも同様の問題が発生しました。 この問題を解決し、より正確な分類器を構築するには、どのアプローチを使用できますか?

6
なぜダウンサンプリングするのですか?
電子メールがスパムかどうかを予測する分類子を学習したいとします。そして、メールの1%のみがスパムであるとします。 最も簡単な方法は、メールはどれもスパムではないという単純な分類法を学ぶことです。この分類子は99%の精度を提供しますが、興味深いことは何も学習せず、100%の誤検出率を持ちます。 この問題を解決するために、人々は「ダウンサンプル」するか、例の50%がスパムであり、50%がスパムではないデータのサブセットで学習するように私に言っています。 しかし、このアプローチを心配しています。この分類子を構築して、実際の電子メールのコーパスで使用を開始すると(50/50テストセットではなく)、多くの電子メールがスパムであると予測される可能性があるためです本当にない。データセットに実際に存在するよりもはるかに多くのスパムを見ることに慣れているからです。 それでは、この問題をどのように修正するのでしょうか? (「アップサンプリング」、または肯定的なトレーニングの例を複数回繰り返して、データの50%が肯定的なトレーニングの例になるようにすると、同様の問題が発生するようです。)

9
Fメジャー値の解釈方法
fメジャー値の違いを解釈する方法を知りたいです。f-measureは精度とリコールのバランスのとれた平均であることは知っていますが、F-measureの違いの実際的な意味について尋ねています。 たとえば、分類器C1の精度が0.4で、別の分類器C2の精度が0.8である場合、C2はC1と比較して2種類のテスト例を正しく分類したと言えます。ただし、ある分類器の分類器C1のF尺度が0.4であり、別の分類器C2のF尺度が0.8である場合、2つの分類器のパフォーマンスの違いについて何を述べることができますか?C2がC1よりもX個のインスタンスを正しく分類していると言えますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.