SVM分類の方が正確な分類子はどれですか。


10

SVMの分類を学習していますが、問題が発生しています。このジレンマに用語があるかどうかはわかりません。

(両方の性別の)健康な人と(両方の性別の)肝臓がんの人のサンプルを前提として、SVMで患者を分類するとします。健康な人のサンプルをクラス1、癌の人をクラス2とラベル付けすると、バイナリSVMをトレーニングして分類子1を取得し、新しい患者を予測できます。次に、別のシナリオをイメージします。SVM分類の前に、最初にすべてのサンプルを性別で割るとします。性別ごとに、健康な患者と癌患者を2つのクラスに分類し、バイナリSVMをトレーニングして、女性と男性のサンプルの分類子2と分類子3をそれぞれ取得します。問題は、より正確な予測を得るために使用する分類子1または2の新しい女性患者がいるかどうかです。ここに私が持っている議論のジレンマがあります

(1)サンプル数が多い場合、予測はより正確になります。この議論に基づいて、分類子1は良い選択のようです。

(2)ただし、サンプルを最初に女性と男性のグループに分けた場合、新しい患者(未知のテストサンプル)は女性であるため、分類子2の方が適しているようです。

この種のジレンマには用語がありますか、それともこのような問題を解決するための詳細情報や方法を誰かが知っていますか?これが正当な質問であるかどうかさえわかりませんし、事前にナイーブな質問で申し訳ありません。ありがとう


4
これは一般的に答えることができません。おそらく、性別が癌にどの程度影響しているか、サンプル数がどれであるか、どの損失関数を使用しているかなどを知っているとしたら、交差検証を使用して実験する方がはるかに簡単です。
adrianN 2013年

ありがとう。それは理にかなっている。一般的なルールがあるべきではないと思います。
Cassie

これは、「MLを使用してこの問題を解決するにはどうすればよいですか」に関する一般的なMLの質問のように聞こえます。標準的な答えはありません。さまざまなアプローチを試し、どの戦略が最も正確な予測結果につながるかを確認することは、その重要/承認済み/標準です。一般的な見出しは、「抽象MLフレームワークでの実世界の問題の表現」またはおおまかに「モデリング」のようなものであり、優れた標準参照でカバーされています。また、stats.seを
vzn

回答:


2

このプロセスを自動化する機能の選択アルゴリズムを確認する必要があります。MLが初めてで、機能選択プロセス全体を理解していない場合でも問題ありません。適切な直感を得れば、ライブラリを使用してプロセスを自動化できます。

学習アルゴリズムを使用することの重要なアイデアは、パターンを見つけることができるようにすることです...あなたができることのほとんどは、多くの(非冗長)データを提供し、通常はものを含む適切な前処理ステップを提供することで彼を助けます機能選択や正規化のような。

友好的なメモとして、学習アルゴリズムを実装するときは、変更を必要とすることを証明する具体的な指標がない限り、データセットを「見る」だけでデータセットを変更しようとしないでください。アルゴリズムは、分類プロセスにリモートで「関連」しているように見えない機能に高いバイアスをかけました。データに変更を加える前に、必ず特徴選択のステップを実行してください。


1

機械学習プロセスのこのタイプのステップの1つの一般的な見出しは、データの前処理であり、ウィキペディアでは「クリーニング、正規化、変換、特徴の抽出と選択など」が含まれています。

機械学習のもう1つの側面は、「モデルの作成」です。これには、検出されるクラスの数、ML構造の「サイズ」または「次元」の決定(たとえば、「SVMに含めるカーネルの数」など)の決定が含まれます。これは、NNのニューロン数の選択とほぼ同じです。モデル)。残念ながら、一部のrefはこのステップをスキップまたは「グロスオーバー」する傾向があります。ただし、統計との共通点に注意してください。一部の統計の本には、適切な説明があります。

MLタイプのアプローチでは、効果的な前処理とモデリングの両方を決定するための強力な反復/フィードバック/進化的プロセスが存在するのが一般的です。実験者はさまざまな前処理とモデリングのアイデアを試し、より成功したものの方向に進みます。一般的な経験則は、「予測が適切であればあるほど、正確に(そしておそらく現実的にも)前処理とモデリングが行われる」ことですが、過剰適合は慎重に除外されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.