6
機械学習で相互検証を実行する際の「最終」モデルの機能選択
機能の選択と機械学習について少し混乱しているので、手伝ってくれないかと思っていました。2つのグループに分類され、1000の機能を持つマイクロアレイデータセットがあります。私の目的は、理論的に他のデータセットに適用してそれらのサンプルを最適に分類できるシグネチャで少数の遺伝子(私の特徴)(10-20)を取得することです。サンプル数が少ないため(<100)、テストとトレーニングセットを使用せず、Leave-one-outクロス検証を使用して堅牢性を判断しています。サンプルの分割ごとに特徴選択を実行する必要があることを読みました。 テストセットとして1つのサンプルを選択します 残りのサンプルで機能選択を実行します 選択した機能を使用して、機械学習アルゴリズムを残りのサンプルに適用します テストセットが正しく分類されているかどうかをテストします 1に進みます。 これを行うと、毎回異なる遺伝子を取得する可能性があります。それでは、「最終的な」最適な遺伝子分類子をどのように取得しますか。すなわち、ステップ6とは何ですか。 最適とは、今後の研究で使用すべき遺伝子のコレクションです。たとえば、癌/正常なデータセットがあり、SVMに従って腫瘍タイプを分類する上位10の遺伝子を見つけたいとします。診断テストとして使用できるかどうかを確認するために、さらなる実験で使用できる遺伝子とSVMパラメータのセットを知りたいです。