糖尿病のSVM分類の改善
私はSVMを使用して糖尿病を予測しています。この目的でBRFSSデータセットを使用しています。データセットの次元はであり、歪んでいます。ターゲット変数のs のパーセンテージはで、sは残りの構成します。11 %89 %432607×136432607×136432607 \times 136Y11%11%11\%N89%89%89\% データセットの独立変数の15うち、使用しているのは私だけです136。データセットを減らす理由の1つは、NAs を含む行が省略されたときにトレーニングサンプルを増やすことでした。 これらの15変数は、ランダムツリー、ロジスティック回帰などの統計的手法を実行し、結果のモデルからどの変数が重要であるかを見つけた後に選択されました。たとえば、ロジスティック回帰を実行した後p-value、最も重要な変数を並べ替えるために使用しました。 変数の選択を行う私の方法は正しいですか?への提案は大歓迎です。 以下は私のR実装です。 library(e1071) # Support Vector Machines #-------------------------------------------------------------------- # read brfss file (huge 135 MB file) #-------------------------------------------------------------------- y <- read.csv("http://www.hofroe.net/stat579/brfss%2009/brfss-2009-clean.csv") indicator <- c("DIABETE2", "GENHLTH", "PERSDOC2", "SEX", "FLUSHOT3", "PNEUVAC3", "X_RFHYPE5", "X_RFCHOL", "RACE2", "X_SMOKER3", "X_AGE_G", "X_BMI4CAT", "X_INCOMG", "X_RFDRHV3", "X_RFDRHV3", "X_STATE"); target <- "DIABETE2"; …