すべての種分布モデリングの文献では、確率を出力するモデル(RandomForestsなど)を使用して種の存在/不在を予測するときに、実際に種を存在または不在として分類するためのしきい値確率の選択が重要であり、常にデフォルトの0.5に依存するわけではありません。これについて少し助けが必要です!これが私のコードです:
library(randomForest)
library(PresenceAbsence)
#build model
RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500)
#eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted
RFpred <- predict(RFfit, mydata, type = "prob")
#put the observed vs. predicted in the same dataframe
ObsPred <- data.frame(cbind(mydata), Predicted=RFpred)
#create auc.roc plot
auc.roc.plot(ObsPred, threshold = 10, xlab="1-Specificity (false positives)",
ylab="Sensitivity (true positives)", main="ROC plot", color=TRUE,
find.auc=TRUE, opt.thresholds=TRUE, opt.methods=9)
これから、予測された確率から存在を分類するために使用したいしきい値は、デフォルトの0.5ではなく0.7であると判断しました。私はこの情報をどうするかを完全に理解していません。出力のマップを作成するときにこのしきい値を使用するだけですか?連続的な確率でマップされた出力を簡単に作成し、0.7より大きい値を持つものを現在として再分類し、<0.7がないものとして再分類することができます。
または、この情報を取得して、カットオフパラメーターを使用してrandomForestsモデリングを再実行しますか?カットオフパラメータは正確には何をしているのですか?結果の投票は変わりますか?(現在は「マジョリティ」と言われています)。このカットオフパラメータはどのように使用しますか?ドキュメントが理解できません!ありがとう!