約5,000の相関関係のある特徴/共変量とバイナリ応答のデータセットがあります。データは私に与えられました、私はそれを集めませんでした。ラッソとグラディエントブースティングを使用してモデルを構築しています。私は反復されたネストされた相互検証を使用しています。Lassoの最大(絶対)40係数と、勾配ブーストツリーの40の最も重要な機能を報告します(40について特別なことは何もありませんでした。これは、妥当な量の情報であるように思われました)。また、CVのフォールドと反復におけるこれらの量の分散についても報告します。
私は「重要な」機能について少し考え、p値や因果関係などについては何も述べていませんが、代わりにこのプロセスをある種の---不完全でランダムなものである-何らかの現象への洞察と見なしています。
私がこれをすべて正しく行ったと仮定すると(たとえば、相互検証を正しく実行し、投げ縄用にスケーリングした)、このアプローチは妥当ですか?たとえば、複数の仮説検定、事後分析、誤った発見などの問題はありますか?または他の問題?
目的
有害事象の確率を予測する
- まず、正確に確率を推定する
- よりマイナー-健全性チェックとしてだけでなく、さらに調査できるいくつかの新しい予測子を明らかにするために、上記のように係数と重要性を検査します。
消費者
- このイベントの予測に関心のある研究者、およびイベントが発生した場合にイベントを修正する必要のある人々
彼らがそれから抜け出してほしいもの
説明されているように、独自のデータを使用してモデリングプロセスを繰り返したい場合は、イベントを予測する機能を提供します。
予想外の予測因子に光を当てる。たとえば、完全に予期しないことが最良の予測因子であることが判明する場合があります。したがって、他の場所のモデラーは、この予測子をより真剣に検討するかもしれません。