目的が分類コンテキストで興味深い予測因子を分離することである場合、ランダムフォレストやペナルティ付き回帰(ペナルティ付き回帰(L1またはL2ペナルティ、またはそれらの組み合わせ))などの機械学習手法を小規模サンプル臨床研究に適用することについてどう思いますか?モデルの選択に関する問題ではなく、変数の効果/重要性の最適な推定値を見つける方法についても質問していません。強力な推論を行うつもりはありませんが、多変量モデリングを使用するだけであるため、各予測変数を一度に1つずつ対象の結果に対してテストすることを避け、それらの相互関係を考慮に入れます。
この特定の極端なケースで、そのようなアプローチが既に適用されているのかと思っていました。たとえば、10〜15のカテゴリ変数または連続変数のデータを持つ20〜30の被験者です。それは正確にはない場合、私はここでの問題は、(多くの場合、うまくバランスされていない)私たちが説明しようとするクラスの数に関係していると思うし、(非常に)小さなN。私はバイオインフォマティクスの文脈でこのトピックに関する膨大な文献を知っていますが、心理測定的に測定された表現型を用いた生物医学研究に関連する参考文献は見つかりませんでした(例:神経心理学的アンケートを通して)。
関連する論文へのヒントや指針はありますか?
更新
この種のデータを分析するためのその他のソリューション、たとえばC4.5アルゴリズムまたはその派生物、アソシエーションルールメソッド、および教師付きまたは半教師付き分類のためのデータマイニング手法を受け入れています。