ロジスティック回帰におけるモデルの選択とモデルのパフォーマンスについて質問があります。3つの異なる仮説に基づく3つのモデルがあります。最初の2つのモデル(zとxという名前を付けます)は、各モデルに1つの説明変数のみを持ち、3番目のモデル(wという名前を付けます)はより複雑です。私はwモデルの変数選択にAICを使用し、次に従属変数を最もよく説明する3つのモデルのどれを比較するのにAICを使用しています。wモデルのAICが最も低いことがわかりました。モデルの予測能力についてのアイデアを得るために、そのモデルでいくつかのパフォーマンス統計を実行したいと考えています。私が知っているのは、このモデルは他の2つよりも優れているということですが、それほど優れているわけではありません。
すべてのデータを使用してモデルを学習したので(3つのモデルをすべて比較できるようにするため)、モデルのパフォーマンスをどのようにすればよいですか?私が集めたものから、AICを使用してモデル選択から取得した最終モデルでk分割交差検証を実行することはできませんが、すべての説明変数を含めて最初から開始する必要がありますか?これがAICで選択した最後のモデルだと思いますが、そのパフォーマンスを知りたいのですが、モデルにバイアスがかかる可能性があるため、すべてのデータをトレーニングしたことを実感してください。したがって、すべてのフォールドのすべての説明変数から最初から開始する必要がある場合、いくつかのフォールドに対して異なる最終モデルを取得します。最良の予測力を提供するフォールドからモデルを選択し、それを完全なデータセットに適用して比較できますか?他の2つのモデル(zおよびx)とのAIC?またはそれはどのように機能しますか?
私の質問の2番目の部分は、過剰パラメーター化に関する基本的な質問です。私には156のデータポイントがあり、52は1、残りは0です。wモデルには14の説明変数を選択できますが、パラメーター化が多すぎるため、すべてを含めることはできません。観測値が最も少ない従属変数のグループの10%のみを使用する必要があることを読みました。私にとっては5だけでしょう。生態学の質問に答えようとしていますが、単純に生態学に基づいて従属を最もよく説明していると思う開始変数を選択しても大丈夫ですか?または、開始説明変数をどのように選択しますか?一部の変数を完全に除外するのは適切ではないと感じています。
だから私は本当に3つの質問があります:
- 交差検証を使用して完全なデータセットでトレーニングされたモデルでパフォーマンスをテストしても問題ありませんか?
- そうでない場合、交差検証を行うときに最終的なモデルをどのように選択しますか?
- 開始パラメーターをどのように選択すれば、パラメーター化しすぎますか?
私の乱雑な質問と私の無知のため申し訳ありません。同様の質問がされたことは知っていますが、それでも少し混乱しています。どんな考えや提案にも感謝します。