パフォーマンスをバックテストしたい予測モデルがいくつかあります(つまり、データセットを取得し、それを前の時点に「巻き戻し」、モデルがどのように予測的に実行されたかを確認します)。
問題は、私のモデルの一部がインタラクティブなプロセスを介して構築されたことです。たとえば、フランクハレルの回帰モデリング戦略のアドバイスに従って、1つのモデルで制限された3次スプラインを使用して、機能と応答の間の可能な非線形の関連付けを処理しました。ドメインの知識と関連の強さの一変量の測定値の組み合わせに基づいて、各スプラインの自由度を割り当てました。しかし、モデルに許可したい自由度は、データセットのサイズに明らかに依存します。これは、バックテスト時に大幅に変化します。モデルがバックテストされるたびに自由度を個別に選択したくない場合、他のオプションは何ですか?
別の例として、私は現在、高いレバレッジでポイントを見つけることによる外れ値の検出に取り組んでいます。手作業でこれを実行できた場合は、レバレッジの高い各データポイントを確認し、データがクリーンであることをサニティチェックして、フィルターで取り除くか、手動でクリーンアップします。しかし、これは一連のドメイン知識に依存しているため、プロセスを自動化する方法がわかりません。
(a)モデル作成プロセスのインタラクティブな部分を自動化する一般的な問題に対するアドバイスと解決策、または(b)これら2つのケースに対する特定のアドバイスの両方をいただければ幸いです。ありがとう!