最初に、私は通常、1つしかない という発言に注意することは良いことだと思います。何かをする方法。取得したサンプルを「トレーニング」と「テスト」のデータセットに分割することは、多くの機械学習/データサイエンスアプリケーションで一般的なアプローチです。多くの場合、これらのモデリングアプローチは、基礎となるデータ生成プロセスに関する仮説テストにはあまり関心がありません。実際、ほとんどの場合、この種のトレーニング/テスト分割は、予測パフォーマンスに関してモデルが過剰適合しているかどうかを確認したいだけです。もちろん、トレーニング/テストアプローチを使用して、特定のモデルがどのパラメーターが「有意」であるかに関して再現するかどうか、またはパラメーターの推定値が両方のインスタンスで期待される範囲内にあるかどうかを確認することもできます。
理論的には、モデルを検証または無効化することは、大規模な科学が行うことになっているものです。独立した研究者。観察可能な現象が発生する理由または状況下の理論についての議論を支持または否定する仮説を個別に調査、生成、およびテストします。したがって、あなたの質問に答えるために、私にとって、トレーニング/テストの分割でさえモデルを「検証」することはありません。これは、同じ一連の現象を研究している複数の独立した研究者から集められた何年もの証拠の重みがかかるものです。ただし、このテイクは、モデルの検証の意味と、適用された設定での検証という用語の意味についての意味論の違いの可能性があることを認めます...
データとモデリングのアプローチによっては、統計的な観点から、サンプルをトレーニングセットとテストセットに分割することが常に適切であるとは限りません。たとえば、小さなサンプルは、このアプローチを適用するのが特に難しい場合があります。さらに、一部の分布には特定のプロパティがあり、比較的大きなサンプルでもモデル化が困難な場合があります。ゼロ膨張のケースは、おそらくこの後者の説明に適合します。目的が、ある現象を説明すると考えられている一連の関係または基礎となるプロセスについての「真実」の概算に到達することである場合、所定の仮説をテストするための十分に能力のないアプローチを意図的に採用することはうまくいきません。したがって、おそらく最初のステップは、電力分析を実行して、サブセット化されたデータに関心のある結果を再現できるかどうかを確認することです。
別のオプションは、いくつかのモデルを指定して、観測されたデータを「よりよく」説明するかどうかを確認することです。ここでの目標は、一連の合理的な選択肢の中から最良のモデルを特定することです。これは、絶対的なものではなく、相対的なものであり、モデルについての議論です。基本的に、データを説明するためにポジショニングできる他のモデルが存在する可能性があることを認めていますが、そのモデルはテスト済みの代替セットの中で最高です(少なくともそう望んでいます)。セット内のすべてのモデル(仮説モデルを含む)は理論的に接地する必要があります。さもなければ、統計的なストローマンの束をセットアップするリスクを冒します。
代替シナリオと比較した特定の仮説について、データが与えられると、モデルが提供する証拠の重みを計算できるベイズ因子もあります。
これはオプションの完全なリストからはほど遠いですが、それが役に立てば幸いです。今からsoapboxを辞任します。人間の行動に関するすべての発表された研究のすべてのモデルが正しくないことを覚えておいてください。ほとんどの場合、関連する省略された変数、モデル化されていない相互作用、不完全にサンプリングされた母集団、および根底にある真実を不明瞭にするだけの単純な古いサンプリングエラーがあります。