回答:
より良いアプローチは、シミュレーションによってp値の重要な値を計算することです。問題は、仮説値を使用するのではなく、データからパラメーターを推定する場合、KS統計の分布がヌル分布に従わないことです。
代わりに、KSテストのp値を無視し、代わりに実際のデータと同じサイズの(有意なパラメーターのセットを持つ)候補分布から多数のデータセットをシミュレートできます。次に、各セットに対してパラメーターを推定し、推定されたパラメーターを使用してKSテストを実行します。p値は、元のデータよりも多くのツリーであるシミュレートされたセットのテスト統計の割合になります。
サンプルの分割は、おそらく統計の分布に関する問題を軽減するかもしれませんが、それを除去しません。
あなたのアイデアは、推定値が同じサンプルに基づいているため、推定値が母集団値に対して「近すぎる」という問題を回避します。
あなたは彼らがまだ推定している問題を避けていません。検定統計量の分布は表形式のものではありません。
この場合、nullの下で拒否率を劇的に低下させる代わりに増加させます。
より良い選択は、Shapiro Wilkなど、パラメーターが既知であると想定されていないテストを使用することです。
コルモゴロフ-スミルノフ型のテストに結婚しているなら、リリーフォースのテストのアプローチを取ることができます。
つまり、KS統計を使用するが、テスト統計の分布にパラメーター推定の効果を反映させるには、パラメーター推定の下でテスト統計の分布をシミュレートします。(もはやディストリビューションフリーではないため、ディストリビューションごとに新しいテーブルが必要です。)
http://en.wikipedia.org/wiki/Lilliefors_test
Lilieforsは正規および指数関数の場合にシミュレーションを使用しましたが、特定の分布に対しては簡単に実行できます。Rのようなものでは、10,000または100,000のサンプルをシミュレートし、nullの下で検定統計量の分布を取得するのはほんの一瞬です。
[代替案は、アンダーソン・ダーリングを検討することかもしれません。アンダーソン・ダーリングは、同じ問題を持っていますが、ダゴスティーノとスティーブンスの本から判断して(適合技術)それほど敏感ではないようです。Lillieforsのアイデアを採用することもできますが、比較的簡単に調整でき、かなりうまくいくようです。]
しかし、まだ他のアプローチがあります。適合度の滑らかなテストのファミリーがあります。たとえば、多くの特定のケースでパラメーター推定を処理できる(たとえば、Rayner and Bestの本を参照)。
*効果はまだかなり大きくなる可能性があります-おそらく通常受け入れられると見なされるよりも大きいです。モモはそれについて懸念を表明する権利があります。より高いタイプIエラー率(およびより平坦な電力曲線)が問題である場合、これは改善されない可能性があります!
問題が解決しないのではないかと心配しています。問題は、パラメータが同じサンプルからではなく、すべてのサンプルから推定されることだと思います。KSテストの通常のヌル分布の導出では、参照分布のパラメーターの推定誤差は考慮されませんが、与えられたとおりに表示されます。Durbin 1973も参照してください。Durbinは、この問題について詳細に議論し、解決策を提供しています。