適合度検定:Anderson–Darling検定およびCramér–von Mises基準に関する質問


10

Anderson–Darling検定Cramér–von Mises基準に来たとき、適合度検定のWebページを読んでいます。

これまでのところ私は要点を得ました。アンダーソンダーリング検定とクラメールフォンミーゼス基準は似ていますが、重み関数異なるだけです。また、ワトソン検定と呼ばれるクラメル・フォン・ミーゼス基準の変形があります。w

基本的に私はここに2つの質問があります

  1. これらの2つの方法に関するGoogleの結果は多くありません。彼らはまだ最先端のものですか?またはすでにいくつかのより良いアプローチに置き換えられましたか?

    Shapiro–Wilk、Kolmogorov–Smirnov、LillieforsおよびAnderson-Darlingの各テストの電力比較に関するこの論文によると、ADは非常にうまく機能しています。LillieforsとKSより常に優れており、特に正規分布用に設計されたSWテストに非常に近い。

  2. そのようなテストの信頼区間はどのくらいですか?

    AD、CM、およびワトソンテストでは、wikiページで定義されたテスト統計変数を確認しましたが、信頼区間が見つかりませんでした。

    KSテストの方が簡単です。Wikiページでは、信頼区間はによって定義されます。これは累積分布関数から定義されます。KαK

回答:


4

適合度を評価するための最先端の技術は存在しません(たとえば、一般的な代替案に対するUMPテストは存在せず、実際には何も近づきません-高く評価されているオムニバステストでさえ、状況によってはひどい力を発揮します)。

一般に、テスト統計を選択するときは、その仕事に適したテスト統計を検出して使用することが最も重要である偏差の種類を選択します。いくつかのテストは、さまざまな興味深い代替手段で非常にうまく機能し、適切なデフォルトの選択になっていますが、「最先端」にはなりません。

アンダーソンダーリングはまだ非常に人気があり、それには正当な理由があります。Cramer-von Misesテストは最近あまり使用されていません(驚いたことに、通常Kolmogorov-Smirnovよりも優れていますが、Anderson-Darlingよりも単純です。配布)

これらのテストはすべて、ある種の代替案に対するバイアスに悩まされており、アンダーソンダーリングが他のテストよりも(ひどく、実際に)はるかに悪いケースを見つけるのは簡単です。(私が提案するように、すべてを支配するのは1つのテストよりも「コースの馬」です)。多くの場合、この問題はほとんど考慮されません(私にとって最も重要な逸脱を特定するのに最適な方法は何ですか?)。

あなたはこれらの投稿のいくつかでいくつかの価値を見つけるかもしれません:

Shapiro–Wilkは最高の正規性テストですか?なぜそれがアンダーソン・ダーリングのような他のテストよりも優れているのでしょうか?

2 Kolmogorov-Smirnov対Anderson-Darling対Cramer-von-Misesのサンプル(約2標本のテストですが、ステートメントの多くが引き継がれます)

分布間のコルモゴロフ距離の動機(より理論的な議論ですが、実際的な影響についていくつかの重要な点があります)


Cramer-von Mises統計とAnderson Darline統計でcdfの信頼区間を形成することはできないと思います。基準が最大ではなくすべての偏差に基づいているためです。


「最先端」とは、陳腐化していない用途を見つけるものを意味します。複数の適合度定義の存在は、適合度が単一の概念ではないことを私たちに知らせます。「良い」は、回帰を実行する「理由」に依存すると考えてください。モデルAをデータBにフィッティングして、効果Cの最良の予測因子を取得するとします。次に、「良い」はBではなくCの最良の予測因子です。しかし、ほとんどの場合、BとCの違いの問題は無視されます。
カール

1
@Carlあなたは辞書(またはWikipedia)をチェックして、通常、最先端の技術が何を意味しているのかを確認することができます-フレーズの解釈は、ほとんどの人がフレーズを読む方法ではありません。辞書には、「最新のアイデアを取り入れた最新の開発段階」、「ある時点での最高レベルの開発」、「最新のテクノロジーを使用した最先端」などと書かれています。この文脈で-適合度のテスト-このフレーズは、「現時点で私たちがおそらくできる最善のこと」を意味します。これは、単一のテストについて実際に言えることではないと主張します。... ctd
Glen_b-モニカを再開する

2
...例Shapiro-Wilkのような人気のあるテスト(正常性のテストでは非常に人気があります)は、はるかに優れたパワーを持つ競合他社を持っていると言えます(例:Shapiro&Chen 1995を参照)-すべての状況ではありません。テストの最良の選択は1つだけではありません(したがって、実際の「最先端」もありません)。確かに、何が最善(最先端)かは状況によって異なることに同意します-それが私の答えのポイントです。可能な答えは無数にあります-ある状況で良いことは別の状況では非常に悪いかもしれません。それが単一のものであるかのように「何が最善か」を尋ねるのではなく、テストがいつうまく実行されるかを知ることは価値があります。
Glen_b-2016

確かに、あなたの定義はより正確です。ただし、メソッドのテストよりもはるかに多くのメソッドがあり、「芸術の状態」は主にフィクションです。つまり、「芸術」には「状態」がなく、主人公だけです。そのような曖昧な主張に対するどんな反応も曖昧です。私は「はい」と言って、あなたは「いいえ」と言った、そして私たちは両方とも同じことを言った。
カール・

ところで、問題は「最新の技術」または「置き換えられた」であり、私はそれを「時代遅れ、または時代遅れではない」という意味で解釈しました。それで、私の答えには「最新の技術」と「置換」は反意語だと思い込んで、それらの1つを選んでください」という文脈がありました。あなたはそれらが反意語でないことは正しいです、私は文脈で答えていました、そしてあなたは質問を請うことを選びました。だから、私の答えは丁寧でした。そして、私はあなたの回答に投票するつもりです。
カール

2

Anderson-Darlingテストはすべての分布で使用できるわけではありませんが、少数のサンプルを除いてShapiro-Wilkテストのパワーに近いパワーを備えているため、2つのサンプルは Razali NM、Wah YBで同等です。Shapiro-Wilk、Kolmogorov-Smirnov、Lilliefors、Anderson-Darlingの各検定の電力比較。Journal of Statistical Modeling and Analytics。2011; 2:21-33。ただし、Shapiro-Wilkテストは正規分布テスト専用です。クラメールフォンミーゼス検定とピアソンカイ二乗は、ヒストグラムへのすべての分布当てはめに一般的であり、クラメールフォンミーゼス検定はピアソンカイ二乗よりも強力であると思います。クラマー・フォン・ミーゼステストn=400 は、Kolmogorov-Smirnov検定よりも強力な累積密度関数適合度検定であり、t検定よりも大きいまたは小さい検出力を持つことができます。カイ二乗は、細胞数が少ないと難しいため、範囲制限を使用して尾をフィッティングします。

**質問1:...これらの2つの方法は...まだ最先端のものですか?またはすでにいくつかのより良いアプローチに置き換えられましたか?質問2そのような検定の信頼区間はどのくらいですか?**

回答:最先端の技術です。ただし、確率ではなく信頼区間が必要な場合があります。これらの方法を互いに比較するとき、信頼区間ではなく力について話します。適合度は、AIC、BIC、および他の基準を使用して、適合度の確率とは対照的に分析される場合があります。たとえば、適合度が適合基準ではない場合など、適合基準は無関係です。 。後者の場合、回帰ターゲットはフィッティングに関連しない物理量である可能性があります。たとえば、Tk-GVを参照してください。


注意:アンダーソン・ダーリング検定は、クラマー・フォン・ミーゼス検定の加重バージョンです。&のように、任意の継続的な配布に適しています。
Scortchi-モニカを回復
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.