@SilverfishはPolatAlemdarによる回答の拡張を求めましたが、これは与えられていませんでしたので、ここで拡張してみます。
なぜchisquare distanceという名前なのですか?分割表の検定は
に基づいているため、この形式を維持し、距離測定。これは、と、OPの第三式を与える観察し、と解釈フィットテストの良さに、たとえばとして、「これは、離散確率分布で使用される」PolatAlemdarのコメントを説明して期待、など。この3番目の形式は、変数とが非対称であるため、距離関数ではありません。ヒストグラムの比較には、と対称な距離関数が必要です。 xiyixyxy1
χ2= ∑細胞(O私− E私)2E私
バツ私y私バツyバツy、および最初の2つの形式がこれを示します。それらの違いは定数因子のみであり、一貫して1つのフォームを選択する限り重要ではありません(ただし、非対称フォームと比較する場合は、追加の因子バージョンの方が優れています)。ユークリッド距離の2乗とこれらの式の類似性に注意してください。これは偶然ではなく、カイ2乗距離は一種のユークリッド距離の
重みです。そのため、OPの式は通常、
距離を取得するためにルート記号の下に置かれます。以下ではこれに従います。
11212
カイ二乗距離は、コレスポンデンス分析でも使用されます。そこで使用されているフォームとの関係を確認するには、を行と列の分割表のセルとします。行の合計があり、列の合計がます。行間の距離は、次の式で与えられます。
2行(2つのヒストグラム)のみの場合、これらはOPの最初の式を復元します(ルート記号をモジュロ)。 R C X + J = Σ I X 、I 、J、X I + = Σ jのX I 、J、L 、K χ 2(L 、K )= √バツ私はjRCバツ+ j= ∑私バツ私はjバツi += ∑jバツ私はjl 、k
χ2(l 、k )= ∑j1バツ+ j(xl jバツl +− xk jバツk +)2−−−−−−−−−−−−−−−−−−−⎷
EDIT
以下のコメントの質問への回答:カイ二乗距離について長い議論がある本は、Michael Greenacre(Chapman&Hall)による "CORRESPONDENCE ANALYSIS IN PRACTICE(Second Edition)"です。この名前は、コンティンジェンシーテーブルで使用されるchisquareとの類似性からきています。どんなディストリビューションがありますか?私はそれを一度も研究したことがありませんが、おそらく(ある条件下では...)およそカイ二乗分布になるでしょう。証明は分割表で行われるものと同様である必要があります。コレスポンデンス分析に関するほとんどの文献は分布理論には含まれていません。いくつかの、おそらく関連するそのような理論を持つ論文はhttp://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023です。こちらもご覧くださいこのサイトの他の関連記事については、https://stats.stackexchange.com/search?q =%22chisquare + distance%22をご覧ください。