なぜ統計学者は相互関係の尺度として相互情報を使用しないのですか?


10

私は非統計学者によるいくつかの講演を見てきました。彼らは、回帰(または同等/密接に関連する統計的検定)ではなく相互情報量を使用して相関測定を再発明しているようです。

私は、統計学者がこのアプローチを採用しないという正当な理由があると思います。私の素人の理解は、エントロピー/相互情報量の推定者は問題が多く不安定である傾向があるということです。結果として、パワーにも問題があると思います。彼らは、パラメトリックテストフレームワークを使用していないと主張して、これを回避しようとします。通常、この種の作業は検出力の計算や、信頼性/信頼できる間隔でさえ問題になりません。

しかし、悪魔の支持者の立場を取るには、データセットが非常に大きい場合、収束が遅いのはそれほど大きな問題でしょうか。また、これらの方法は、関連付けがフォローアップ調査によって検証されるという意味で「機能する」ように見える場合もあります。関連性の尺度として相互情報量を使用することに対する最も良い批評は何ですか、なぜそれが統計的実践で広く使用されていないのですか?

編集:また、これらの問題をカバーする良い論文はありますか?


3
MIは2つの離散変数間の関連性の尺度です。一般的な統計では、それほど一般的な設定ではありません(一部の特殊なサブフィールドにある可能性があります)。しかし、その設定では、十分に頻繁に使用されているのがわかります。確かに、二変量離散データセットでピアソン相関を使用する応用人に出会ったとき、私はそれらにMIを指摘します。
user603 2013

1
stats.stackexchange.com/questions/1052/…も参照してください。ただし、ここでの説明はすでに、私の見解では、良いか、または優れているため、重複についての通常の質問は議論の余地があります。
Nick Cox


2
さらに一般的な参考文献は、Matthew ReimherrおよびDan L. Nicolaeです。2013.依存の定量化:解釈可能な測定基準を開発するためのフレームワーク。Statistical Science 28:116-130。
Nick Cox

回答:


4

カテゴリ(離散)データと連続データを区別する必要があると思います。

連続データの場合、ピアソン相関は線形(単調)関係を測定し、ランク相関は単調関係です。

一方、MIはあらゆる関係を「検出」します。これは通常、あなたが興味を持っていることではなく、ノイズである可能性があります。特に、分布の密度を推定する必要があります。ただし、連続的であるため、最初にヒストグラム[離散ビン]を作成し、次にMIを計算します。しかし、MIはあらゆる関係を考慮しているため、より小さなビンを使用するとMIが変化します(つまり、より多くの小刻みを許容します)。したがって、MIの推定が非常に不安定になり、推定に信頼区間を設定できないなどがわかります。[連続密度推定を行う場合も同様です。]基本的に、実際に計算する前に推定することが多すぎますMI。

一方、カテゴリデータはMIフレームワークに非常にうまく適合し(G検定を参照)、G検定とカイ2乗のどちらを選択するかはあまりありません。


私は主に個別の関連付けのケースを参照しています(回帰により、OLSだけでなくGLMも念頭に置いていました)。実際には、複雑な現象(例えば遺伝学)研究科学者の多くは、(検出、彼らはあなたが記述しているだけで何に興味があると言うかもしれない任意の関係)。「相関関係の関数形式が間違っている場合はどうなりますか?もちろん任意の関係を検出したい!」という明白な一般的な批判を回避する魅力。は強い。ただし、ここでは無料ランチではない誤解があると思いますが、私がより明確に説明/理解しようとしていることは見過ごされています。
user4733 2013

1
... LRテストとMIの関係は知りませんでしたが、それは非常に興味深いことです。
user4733 2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.