連続データとカウントデータの相関


9

このデータセットを扱っているとします。ここで、は連続変数(たとえば、指数)であり、は離散分布(たとえば、ポアソン)です。がと間の相関であるとしましょう。どうすれば定義できますか? (Xi,Ni)XiNii=1,...,nρXNρ


予測変数のいくつかがカウントデータであり、応答データが連続的である場合、モデリングのために変数選択を行うのが一般的です。実数と整数を比較することは禁止されていません。分布の形はより大きな問題になります。一連のTukeyのラダー関数(パワーシリーズとも呼ばれます)を試してみます。
Chris

@Chrisコメントありがとうございます。ここでは回帰を扱っていません(ただし、GLMを構築すると相関関係が取得されると誰かが主張することはできます)。相関の尺度があるかどうかに興味があります(つまり、連続データのピアソンの尺度)。g(Y)=βN
user9292 2015

2
通常のピアソン相関がこの問題の相関の尺度にならないのはなぜですか?
Glen_b-2015

回答:


13

私には、あなたにとって意味のある少なくとも3つの適切なオプションがあると思います。

  1. Polyserial相関これは、3つのオプションの中で最もエキゾチックなことと潜在の近似値を必要とするだろう、連続変数は、(離散変数構築するために使用-最も可能性が高いために、あなたのケースでは)だけでなく、最尤推定手順こと潜在的な連続変数と実際の変数、2変量正規サンプルとして扱われる場合に発生する可能性があります(Rの実装例:polycor)。このアイデアにはいくつかの参照がありますが、これは1974年の主題に関する最初の出版物です:連続変数と離散変数の相関の推定NiρXi
  2. ノンパラメトリック相関 - スピアマンのランク相関係数は、この場合はおそらく良いオプションです。スピアマンのローの計算は、値自体ではなく各変数の値のランクに基づいて機能するため、非線形関係または混合データ型の存在下でより広く適用できます。
  3. モデリング -あなたはコメントであなたがどんな種類のモデリングもしようとしていないことを述べたのを知っています、しかし私はまだ2つの変数間の適切な関数関係からのパラメーター推定値または1つはあなたが見つける任意の相関係数(離散変数が2変量正規分布の値の半分から実際に作成された場合を除いて-これは疑わしいでしょう)。

より直接的に質問に答えるために、通常のようにを計算すると(製品モーメントの相関係数を意味するとします)、期待した特性が得られるか、少なくとも変数間の線形依存性が大きくなるにつれて大きくなります。 。ただし、相関の有意性の統計的検定は、そのような検定に必要な仮定の1つが2変量正規性であり、変数の1つが離散的である場合は明らかに正しくないため、有効ではありませんρ

ただし、ノンパラメトリック相関係数(スピアマンなど)を使用した有意性検定は可能であり、十分に文書化されたその実装を任意の言語で簡単に見つけることができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.