序数と連続確率変数の間の関連の強さのノンパラメトリック測定

12

私はそれを受け取ったのでここに問題を投げています。

2つの確率変数があります。1つは連続（Y）で、もう1つは離散で序数（X）として処理されます。クエリと共に受け取ったプロットの下に置きます。

ここに画像の説明を入力してください

データを送ってくれた人は、 XとYの関連性の強さを測定したいと考えています。データを生成したプロセスについての仮定が前に詰め込まれていないアイデアを探しています。これは、関係の強さをテストするための非パラメトリックな方法を見つけることではなく（ブートストラップなど）、それを測定する非パラメトリックな方法を見つけることに注意してください。

一方、データポイントが多いため、効率は問題になりません。

— user603
ソース

1

X（離散変数）は序数かどうか？

— ピーターフロム-モニカの回復

@PeterFlom：ありがとう。はい。これを質問に追加します。

— user603 14年

ここで「ノンパラメトリック」とは、平均または分散の計算が許可されていないという意味ですか？

— ttnphns 2014年

7

定義により、序数スケールは、ノッチ間の真の距離1 2 3 4が不明なゲージです。薬物/アルコールの下で支配者を見ているようなものです。真の距離は任意です。それは1 2 3 4、1 2 3 4または何であってもよいです。距離を決定しない限り、相関などの統計を計算することはできません。

$r$ $rho$ $r$ $rho$ $r$

$r$ $r$ "。最適なスケーリングは、カテゴリー回帰（CATREG）で実行できます。ただし、カテゴリー回帰では、他の入力変数が離散的（必ずしも序数である必要はない）である必要があるため、多くの一意の値が連続している場合は、ユーザーが任意にビニングする必要があります。

他のアプローチもあります。しかし、いずれにしても、序数スケールは未知の方法で歪められているため、序数スケールを「〜のように」単調に変換します（ある仮定またはいくつかの目標）。根本的に別の決定は、最初に「落ち着いて」、それが歪んでいない（つまり、間隔である）か、既知の方法で歪んでいる（非等間隔）か、または名目上であると決定することです。

一部の非対称アプローチには、他の（間隔/連続）方法による順序変数の順序回帰が含まれる場合があります。または、予測変数が多項式の対比と見なされる（つまり、と入力されるb1X + b2X^2 + b3X^3,...）モデルを使用した、後者の序数回帰。これらのアプローチの弱点は、それらが非対称であることです。1つの変数は依存しており、もう1つは独立しています。

— ttnphns
ソース

ありがとう。変数の1つだけでランクを計算することは非常に良い考えです。

— user603 2014年

6

$d_{i} = x_{i} - y_{i}$ $x_{i}$ $y_{i}$

$r_{\text{S}} = 1-\frac{6\sum_{i=1}^{n}{d^{2}_{i}}}{n\left(n^{2}-1\right)}$

$X$ $Y$

参考文献

Reshef、D.、Reshef、Y.、Finucane、H.、Grossman、S.、McVean、G.、Turnbaugh、P.、Lander、E.、Mitzenmacher、M.、and Sabeti、P.（2011）大きなデータセット内の新しい関連付けを検出します。Science、334（6062）：1518–1524。

Reshef、D.、Reshef、Y.、Mitzenmacher、M。、およびSabeti、P。（2013）。比較による最大情報係数の公平性分析。arXiv、8月14日。

— アレクシス
ソース

どちらも非常に良いアイデアのように見えます。実際、提案する2つのアプローチは、互いに補完し合うことさえできます。しばらく質問を開いたままにしておきます。

— user603 14年