ランク相関係数のコンテキストでのタイデータとは何ですか？

16

私は統計分野ではありません。

ランク相関係数について読んでいるときに、「関連データ」という言葉を見てきました。

固定データとは何ですか？
関連付けられたデータの例は何ですか？

correlation nonparametric ranks

— BB01
ソース

5

同じ値を持つデータを意味します。たとえば、データセットとして1,2,3,3,4がある場合、2つの3は関連付けられたデータです。データセットとして1,2,3,4,5,5,5,6,7,7が存在する場合、5と7は関連付けられたデータです。

— クォークダウン27
ソース

14

「関連付けられたデータ」は、ランクベースのノンパラメトリック統計テストのコンテキストで表示されます。

ノンパラメトリックテスト：特定の確率分布を想定しないテスト。たとえば、ベル型の曲線を想定しません。

ランクベース：ノンパラメトリックテストの大規模なクラスは、数値（「3日」、「5日」、「4日」）をランク（「最短期間（3番目）」、「最長期間」など）に変換することから始まります（1番目）」、「2番目に長い期間（2番目）」）。次に、これらのランクに従来のパラメトリックテスト方法が適用されます。

同一の数値をランクに変換する必要があるため、紐付けられたデータは問題です。ランクがランダムに割り当てられることもあれば、平均ランクが使用されることもあります。最も重要なことは、結果の再現性のために、同順位を解除するためのプロトコルを記述する必要があることです。

— ミンチー花王
ソース

5

同じデータセットで7を2回観測するなど、単純に2つの同一のデータ値です。

これは、データに連続性があり、同一の測定が不可能である（または技術的には、同一値の確率がゼロである）ことを前提とする統計的手法のコンテキストで発生します。これらの方法が丸められたり切り取られたりするデータに適用されると、実際の複雑さが生じ、同一の測定が可能になるだけでなく、かなり一般的になります。

— ジョン・D・クック
ソース

1

この出来事が決して起こらない可能性がゼロであるためあなたがそれを言うことができないので、私はこの推論に同意しません。これは正当な理由ではありません。

— Henry.L

2

問題は根本的に重要です。

関連付けられた観測/データ/ペアとは何ですか？

$T^+$

（だから、@ Ming-Chih Kaoの答えはノンパラメトリックテストを最初に導入することによって適切だとは思いません。しかし、タイトルは「ランク相関係数のコンテキストでデータを結び付けるのは何ですか？」ですので、それを購入します。）

説明するために、最善の方法は、ウィルコクソンの符号付きランク付きテストの最も単純な例を使用することだと思います。サイズ10のペアデータのサンプルを用意します。差分ランダム変数定義します $Z_{i}=X_{i}-Y_{i}$

$(X_{i},Y_{i})$

$Z_{i}$

$|Z_{i}|$

$\{(1,-1) (1,-1)\},\{ (1,2) (1,2) (2,1) (2,1) (2,3) (2,3) (3,2) \},\{(3,0)\}$

これを行う非常に簡単な方法を試してみましょう。左から右にランク付けして、以下を与えます。

$R_{i}$

$|Z_{i}|$

$R_{i}$

$|Z_{i}|$

$R_{i}$

$|Z_{i}|=1$ $|Z_{i}|=2$

最初のグループの各観測にランクを割り当てます $\frac{1+\cdots+7}{7}=4$ $\frac{8+9}{2}=8.5$

$R_{i}$

これによりランキングが変更され、ランク付けされた各観測値がランク付けされた統計の計算、つまりランクテストで同じ影響を持つようになります。

拘束された観測/データ/ペアの解決策は何ですか？

（1）平均ランクを割り当てます。これは私たちが上でやったことです。同じグループ内の関連付けられたデータに同じランクを割り当てることで、ランク付けされたテストでのそれらの影響をまったく同じにして、関連付けられた観測によって生じる可能性のある不正確さを排除します。

$MaxRank_{first group}<MinRank_{second group}$ $MaxRank_{first group}>MinRank_{second group}$ , that breaks the ranking law; if $MaxRank_{first group}=MinRank_{second group}$ , then we have to merge two tied groups into one.

(3)Perturbation of data. This requires very careful consideration about the nature of the data. This works only if the data is not categorical(discrete). In the above example, we can just make a This will put different weights manually to each of the elements in the tied group. For a continuous distribution, for example, it makes little difference if you perturb it in $\epsilon$ manner.

(@John D. Cook 's answer is a bit misleading in this way. A better way of saying this point is that when the distribution is continuous, $P{X=x}=0$ . However, we shall observe ties since our measurement is of limited accuracy, i.e. any sample space in reality is actually finite.) (@quarkdown27 's answer is simple but correct in each word.)

— Henry.L
ソース