ランク付けされたリストの比較

とで構成される2つのグループが、それぞれ重要度の高いものから順に25個のアイテムのセットをランク付けするとします。これらのランキングを比較する最良の方法は何ですか？ $n_1$ $n_2$

明らかに、25のMann-Whitney Uテストを実行することは可能ですが、これは25のテスト結果を解釈することになり、多すぎるかもしれません（そして、厳密な使用では、複数の比較の問題を持ち出します）。また、ランクがこのテストのすべての前提を満たしているかどうかも完全にはわかりません。

また、評価とランキングに関する文献へのポインタにも興味があります。

コンテキスト：これらの25項目はすべて教育に関連しており、2つのグループは異なるタイプの教育者です。両方のグループは小規模です。

@ttnphnsに応答して編集：

グループ1とグループ2のアイテムの合計ランクを比較するつもりはありませんでした。@ ttnphnsが指摘しているように、これは定数です。ただし、グループ1とグループ2のランキングは異なります。つまり、グループ1は、グループ2よりもアイテム1のランクを高くすることができます。

それらをアイテムごとに比較し、各アイテムの平均または中央ランクを取得し、25のテストを行うことができましたが、これを行うためのより良い方法があるかどうか疑問に思いました。

ranking group-differences

— ピーター・フロム-モニカの復職
ソース

各人が25個のアイテムをランク付けした場合、25個の変数の合計は定数（325）です。それを考えると、あなたは何を言っているのですかthe best ways to compare these rankings - どのようなあなたがお知りになりたい2グループ体重差のタイプ？

— ttnphns

各グループのケメンの中央値を計算するのでしょうか？私はそれを自分でやったことはなく、2つの結果が統計的に比較できるかどうかもわかりません（つまり、母集団への推論）。

— ttnphns

別のオプションとして、反復測定の順序回帰があります（グループ因子とrm因子との相互作用が興味の対象になります）。これは、多項分布とロジットリンクを使用したGEEモデルを介して実行できます。しかし、25個のアイテムの合計は定数であるため、ここで数学的に有効かどうかはわかりません。

— ttnphns

私にはこの本はありませんが、D Handの「Measurement Theory and Practice」では、これに似たいくつかの問題について説明しています。ランキングの「違い」について特に知りたいことは何ですか。たとえば、最初に各グループの集計ランキングを作成してから、ランク相関を取ることはできませんか？

— コロネ

@PeterFlomランク比較の解決策をようやく見つけましたか？はいの場合、投稿してもよろしいですか？:)

— マーク・ヘックマン

回答:

概要

詳細セクションで自分の考えを共有します。私たちが本当に達成したいことを特定するのに役立つと思います。

ここでの主な問題は、ランクの類似性の意味を定義していないことだと思います。したがって、ランク間の差を測定する方法がどれほど優れているかは誰にもわかりません。

事実上、これにより推測に基づいて方法をあいまいに選択することになります。

私が本当に提案しているのは、最初に数学的最適化目標を定義することです。そうして初めて、私たちが本当に欲しいものを知っているかどうかを確認できます。

そうしないと、本当に何が欲しいのかわかりません。欲しいものはほとんど知っているかもしれませんが、ほとんど知っている $\ne$ 知っている。

詳細の私のテキストは本質的にランク類似性の数学的定義に到達するためのステップです。これを確認したら、自信を持って前進して、そのような類似性を測定する最適な方法を選択できます。

詳細

あなたのコメントのいずれかに基づいて：

「目的は、2つのグループのランキングが異なるかどうかを確認することです」、Peter Flom。

目的を厳密に解釈しながらこれに答えるには：

ランクは、任意のアイテムであれば異なる、存在ようここで、アイテムのランクである群によって及び、ランクであります同じアイテムであるがグループ。 $i \in \{1,2,\ldots,25\}$ $i$ $a_i \ne b_i$ $a_i$ $i$ $a$ $b_i$ $b$
それ以外の場合、ランクに違いはありません。

しかし、あなたは本当にあなたがその厳密な解釈を望んでいるとは思わない。したがって、あなたが本当に言いたいことは次のとおりだと思います。

グループとグループランクはどのくらい違いますか？ $a$ $b$

ここでの解決策の1つは、最小編集距離を測定することです。すなわち必要性がグループのランク付けリスト上で実行されることを編集の最小数何ですか、それはグループのそれと同じになるように $a$ $b$ 。

$n$ $1$ $3$ $a$ $b$ $3$

しかし、この方法は適していますか？これに答えるために、もう少し詳しく見てみましょう。

$a,b$ $3$ $c,d$ $123$ $a,b$ $c,d$ $c,d$ がはるかに大きなアイテムのセットをランク付けしたことをます）。
各編集のコストは、ホップ数に対して線形であると想定しています。これはアプリケーションドメインにも当てはまりますか？それは、ということでしたロジスティック関係がより適しているのですか？それとも指数関数ですか？
$1$ $5$

上記のポイントに対処し、2つのランク間の類似性の適切な尺度に到達したら、次のようなより興味深い質問をする必要があります。

$a$ $b$

— 穴居人
ソース

これは、「ウィルコクソンの符号付きランクテスト」（ウィキペディアリンク）のように聞こえます。ランクの値が同じセットからのものであると仮定します（つまり、[1, 25]）これはペア差分検定です（これらのペアがランダムに選択された帰無仮説で）。NBこれは非類似度スコアです！

そのWikiページには、両方RとPythonリンクされた実装があります。

— ダノドノバン
ソース

面白い。ウィルコクソンのペアの違いについて聞いたことがありませんでした。

— ピーターフロム-モニカの復職

警告：それは素晴らしい質問であり、私はその答えを知りません。したがって、これは本当に「必要な場合に私がすること」です。

この問題では、多くの自由度と比較を行うことができますが、データが限られているため、データを効率的に集約することが重要です。実行するテストがわからない場合は、順列を使用していつでもテストを「作成」できます。

最初に、2つの関数を定義します。

投票機能：単一グループのすべてのランキングを結合できるようにランキングをスコアリングする方法。たとえば、トップランクのアイテムに1ポイントを割り当て、他のすべてのアイテムに0ポイントを割り当てることができます。ただし、多くの情報を失うことになるので、トップランクのアイテムが1ポイント、2番目にランクされた2ポイントなどのようなものを使用する方が良いでしょう。
比較機能：2つのグループ間で2つの集計されたスコアを比較する方法。両方がベクトルであるため、差の適切なノルムを取ることは機能します。

次の手順を実行します。

最初に、2つのグループ全体の各アイテムの投票関数を使用して平均スコアを計算することにより、検定統計量を計算します。これにより、サイズ25の2つのベクトルが得られます。
次に、比較関数を使用して2つの結果を比較します。これは検定統計量です。

問題は、両方のグループが同じであるというnullの下での検定統計量の分布がわからないことです。しかし、それらが同じ場合、グループ間で観測をランダムにシャッフルできます。

$n_1$

このプロセスを約1000回繰り返し、順列検定統計量を経験的ヌル分布として使用します。これにより、p値を計算できるようになります。素敵なヒストグラムを作成し、次のようにテスト統計の線を引くことを忘れないでください。

$l_1$ $l_1$ $l_2$

ただし、設定によっては、本質的なランダム性が非常に大きくなる可能性があり、キャッチオールメソッドを機能させるにはかなり大きなサンプルサイズが必要になると思います。2つのグループ間で異なると思われる特定の事柄（特定の項目など）に関する事前知識がある場合は、それを使用して2つの機能を調整します。（もちろん、通常はテストを実行する前にこれを行い、重要なものが適用されるまでデザインをチェリーピックしないでください）

あなたが私の（乱雑な）コードに興味があるなら、PSは私にメッセージを撃ちます。ここに追加するには長すぎますが、喜んでアップロードします。

— スヴェン
ソース

私はこのアイデアが本当に好きです。

— ピーターフロム-モニカの復職