ユーザー設定のテスト


8

M1とM2の2つの方法を比較するユーザーテストを生成しました。私は40のテストケースを生成し、テストケースの各メソッドの結果を20人の個人に並べて表示します。個人は、どのメソッドからどのような結果が得られたかがわかりません。各テストケースについて、M1によって計算された結果が優れているか、M2が優れているか、それとも同等に優れているかを各人が言わなければなりません。

M1がM2よりも良いかどうか知りたい。すべての結果を合計して、3-Dヒストグラムを生成し、M1に投票し、同点に投票し、M2に投票します。

M1とM2を2次元ヒストグラムとしてのみ見た場合。M1とM2が同等に優れていれば、このヒストグラムは均一になることを知っています。次に、テストを実行します。χ2

モデル化の方法がわからないのは同点投票です。私が考えた2つのオプションは次のとおりです。

  • カイ2乗検定の基本は、ヒストグラムが相互に排他的であり、合計が1になることです。引き分けの票は2つに分割され、M1とM2のそれぞれに追加されます(引き分けは削除されます)ようですが、これはあまり原則的ではないようです。
  • もう1つのオプションは、関連付けを無視することです。「1つに追加」プロパティを壊すため、欠陥があるようです。たとえば、(M1:2、ties:98 M2:0)の場合、両方の方法の差は統計的に有意ではありません。

他に何ができますか?私はこれを間違って見ていますか?これは、ユーザーの投票をモデル化するときに人々が直面する一般的な問題のようです。絆をモデル化する正しい方法は何ですか?


ペアの設定(比較)モデルを扱っているようですね。
12

M1:2ネクタイ:98 M2:0が統計的に有意であってはいけないことが問題である理由がわかりません。本質的には、好みがあった2人のサンプルがあり、そのような2人だけのテーブルは統計ではありません。シグ。
Peter Flom

2
いいえ、2人は異なる質問に回答しているため、回答は異なります。絆をやめると、私はあなたが聞きたい質問に答えるように思えます
Peter Flom

1
補足として、「M1とM2を2次元のヒストグラムとして見ただけの場合。M1とM2が同等に優れていれば、このヒストグラムが均一になることはわかっています」というのは、よくある誤解です。試験のみチェックを行と列が独立している場合、すなわち、各列は、他の行に類似しています。それらは均一である必要ありませχ2
gung-モニカの復活

2
公平なダイの分布が離散的なユニフォームであり、特定のダイがこの「特定の理論的分布」で公平性をテストできることは確かに真実です。しかし、適合度検定は、他の(不均一な)理論的分布に対しても実行できます。また、独立性検定(使用します)は、これを必要としません。χ 2χ2 χ2
gung-モニカの回復

回答:


6

心理的に意味のあるモデルが私たちを導くことができます。

有用なテストの導出

観察結果の変動は、被験者間の変動によるものです。各サブジェクトが、あるレベルで、メソッド1の結果の数値とメソッド2の結果の数値を出すと想像するかもしれません。次に、これらの結果を比較します。2つが十分に異なる場合、被験者は明確な選択を行いますが、それ以外の場合、被験者は同点を宣言します。(これは、差別のしきい値の存在との関係に関連しています。)

被験者間のばらつきは、実験観察のばらつきを引き起こします。特定のチャンスがあるでしょう方法1、特定のチャンス有利なの方法2を好むのを、および特定のチャンスタイの。π1π 0π2π0

被験者が互いに独立して反応すると仮定するのは公平です。したがって、方法1を好む人の被験者、方法2を好む人の被験者、およびを与える人の被験者を観察する可能性は多項式です。(無関係な)正規化定数を除いて、尤度の対数はn 2 n 0n1n2n0

n1log(π1)+n2log(π2)+n0log(π0).

与えられた、これが最大となるときここで、被験者の数です。π I = N I / N 、N = N 0 + N 1 + N 2π0+π1+π2=0πi=ni/nn=n0+n1+n2

2つの方法が同等に良好であると見なされるという帰無仮説をテストするために、この仮説によって暗示される制限の影響を受ける可能性を最大化します。心理モデルとその仮想的なしきい値の呼び出しを念頭に置いて、(の可能性)がゼロ以外である可能性にがあります。1つのモデルを他のモデルよりも優先する傾向を検出する唯一の方法は、とがどのように影響を受けるかです。モデル1が優先される場合、は増加し、減少し、逆も同様です。バリエーションが対称的であると仮定すると、以下の場合に優先度なしの状況が発生します。π 1 π 2 π 1 π 2 π 1 = π 2 π 0π0π1π2π1π2π1=π2。(のサイズは、しきい値について(差別的な能力について)何かを教えてくれますが、それ以外の点では好みに関する情報を提供しません。)π0

優先モデルがない場合、最尤はあり、ます。前の2つのソリューションを接続して、最大尤度変化を計算します。π0=N0/NGπ1=π2=n1+n22/nπ0=n0/nG

G=(n1logn1n+n2logn2n+n0logn0n)(n1log(n1+n2)/2n+n2log(n1+n2)/2n+n0logn0n)=n1log2n1n1+n2+n2log2n2n1+n2.

この値のサイズ(負になることはありません)は、帰無仮説がどれほど信頼できるかを教えてくれますが小さい場合、データは一般に(制限的)帰無仮説とほぼ同様に「説明」されます。値が大きい場合、帰無仮説は信頼性が低くなります。G

(漸近)最尤推定理論では、この変更の妥当なしきい値は、自由度1のカイ二乗分布の分位数の半分であるとされています(単一の制限により、帰無仮説)。いつものように、はこのテストのサイズで、多くの場合5%()または1%()と見なされます。対応するはおよびです。π 1 = π 2 α 0.05 0.01 3.841459 6.6348971απ1=π2α0.050.013.8414596.634897


ことを仮定しの被験者、好意方法1及びある意味有利方法2.関係を。尤度は最大化され、およびの場合、値にます。帰無仮説では、代わりにの可能性が最大化され、その値はのみにます。差ある以下より半分 5%閾値。したがって、、N 1 = 3 、N 2 = 9 、N 0 = 20 - 3 - 9 = 8 π 1 = 3 / 20 = 0.15 π 2 = 9 / 20 = 0.45 - 20.208 ... π 1 = π 2 = 6 / 20 = 0.30 21.778 G = 20.208 n=20n1=3n2=9n0=2039=8π1=3/20=0.15π2=9/20=0.4520.208π1=π2=6/20=0.3021.778α = 3.84G=20.208(21.778)=1.57α=3.84帰無仮説を棄却しない


タイと代替テストについて

の式を振り返ると、タイの数()が表示されないことに注意しください。この例では、代わりに被験者を観察し、そのうちが方法1を好む、が方法2を好む、残りのが同点であった場合、結果は同じになります。n 0 n = 100 3 9 100 3 9 = 88Gn0n=1003910039=88

タイ分割して半分をメソッド1に割り当て、半分をメソッド2に割り当てることは直感的には合理的ですが、テストの効果は低くなります。たとえば、およびます。次の2つのケースを検討してください。n 2 = 15n1=5n2=15

  1. 、N 0 = 0 α 0.02217 α 0.02660n=20被験者なので、関係がありました。最尤検定では、より大きい値のnullを拒否します。このような状況で頻繁に使用されるもう1つの検定は(関係がないため)二項検定です。より大きい値については、nullを拒否します。したがって、これらの臨界値はかなり近いので、2つのテストは通常​​同じ結果になります。n0=0α0.02217α0.02660

  2. N 0 = 80 α 0.02217 α 0.3197 80n=100被験者なので、関係がありました。最大尤度試験は、あろう依然としての任意の値にNULLをリジェクトより大きい。二項検定は、より大きい値に対してのみnullを拒否します 。2つのテストでは、まったく異なる結果が得られます。特に、関係は、最尤理論が実際に示唆する違いを区別する二項検定の機能を弱めています。n0=80α0.02217α0.319780

最後に、別の回答で提案されている分割表アプローチを考えてみましょう3×1。検討の被験者、方法1を好むの方法2を好む、およびタイです。「テーブル」は単なるベクトルです。そのカイ2乗統計量は、2つの自由度があります。p値はであり、ほとんどの場合、この方法には違いがないと結論付けられます。最尤法の結果は、代わりに p値を。これは、この結論を 5%レベルで拒否します。n=20n1=3n2=10n0=7(n0,n1,n2)=(7,3,10)3.70.15720.04614α=

の被験者がそののみと仮定好ま方法1、唯一好ま方法2、そしてあったタイは。直感的には、これらの方法のいずれかが好まれる傾向があるという証拠はほとんどありません。しかし、今回はカイ2乗統計量は明白で、余地なく(しかし、かなり間違って)差があることを示しています(p値は未満です)。n=1001297182.421015

どちらの状況でも、カイ2乗アプローチは完全に間違った答えを出します。最初のケースでは、実質的な違いを検出する能力が欠けていますが、2番目のケース(タイが多い)では、重要でない違いについて非常に自信があります。問題は、カイ二乗検定が悪いことではありません。問題は、それが別の仮説、つまりです。私たちの概念モデルによれば、この仮説は心理的ナンセンスです。これは、選好に関する情報(つまり、および)と差別のしきい値に関する情報(つまり、)を混同するためです。 π1=π2=π0π1π2π0これは、統計的検定を選択する際に研究コンテキストと主題知識(ただし簡略化されている)を使用する必要性を示す良い例です。


「Gの式を振り返って、結合の数(n0)が表示されないことに注意してください」と言いますが、log-likの変更の式の項としてn0を参照しています。Gじゃないの?
russellpierce 2012

1
@drの最終式を参照してください。これは対数尤度の違いです。両方の可能性はに依存し、キャンセルはその依存性を完全に削除します。n 0Gn0
whuber

あ、そうだ。方程式の簡約を示す等号を逃しました。
russellpierce 2012

あなたのソリューションは、タイを除外する2x2分割表アプローチとどのように比較しますか?
russellpierce 2012

1
@dr同一である必要があります。この導出の要点は、統計的推論と心理学の基本原則を使用してこのアプローチを正当化することでした。問題の核心は関係を処理する正しい方法に関係しているように見えるためです。
whuber

1

whuberの答えは、(いつものように)入力しようとしているものよりも豊富であると思います。私は認めます、私はwhuberの答えを完全に理解していないかもしれません...それで、私が言っていることは、独特であるか、役に立たないかもしれません。ただし、whuberの回答のどこに個人の好みの入れ子や、テストケース内の好みの入れ子が考慮されているかはわかりませんでした。質問者の明確化を考えると、

実際、ケースはすべての可能なケースのランダムなサンプルです。類推は次のとおりだと思います。選挙は投票所で何が起こるかによって決定されますが、私は各有権者に対して彼らの所属政党を持っています。したがって、一方の党の候補者がその党に所属する有権者にアピールすることはほぼ予想されますが、これは必ずしも所定のことではありません。優れた候補者が党に勝利し、他の党の人々に勝利することができます。

...これらは重要な考慮事項です。したがって、おそらく最も適切なのはなく、マルチレベルのロジスティックモデルです。具体的には、RIでは次のようなものをキャストします。χ2

lmer(PreferenceForM1~1+(1|RaterID)+(1|TestCaseID),family=binomial)

PreferenceForM1は1(はい)および0(いいえ)としてコード化されます。ここで、0を超える切片は、平均テストケースでのメソッド1に対する平均評価者の選好を示します。これらの手法の有用性の下限に近いサンプルでは、​​おそらくpvals.fncとinfluence.MEを使用して、私の仮定と外れ値の影響を調査します。

ここでの関係についての基本的な質問は、whuberによって十分に回答されているようです。ただし、ネクタイは、メソッド間の統計的に有意な違いを観察する能力を低下させるようだと(再)述べます。さらに、それらを排除すると、ある方法と他の方法に対する個人の好みを過大評価する可能性があると主張します。後の理由で、私はそれらを残しておきます。


R表記に混乱しているかもしれませんが、提案には、データよりも多くのパラメーターがありませんか?この混乱はあなたの判断によるものではありません。私は主題があり、主題ごとに1 つの結果(M1、M2、またはタイ)しかないことを理解しましたが、あなたの答えの暗黙の解釈は観測があるかもしれないということです。Carlosdc、これについて説明してもらえますか?800 = 20 * 4020800=2040
whuber

OPは、「40のテストケースを生成し、20人の個人にテストケースの各メソッドの結果を表示する」と述べました。「各テストケースについて、M1によって計算された結果が優れているか、M2が優れているか、または同等であるかを各人が言わなければなりません良い。" したがって、私はOPを20 * 40の観測値があると解釈していました。
russellpierce 2012

そうですね、このデータには多くのパラメータが推定されています。私が正確ではない正確な数値(statsパッケージにより、基礎となる方程式の理解に満足できる場所)。
russellpierce 2012
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.