ペア周波数の独立性のテスト


8

これが基本的でも冗長でもないことを願っています。私はガイダンスを求めて探していましたが、これまでのところ、どのように進めるかはまだわかりません。

私のデータは、対談者のペア間の会話で使用される特定の構造のカウントで構成されています。私がテストしたい仮説は次のとおりです。一方の話者によるこの構造のより頻繁な使用は、もう一方の話者による構造の周波数を増加させる傾向があります(つまり、これはプライミング効果の証拠かもしれません)。

したがって、2つのベクトルがあります。スピーカーAのカウントとスピーカーBのカウントは列であり、それらが並んでいる場合、各行は次のような特定の会話を表します。

AB
0 1
0 2
1 0
3 1
0 2
2 0
2 1

約420の会話(行)があります。このデータには多くのゼロがあります。

このデータを分析する最良の方法は何でしょうか?私はRを使用しています。

これは頻度(カウント)のプロットです。x軸は話者Aによる使用数、y軸は話者Bによる使用数です。話者を区別することは、その話者Aが最初に話したことだけを意味し、特別な理由はありません。それ以外の場合、話者Aと話者Bの違いは基本的に無意味です。

有効なXHTML http://phonematic.com/convplot.jpg

そして、これは、各会話の各話者が話す文章の数に関連する頻度です。:

有効なXHTML http://phonematic.com/rs_plot.jpg

(私は何のヒットもない会話、つまり{0,0}を捨てたことを言及しなければなりません。)


各行は、同じ会話の異なる構造の数ですか、それとも異なる期間の同じ構造の数ですか?
RockScience 2010

各行は、2人の異なる人が互いに話していることによる、同じ構造の使用の総数です。したがって、たとえば、私が受動文を数えている場合、列Aの数は話者Aが使用する受動文の数であり、列Bの数は話者Bが使用する受動文の数です。したがって、各行は別の会話。各会話には2人の参加者がいます。
アランH.

また、違いがある場合は、各会話の各話者が話した文の数と比較して同じデータを計算しました。
アランH.

少し遅い場合は申し訳ありませんが、それでもデータ構造を理解するのが困難です。話者は2人だけで、それぞれについて420回の繰り返し測定値が収集されますか(1行= 1つの会話タイプですが、同じ結果が記録されます(例:受動文))。何らかのマッチングまたはペアリング(被験者AとBの間)があるのでこれをお願いしますが、この後者の場合、繰り返し測定にも対処する必要があり、これによりマッチしたペアの周辺モデルの関連性が低くなります。
2010

いいえ、これらもすべて異なるスピーカーです。このデータは、録音された電話会話のコーパスから取得されました。会話1におけるスピーカーAが会話2.スピーカーAと同一人物ではありませんので、
アランH.

回答:


10

双方向のデータ構造を調べたい場合は、対数線形モデルを検討することもできます。

2つのサンプルが一致すると想定し(つまり、2つの一連の位置の間に何らかの依存関係がある)、データが実際にはスコアまたは順序付き応答と見なすことができるカウントであることを考慮に入れる場合(@caracal )、次に、ペアの周辺モデルを確認することもできます。これには通常、正方形の分割表の分析が含まれます。必ずしもこのような正方形のテーブルになるとは限らないかもしれませんが、パッシブな文などの数の上限を決定することもできます。とにかく、一致したペアのモデルについては、Agrestiの第10章、カテゴリデータ分析で詳しく説明しています。正方表の順序カテゴリの関連モデルは、準対称性をテストしています(他の一つのケースからカテゴリの効果の差は、カテゴリスコアの線形トレンドに従う)、条件対称又はπ Aπab<πabB)、そして、準均一なアソシエーション(等間隔スコアの場合には、均一なローカル会合を意味主対角線、オフリニア・バイ・リニア関連)。順序準対称性(OQS)は線形ロジットモデルの特殊なケースであり、限界均一性のみの単純なモデルと比較できます。πab>πabab通常の準対称性+周辺均一性対称性であるため、LRテストで成立します。=

Agrestiの表記(頁429)に続いて、我々は考える、変数のスコアを命じX(行)で、変数Y(列で)。aまたはbは任意の行または列を示します。OQSモデルは、次の対数線形モデルとして読み取ります。あなた1あなたバツYab

logμab=λ+λa+λb+βub+λab

どこのすべてのためのA < B。名目上のデータのための通常のQSモデルと比較すると、ログμ B = λ + λ X A + λ Y 、B + λ Bλ bは = 0は、我々が課すOQSモデルでは、2つの変数間の独立性を意味しますλ YのBλab=λbaa<bログμab=λ+λaバツ+λbY+λabλab=0λbYλbバツ=βあなたb(したがって、線形トレンドのアイデアを導入します)。等価ロジット表現は、のためのBログπab/πba=βあなたbあなたaab

場合は、我々はこのモデルの特殊なケースとして、対称性を持っています。場合βは0、我々は確率的であるマージン、注文したβ > 0のカラム平均が高い平均値(およびそれ以上行と比較されていることを意味| βを|、大きなは、2つのジョイント確率分布との違いは、π Bπをb a are、これは行と列の周辺分布の違いに反映されます)。β = 0の検定β=0β0β>0|β|πabπbaβ=0限界均一性のテストに対応します。推定の解釈簡単である:変数に関するスコアと推定確率Xであり、Xの上のスコアよりも正単位Yは、であるEXP β X 回逆確率。あなたの特定のケースでは、それがあることを意味βが他にある特定のスピーカー与える影響を定量化することが可能かもしれません。βバツバツYexpβ^バツβ^

注目すべきことに、すべてのRコードは、アグレスティのカテゴリカルデータ分析に伴うSマニュアルでローラトンプソンによって提供されました。

以下、Rコードの例をいくつか示します。これを使用して、独自のデータでそれを操作できます。それでは、最初にいくつかのデータを生成してみましょう:

set.seed(56)
d <- as.data.frame(replicate(2, rpois(420, 1.5)))
colnames(d) <- paste("S", 1:2, sep="")
d.tab <- table(d$S1, d$S2, dnn=names(d)) # or xtabs(~S1+S2, d)
library(vcdExtra)
structable(~S1+S2, data=d)
# library(ggplot2)
# ggfluctuation(d.tab, type="color") + labs(x="S1", y="S2") + theme_bw()

視覚的には、クロス分類は次のようになります。

   S2  0  1  2  3  4  5  6
S1                        
0     17 35 31  8  7  3  0
1     41 41 30 23  7  2  0
2     19 43 18 18  5  0  1
3     11 21  9 15  2  1  0
4      0  3  4  1  0  0  0
5      1  0  0  2  0  0  0
6      0  0  0  1  0  0  0

これで、OQSモデルを適合させることができます。glm()対称性に基本関数とカスタム設計行列を使用したLaura Thompsonとは異なり、gnmパッケージに依存できます。ただし、上記のモデルでを推定するには、数値スコアのベクトルを追加する必要があります。β

library(gnm)
d.long <- data.frame(counts=c(d.tab), S1=gl(7,1,7*7,labels=0:6),
                     S2=gl(7,7,7*7,labels=0:6))
d.long$scores <- rep(0:6, each=7)
summary(mod.oqs <- gnm(counts~scores+Symm(S1,S2), data=d.long, 
                       family=poisson))
anova(mod.oqs)

ここで、我々はβ = 0.123このように、確率をそのスピーカーBスコア4スピーカーAスコア3である場合EXP 0.123 = 1.13スピーカーAは、4のスコアを持っていながら、スピーカーBは3のスコアを持っていること回確率。β^=0.123exp0.123=1.13

最近、同様の機能を提供しているように見えるcatspec Rパッケージに出くわしましたが、試しませんでした。UseRで良いチュートリアルがありました!このすべてについての2009年:Rの一般化非線形モデルの概要、および付属のビネット、Rの一般化非線形モデルも参照してください:gnmパッケージの概要

β^

table.10.5 <- data.frame(expand.grid(PreSex=factor(1:4),
                                     ExSex=factor(1:4)),
                         counts=c(144,33,84,126,2,4,14,29,0,2,6,25,0,0,1,5))
table.10.5$scores <- rep(1:4,each=4)
summary(mod.oqs <- gnm(counts~scores+Symm(PreSex,ExSex), data=table.10.5, 
                       family=poisson)) # beta = -2.857
anova(mod.oqs) # G^2(5)=2.10

うわー、これは本当に便利そうです。誰もが引用しているようですので、この本はなるべく早く入手します。それまでの間、単なる素朴な質問です。これらのモデルは任意の数のランダム効果を処理できますか?モデルには3が必要だと思います。
Alan H.

@Alan私たち(@caracalと私)は同じ本を引用していないことに注意してください。CDAはより完全なものですが、Laura Thompsonの教科書には、各章の要約がすでに約10ページ含まれています。最初に彼女の教科書を見てください。ICDAは、Googleの本で利用できると思います。
chl

πab<πbaπab>πbaa<b

2

カテゴリカルデータを並べたように思われるので、Agresti(2007、p229 ff)によって説明されているような線形ごとのテストをお勧めします。lbl_test()パッケージの機能はcoinRで実装されています。

Agresti、A.(2007)。カテゴリーデータ分析の紹介。第二版 ニュージャージー州ホーボーケン:John Wiley&Sons。ニュージャージー州ホーボーケン:ワイリー。


0

ランク相関分析から始めます。
問題は、キャプチャしようとしている効果が小さいため、相関が非常に低い可能性があることです。

ケンドールとスピアマンの両方の相関係数は、

cor(x=A, y=B, method = "spearman")  
cor(x=A, y=B, method = "kendall")

1
0

私はこれを試しました。しかし、非常に多くの0があるので、それをどうするかわかりません。..私はどちらかのスピーカーはこれらの構造(すなわち、データポイントは、いずれかの軸に沿って下落するだろう)を全く使用しないする任意の会話を除いてみましたが、結果スピアマンの相関は有意ではなかった(と係数が非常に小さいものであった)
アラン・H.
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.