2つの順序変数間の関係を示す適切なグラフは何ですか?
私が考えることができるいくつかのオプション:
- ランダムジッタを追加した散布図で、ポイントが互いに隠れないようにします。どうやら標準グラフィック-Minitabではこれを「個別値プロット」と呼んでいます。私の意見では、データがインターバルスケールからのものであるかのように、順序レベル間の一種の線形補間を視覚的に促進するため、誤解を招く可能性があります。
- 散布図は、サンプリング単位ごとに1つのポイントを描画するのではなく、ポイントのサイズ(面積)がそのレベルの組み合わせの頻度を表すように適合されています。実際にそのようなプロットを見たことがあります。読みづらい場合もありますが、ポイントは規則的に間隔を空けた格子上にあり、データを視覚的に「間引く」というジッター散布図の批判をある程度克服します。
- 特に、変数の1つが従属変数として扱われる場合、独立変数のレベルでグループ化されたボックスプロット。従属変数のレベルの数が十分に高くない場合はひどいように見える可能性があります(ウィスカが欠けているか、さらに中央値の視覚的な識別が不可能なさらに悪化した四分位で非常に「フラット」)が、少なくとも中央値と四分位数に注意を引きます順序変数の関連する記述統計。
- 頻度を示すヒートマップを含むセルの値の表または空白のグリッド。視覚的には異なりますが、散布図と概念的には類似しており、ポイントエリアに周波数が表示されます。
他のアイデア、またはどのプロットが望ましいかについての考えはありますか?特定の序数対序数プロットが標準とみなされる研究分野はありますか?(私は、周波数ヒートマップがゲノミクスで広まっていることを思い出すようですが、名目対名義の方が多いと思われます。)良い標準参照の提案も大歓迎です。Agrestiから何かを推測しています。
プロットで説明したい場合は、偽のサンプルデータのRコードが続きます。
「運動はあなたにとってどれほど重要ですか?」1 =まったく重要ではない、2 =やや重要でない、3 =重要でも重要でもない、4 =やや重要、5 =非常に重要。
「10分以上のランニングをどのくらい定期的に受けますか?」1 =しない、2 = 2週間に1回未満、3 = 1週間または2週間に1回、4 =週に2回または3回、5 =週に4回以上。
「頻繁に」を従属変数として扱い、「重要性」を独立変数として扱うことが自然な場合、プロットが2つを区別する場合。
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
連続変数に関する関連する質問は、おそらく有用な出発点かもしれません。2つの数値変数間の関係を調べるときの散布図の代替手段は何ですか?