分割表のふるい/モザイクプロットの代替
インターネット上のカテゴリデータ(コンティンジェンシーテーブル)のタイプのプロットに出くわしましたが、それは本当に好きでしたが、それを二度と見つけたことがなく、それが何であるかさえ知りません。行の高さと列の幅が限界確率に対してスケーリングされているという点で、それは本質的にふるいプロットのようなものでした。したがって、各ボックスは、独立性の下で予想される相対頻度にスケーリングされました。ただし、各ボックス内にクロスハッチングをプロットするのではなく、各観測の二変量ユニフォームからランダムに選択された位置に点(散布図のように)をプロットするという点で、シーブプロットとは異なりました。このように、ポイントの密度は、観測されたカウントが期待されるカウントとどれだけ一致しているかを反映しています。つまり、すべてのボックスで密度が類似している場合、nullモデルは妥当です。)は、nullモデルではあまりありそうにないかもしれません。クロスハッチングの代わりにポイントがプロットされるため、プロットされる要素と観測カウントの間にはシンプルで直感的な対応がありますが、これは必ずしもシーブプロットには当てはまりません(以下を参照)。さらに、ポイントのランダムな配置は、プロットに「有機的な」感触を与えます。さらに、色を使用して、ヌルモデルから大きく分岐するボックス/セルを強調表示することができ、プロットマトリックスを使用して多くの異なる変数間のペアワイズ関係を調べることができるため、同様のプロットの利点を組み込むことができます。 i,ji,ji,j 誰もこのプロットが何と呼ばれているのか知っていますか? Rや他のソフトウェア(モンドリアンなど)でこれを簡単に行うパッケージ/関数はありますか?vcdにその ようなものが見つかりません。もちろん、ゼロからハードコーディングすることもできますが、それは苦痛です。 ふるいプロットの簡単な例を次に示します。さまざまなカテゴリの予想カウントがnullモデルの下でどのように再生されるかは簡単にわかりますが、クロスハッチングを実際の数値と一致させるのは難しく、非常に読みやすく、審美的に恐ろしい: B ~B A 38 4 ~A 3 19 価値があることに関しては、モザイクプロットには逆の問題があります:どのセルが(多すぎる)または(少なすぎる)カウント(nullモデルに対して)を持っているかを確認するのは簡単ですが、その関係を認識することはより困難です期待されたカウントはそうだったでしょう。具体的には、列の幅は限界確率に比例してスケーリングされますが、行の高さはスケーリングされないため、その情報を抽出することはほぼ不可能になります。 そして今、完全に異なるもののために... 「多すぎる」に青を、「少なすぎる」に赤を使用する規則がどこから来たのか誰もが知っていますか?これは常に私にとって直観に反するものでした。非常に高い密度(または観測値が多すぎる)は高温になり、低密度は低温になり、(少なくともステージ照明では)赤は暖かく、青は冷たくなるように思えます。 更新: 正しく覚えていれば、私が見たプロットは、マーケティングのティーザーとしてオンラインで自由に利用できるようになった本の章(紹介またはch1)のpdfにありました。ここにゼロからコーディングしたアイデアの大まかなバージョンがあります: この粗いバージョンでも、シーブプロットよりも読みやすく、モザイクプロットよりもいくつかの点で簡単だと思います(たとえば、関係の認識が簡単です)セル周波数の間は独立しています)。次の機能があると便利です。任意の分割表でこれを自動的に行います。プロットマトリックスの構成要素として使用でき、c。 上記のプロットに付属する優れた機能があります(モザイクプロットの標準化された残差凡例など)。