分割表のふるい/モザイクプロットの代替


17

インターネット上のカテゴリデータ(コンティンジェンシーテーブル)のタイプのプロットに出くわしましたが、それは本当に好きでしたが、それを二度と見つけたことがなく、それが何であるかさえ知りません。行の高さと列の幅が限界確率に対してスケーリングされているという点で、それは本質的にふるいプロットのようなものでした。したがって、各ボックスは、独立性の下で予想される相対頻度にスケーリングされました。ただし、各ボックス内にクロスハッチングをプロットするのではなく、各観測の二変量ユニフォームからランダムに選択された位置に点(散布図のように)をプロットするという点で、シーブプロットとは異なりました。このように、ポイントの密度は、観測されたカウントが期待されるカウントとどれだけ一致しているかを反映しています。つまり、すべてのボックスで密度が類似している場合、nullモデルは妥当です。)は、nullモデルではあまりありそうにないかもしれません。クロスハッチングの代わりにポイントがプロットされるため、プロットされる要素と観測カウントの間にはシンプルで直感的な対応がありますが、これは必ずしもシーブプロットには当てはまりません(以下を参照)。さらに、ポイントのランダムな配置は、プロットに「有機的な」感触を与えます。さらに、色を使用して、ヌルモデルから大きく分岐するボックス/セルを強調表示することができ、プロットマトリックスを使用して多くの異なる変数間のペアワイズ関係を調べることができるため、同様のプロットの利点を組み込むことができます。 i,j

  • 誰もこのプロットが何と呼ばれているのか知っていますか?
  • Rや他のソフトウェア(モンドリアンなど)でこれを簡単に行うパッケージ/関数はありますか?vcdにその ようなものが見つかりません。もちろん、ゼロからハードコーディングすることもできますが、それは苦痛です。

ふるいプロットの簡単な例を次に示します。さまざまなカテゴリの予想カウントがnullモデルの下でどのように再生されるかは簡単にわかりますが、クロスハッチングを実際の数値と一致させるのは難しく、非常に読みやすく、審美的に恐ろしい:

    B ~B
 A 38  4
~A  3 19

ここに画像の説明を入力してください
価値があることに関しては、モザイクプロットには逆の問題があります:どのセルが(多すぎる)または(少なすぎる)カウント(nullモデルに対して)を持っているかを確認するのは簡単ですが、その関係を認識することはより困難です期待されたカウントはそうだったでしょう。具体的には、列の幅は限界確率に比例してスケーリングされますが、行の高さはスケーリングされないため、その情報を抽出することはほぼ不可能になります。
ここに画像の説明を入力してください
そして今、完全に異なるもののために...

  • 「多すぎる」に青を、「少なすぎる」に赤を使用する規則がどこから来たのか誰もが知っていますか?これは常に私にとって直観に反するものでした。非常に高い密度(または観測値が多すぎる)は高温になり、低密度は低温になり、(少なくともステージ照明では)赤は暖かく、青は冷たくなるように思えます。

更新: 正しく覚えていれば、私が見たプロットは、マーケティングのティーザーとしてオンラインで自由に利用できるようになった本の章(紹介またはch1)のpdfにありました。ここにゼロからコーディングしたアイデアの大まかなバージョンがあります:
ここに画像の説明を入力してください
この粗いバージョンでも、シーブプロットよりも読みやすく、モザイクプロットよりもいくつかの点で簡単だと思います(たとえば、関係の認識が簡単です)セル周波数の間は独立しています)。次の機能があると便利です任意の分割表でこれを自動的に行いますプロットマトリックスの構成要素として使用でき、c。 上記のプロットに付属する優れた機能があります(モザイクプロットの標準化された残差凡例など)。


それで、あなたは本質的に異なる種類の塗りつぶしを持つモザイクプロットが欲しいですか?ないR機能はassocplot近いあなたが何を意味するかに来ますか?そうでない場合、Rプログラマーはそれを変更するか、mosaicplotあなたが望むことをすることができると思います。
ピーターフロム-モニカの復職

1
関連する参考文献、可視化のための残差ベースのシェーディング(条件付き)独立(Zeileis et al。2007)、こちらのPDF、およびいくつかの参考文献を使用した分割表の可視化に関する別のスレッド。Zeileisの記事には、最後の質問に答える可能性のある色に関する素晴らしい議論があると思います(参照しているチャートを引用しているかどうかを確認するには、参考文献をよく読んでください)。
アンディW

反対に、@ PeterFlom、本質的に異なる種類の塗りつぶしのふるいプロットが必要です。あるいは、表示されたボックスが、独立した期待周波数(および異なるタイプの塗りつぶし)に対してスケーリングされたモザイクプロットが必要だと言うこともできます。
GUNG -復活モニカ

「「多すぎる」に青を、「少なすぎる」に赤を使用する慣習がどこから来たのか誰も知っていますか?これは私にとって常に直感に反するものでした。」いい視点ね。それは確かに直観に反しています。光スペクトルは右の赤(より短い波長に関連付けられた)左の青色から略進む(より大きい波長に関連付けられています)。モザイクディスプレイは、これを逆にしたようです
...-landroni

ふるい図の考え方は、各セルのボックスの数が観測された頻度に比例するため、相対密度が予想される頻度よりも大きいまたは小さいことを示しています。色が気に入らない場合は、デフォルトから簡単に変更できます。デフォルトのふるいシェーディング機能が気に入らない場合は、たとえば、shading.points()上記で引用したvcdパッケージ内でビネットとして使用可能な構造フレームワーク内で、簡単に独自の関数を作成して、必要な処理を行うことができます。
user101089

回答:


15

あなたが説明した本は、「カテゴリデータの視覚化」マイケルフレンドリーのように聞こえます。リクエストに一致すると思われる第1章で説明されているプロットは、コンティンジェンシーテーブルデータを視覚化するための概念モデルのタイプとして記述され(観測密度を持つ動的圧力モデルとして著者によって大まかに記述されています)、Googleプレビューで見ることができますCh 1の場合。この本はSASユーザー向けです。

このトピックに関する論文はこちらから参照できます: www.datavis.ca/papers/koln/kolnpapr.pdf

「分割表データを視覚化するための概念モデル」、Michael Friendly。

http://i47.tinypic.com/148n5n7.jpg

ここに画像の説明を入力してください

*偶然にも、著者はvcdパッケージの著者の1人としてリストされています(上記の彼の本に具体的に触発されたため)-おそらく、すぐにはわかりません。

**配色は、青を独立からの正の偏差に関連付け、赤を負の偏差に関連付けているようです。その文脈では赤のスキームは理にかなっていますが、多分、正の偏差を表すために緑を使用する方が適切だったでしょう。

http://www.datavis.ca/papers/asa92.html


2
素晴らしい仕事が謎を解きました!さまざまな小冊子でプレビューするのではなく、実際に本を購入し、ライブラリから時々章を送ってもらう必要があります。IMOこの形式の視覚化は、地図製作者が「ドットマップ」と呼ぶものを何度も思い出させ、そこからの文献を利用して、ドットが線やクロスハッチングよりも優れた視覚化ツールであることを正当化できます。また、ドットの優先的な配置に関しても優れた文献です。
アンディW

これは私に良いスタートを与えます。ご協力いただきありがとうございます。
GUNG -復活モニカ

1

おそらくあなたが見たものではないかもしれませんが、独立性の下で期待される逸脱を視覚化するために、 対応プロットは十分に動機付けられています。

http://www.jstatsoft.org/v20/i03/

(余談ですが、SASとMフレンドリーの本は、推奨される調整について誤解されており、多くのプロットにはアーティファクトがあり、これは彼らの知覚価値から気をそらしたかもしれません。)


あなたの助けをありがとう、私は通信プロットが好きです。間違っていたこの推奨される調整について詳しく説明できますか?どのような調整でしたか?どのように不正確でしたか?そして、プロットのどこが悪かったのですか?
GUNG -復活モニカ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.