離散変数と連続変数の関係を視覚化する最良の方法は何ですか?


19

以下の関係を示す最良の方法は何ですか?

  • 連続変数と離散変数、
  • 2つの離散変数?

これまで、散布図を使用して連続変数間の関係を調べてきました。ただし、離散変数の場合、データポイントは特定の間隔で累積されます。したがって、最適なラインは偏っている可能性があります。


4
離散離散ケースの場合、順序付けされたカテゴリデータをプロットする際のここでやや関連する質問に対するこの回答が役立ちます(ただし、場合によってはボックスがありません)。この「バイアス」がどのように発生するのか、私には本当にわかりません。実際のデータ自体ではなく、データポイントの視覚的な印象に影響します(ラインが本来あるべき場所以外に行くことを期待して使用することになります)。ここであなたの推論を説明できますか?
Glen_b -Reinstateモニカ

回答:


26

以下:変数の離散的な性質によりポイントが重複するため、元のプロットは誤解を招く可能性があります。

ここに画像の説明を入力してください

この問題を回避する1つの方法は、データシンボルに透明度を導入することです。

ここに画像の説明を入力してください

別の方法は、シンボルの位置を穏やかにずらして塗抹標本を作成することです。この手法は「ジッタリング」と呼ばれます。

ここに画像の説明を入力してください

どちらのソリューションでも、直線を近似して直線性を評価できます。

参考のためのRコード:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)

1
いい答えだ。可変インスタンス数のバブル散布図はどうですか?大規模なデータセットでこれらの手法を使用してみましたが、アルファのレンダリングに時間がかかりすぎました。
ジョシュ

14

箱型図を使用して、離散変数と連続変数の関係を表示します。標準の統計ソフトウェアを使用して、箱ひげ図を垂直または水平に作成できるため、IVまたはDVとして視覚化するのは簡単です。ある離散と連続変数との散布図を使用することができ、ちょうど離散変数(例えば、1&2)、およびジッタそれらの値(右側のノートトッププロットに番号を割り当てるここ)。

最適なラインが偏っている可能性があるというあなたのコメントに関して、それはあなたが持っているものに依存します。たとえば、IVとして2つのレベルを持ち、DVとして連続変数を持つ離散変数がある場合、2つの手段を通る線を引くことができ、これは偏りません。(通常、この状況はt検定に適していると考えますが、実際には回帰の形式、つまり単純なケースですここでの私の答えを参照してください。)一方、 DVとして2つのレベルを持つ変数、標準(OLS)回帰は不適切であり(ロジスティック回帰が求められます)、最適なラインにバイアスがかかりますが、初期の一部として最低ラインをフィット(&プロット)できますデータ探索。

2つの離散変数間の関係を視覚化するには、モザイクプロットを使用します。また、ふるいプロット関連プロット、または動的プログラミングをプログラミングで使用することもできます。


8

バイナリの結果変数と連続予測子の関係を考慮するとき、私は黄土スムーザーを使用します(たとえば、Rで外れ値の検出をオフにしlowess(x, y, iter=0)ます)。

R Hmiscパッケージの次のリリースでは、latticeこのような曲線を複数の予測変数用のマルチパネル表示に入れる単一のグラフィックを簡単に作成できます。

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)

1

単純な散布図に満足できない場合は、離散変数の各値でデータポイントの頻度を追加することができます。これを行う方法は、使用している統計プログラムによって異なります。ここでのStataのため。これを2つのカテゴリ変数の散布図に適用することもできます。それ以外の場合、ボックスプロットまたはオーバーレイされた棒グラフは問題ないかもしれませんが、これはこれらの変数をどのように表示したいかによって異なります。


1

私はhttp://www.boekboek.com/xb130929113026の 2つのバイナリ変数間の関連付けに適用可能な論文を見つけました-ここでは、その記事で2つのバイナリ変数間の関連付けの強さを分数で表すことができることを証明しました完全な関連付け。したがって、次のように述べることが可能になります:変数Aと変数Bの間の関連付けは、たとえば、現在の状態ではなく50%です:OR = 9(解釈するのは簡単ではありません)または現実的なリスク= 2(現在、相対的なリスクが考慮されます実際にはそれは関連性、有病率または発生率および陽性の関数であるが、関連性の尺度となることもできる。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.