以下の関係を示す最良の方法は何ですか?
- 連続変数と離散変数、
- 2つの離散変数?
これまで、散布図を使用して連続変数間の関係を調べてきました。ただし、離散変数の場合、データポイントは特定の間隔で累積されます。したがって、最適なラインは偏っている可能性があります。
以下の関係を示す最良の方法は何ですか?
これまで、散布図を使用して連続変数間の関係を調べてきました。ただし、離散変数の場合、データポイントは特定の間隔で累積されます。したがって、最適なラインは偏っている可能性があります。
回答:
以下:変数の離散的な性質によりポイントが重複するため、元のプロットは誤解を招く可能性があります。
この問題を回避する1つの方法は、データシンボルに透明度を導入することです。
別の方法は、シンボルの位置を穏やかにずらして塗抹標本を作成することです。この手法は「ジッタリング」と呼ばれます。
どちらのソリューションでも、直線を近似して直線性を評価できます。
参考のためのRコード:
x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)
箱型図を使用して、離散変数と連続変数の関係を表示します。標準の統計ソフトウェアを使用して、箱ひげ図を垂直または水平に作成できるため、IVまたはDVとして視覚化するのは簡単です。ある離散と連続変数との散布図を使用することができ、ちょうど離散変数(例えば、1&2)、およびジッタそれらの値(右側のノートトッププロットに番号を割り当てるここ)。
最適なラインが偏っている可能性があるというあなたのコメントに関して、それはあなたが持っているものに依存します。たとえば、IVとして2つのレベルを持ち、DVとして連続変数を持つ離散変数がある場合、2つの手段を通る線を引くことができ、これは偏りません。(通常、この状況はt検定に適していると考えますが、実際には回帰の形式、つまり単純なケースです。ここでの私の答えを参照してください。)一方、 DVとして2つのレベルを持つ変数、標準(OLS)回帰は不適切であり(ロジスティック回帰が求められます)、最適なラインにバイアスがかかりますが、初期の一部として最低ラインをフィット(&プロット)できますデータ探索。
2つの離散変数間の関係を視覚化するには、モザイクプロットを使用します。また、ふるいプロット、関連プロット、または動的プログラミングをプログラミングで使用することもできます。
私はhttp://www.boekboek.com/xb130929113026の 2つのバイナリ変数間の関連付けに適用可能な論文を見つけました-ここでは、その記事で2つのバイナリ変数間の関連付けの強さを分数で表すことができることを証明しました完全な関連付け。したがって、次のように述べることが可能になります:変数Aと変数Bの間の関連付けは、たとえば、現在の状態ではなく50%です:OR = 9(解釈するのは簡単ではありません)または現実的なリスク= 2(現在、相対的なリスクが考慮されます実際にはそれは関連性、有病率または発生率および陽性の関数であるが、関連性の尺度となることもできる。