私はあることをあなたの質問を取る:あなたはどのように検出条件が適切なが存在変換を行い、その際に、むしろ論理的な条件は何よりも、です。探査、特にグラフィカルデータ探査を使用してデータ分析をブックエンド処理することは、常に素晴らしいことです。(さまざまなテストを実行できますが、ここではグラフィカルEDAに焦点を当てます。)
カーネル密度プロットは、各変数の単変量分布の初期概要について、ヒストグラムよりも優れています。複数の変数がある場合、散布図行列は便利です。Lowessも最初は常にお勧めです。これにより、関係がほぼ線形かどうかをすばやく簡単に確認できます。ジョンフォックスの車のパッケージは、これらを便利に組み合わせています。
library(car)
scatterplot.matrix(data)
変数が列であることを確認してください。多くの変数がある場合、個々のプロットは小さくなります。プロットウィンドウを最大化し、散布図は、個別に調べたいプロットを選択して単一のプロットを作成するのに十分な大きさである必要があります。例えば、
windows()
plot(density(X[,3]))
rug(x[,3])
windows()
plot(x[,3], y)
lines(lowess(y~X[,3]))
重回帰モデルをあてはめた後も、単純な線形回帰と同様に、データをプロットして確認する必要があります。残差のQQプロットは必要なだけであり、以前と同様の手順に従って、予測子に対して残差の散布図行列を作成できます。
windows()
qq.plot(model$residuals)
windows()
scatterplot.matrix(cbind(model$residuals,X))
疑わしいものがある場合は、個別にプロットabline(h=0)し、視覚的なガイドとしてを追加します。相互作用がある場合は、X [、1] * X [、2]変数を作成し、それに対して残差を調べることができます。同様に、残差vs. X [、3] ^ 2などの散布図を作成できます。残差vs. x以外の他のタイプのプロットも同様に行うことができます。これらはすべて、プロットされていない他のx次元を無視していることに注意してください。データがグループ化されている場合(つまり、実験から)、マージナルプロットの代わりに/の代わりに部分プロットを作成できます。
お役に立てば幸いです。