タグ付けされた質問 「scatterplot」

デカルト座標の点としてプロットされた(x、y)値のペア。探索的および診断ツールとして広く使用されています。

7
2つの順序変数間の関係のグラフ
2つの順序変数間の関係を示す適切なグラフは何ですか? 私が考えることができるいくつかのオプション: ランダムジッタを追加した散布図で、ポイントが互いに隠れないようにします。どうやら標準グラフィック-Minitabではこれを「個別値プロット」と呼んでいます。私の意見では、データがインターバルスケールからのものであるかのように、順序レベル間の一種の線形補間を視覚的に促進するため、誤解を招く可能性があります。 散布図は、サンプリング単位ごとに1つのポイントを描画するのではなく、ポイントのサイズ(面積)がそのレベルの組み合わせの頻度を表すように適合されています。実際にそのようなプロットを見たことがあります。読みづらい場合もありますが、ポイントは規則的に間隔を空けた格子上にあり、データを視覚的に「間引く」というジッター散布図の批判をある程度克服します。 特に、変数の1つが従属変数として扱われる場合、独立変数のレベルでグループ化されたボックスプロット。従属変数のレベルの数が十分に高くない場合はひどいように見える可能性があります(ウィスカが欠けているか、さらに中央値の視覚的な識別が不可能なさらに悪化した四分位で非常に「フラット」)が、少なくとも中央値と四分位数に注意を引きます順序変数の関連する記述統計。 頻度を示すヒートマップを含むセルの値の表または空白のグリッド。視覚的には異なりますが、散布図と概念的には類似しており、ポイントエリアに周波数が表示されます。 他のアイデア、またはどのプロットが望ましいかについての考えはありますか?特定の序数対序数プロットが標準とみなされる研究分野はありますか?(私は、周波数ヒートマップがゲノミクスで広まっていることを思い出すようですが、名目対名義の方が多いと思われます。)良い標準参照の提案も大歓迎です。Agrestiから何かを推測しています。 プロットで説明したい場合は、偽のサンプルデータのRコードが続きます。 「運動はあなたにとってどれほど重要ですか?」1 =まったく重要ではない、2 =やや重要でない、3 =重要でも重要でもない、4 =やや重要、5 =非常に重要。 「10分以上のランニングをどのくらい定期的に受けますか?」1 =しない、2 = 2週間に1回未満、3 = 1週間または2週間に1回、4 =週に2回または3回、5 =週に4回以上。 「頻繁に」を従属変数として扱い、「重要性」を独立変数として扱うことが自然な場合、プロットが2つを区別する場合。 importance <- rep(1:5, times = c(30, 42, 75, 93, 60)) often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1 rep(1:5, times = c(10, …

6
Rプロットでラベルが重複しないようにするにはどうすればよいですか?[閉まっている]
私はRで非常に簡単な散布図にラベルを付けようとしています。これは私が使用するものです: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) ご覧のとおり、結果は平凡です(クリックして拡大)。 textxy関数を使用してこれを補正しようとしましたが、それは良くありません。画像自体を大きくしても、密集したクラスターでは機能しません。 これを補正し、R が重ならないラベルをプロットできるようにする機能や簡単な方法はありますか? ここに私が持っているデータの小さなサブセットがあります: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

9
このプロットの
次のプロットのYYYとXの関係は何XXXですか?私の見解では、負の線形関係がありますが、多くの外れ値があるため、関係は非常に弱いです。私は正しいですか?散布図をどのように説明できますか。

3
ggplot2の散布図領域の周りにきちんとしたポリゴンを描く方法[非公開]
散布図上のポイントのグループの周りにきちんとしたポリゴンを追加するにはどうすればよいですか?私はggplot2を使用していますが、の結果には失望していますgeom_polygon。 データセットは、タブ区切りテキストファイルとしてそこにあります。以下のグラフは、多くの国における健康と失業に対する態度の2つの指標を示しています。 私はgeom_density2dより派手ではないが経験的により正確なものに切り替えたいgeom_polygonです。ソートされていないデータの結果は役に立ちません: min-max yx値の周りの輪郭パスとして動作する「きれいな」ポリゴンを描画するにはどうすればよいですか?データを無用にソートしようとしました。 コード: print(fig2 <- ggplot(d, aes(man, eff, colour=issue, fill=issue)) + geom_point() + geom_density2d(alpha=.5) + labs(x = "Efficiency", y = "Mandate")) dオブジェクトを用いて得られる、このCSVファイル。 溶液: ウェイン、アンディ・W、その他の彼らのポインターに感謝します!データ、コード、グラフはGitHubに投稿されています。結果は次のようになります。

3
Rを使用して、処理ごとにデータを分離する散布図を作成する良い方法は何ですか?
私は一般的にRと統計について非常に新しいですが、私はそのネイティブの能力を超えていると思われる散布図を作成する必要があります。 観測値のベクトルがいくつかあり、それらを使用して散布図を作成します。各ペアは3つのカテゴリのうちの1つに分類されます。色または記号で各カテゴリを区切る散布図を作成したいと思います。これは、3つの異なる散布図を生成するよりも優れていると思います。 各カテゴリでは、ある時点で大きなクラスターが存在するという事実に別の問題がありますが、クラスターは他の2つのグループよりも1つのグループで大きくなります。 誰かがこれを行う良い方法を知っていますか?パッケージをインストールして使用方法を学習する必要がありますか?誰でも似たようなことをしましたか? ありがとう

2
等高線/熱オーバーレイを使用した散布図
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 最近の論文の補足でこのプロットを見て、Rを使用して再現できるようにしたいと思います。それは散布図ですが、オーバープロットを修正するために、「熱」に対応する等高線があります。密度のオーバープロット。どうすればいいですか?

2
さまざまな条件下での2つの数値変数間の関連性をグラフ化するためのヒントを含む優れたオンラインリソース
コンテキスト: その間、2つの数値変数間の関連を効果的にプロットする方法に関する一連のヒューリスティックを取得しました。データを扱うほとんどの人が同様のルールを持っていると思います。 このようなルールの例は次のとおりです。 変数の1つが正に歪んでいる場合、その軸を対数目盛でプロットすることを検討してください。 多数のデータポイントがある場合(たとえば、n> 1000)、何らかの形式の部分透過性の使用やデータのサンプリングなど、別の戦略を採用します。 変数の1つが限られた数の離散カテゴリをとる場合、ジッターまたはヒマワリプロットの使用を検討してください。 3つ以上の変数がある場合、散布図行列の使用を検討してください。 何らかの形のトレンドラインを当てはめることはしばしば有用です。 プロット文字のサイズをサンプルサイズに調整します(nが大きい場合は、より小さいプロット文字を使用します)。 等々。 質問: おそらく例を挙げて、2つの数値変数間の関連性を効果的にプロットするためのこれらおよびその他のトリックを説明するWebページまたはサイトを生徒に紹介できるようにしたいと思います。 インターネット上でこれをうまく機能させるページやサイトはありますか?

2
追加変数プロット(部分回帰プロット)は、重回帰で何を説明しますか?
Moviesデータセットのモデルがあり、回帰を使用しました。 model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) 出力は次のとおりです。 今、私は最初にAdded Variable Plotと呼ばれるものを試しましたが、次の出力が得られました: avPlots(model, id.n=2, id.cex=0.7) 問題は、Googleを使用して追加変数プロットを理解しようとしましたが、その深さを理解できませんでした。プロットを見て、出力に関連する各入力変数に基づいたスキューの表現の種類を理解しました。 データの正規化を正当化する方法など、もう少し詳細を取得できますか?

1
一般化線形モデルの仮定
単一の応答変数(連続/正規分布)と4つの説明変数(3つは因子で、4つ目は整数)を使用して、一般化線形モデルを作成しました。アイデンティティリンク関数でガウス誤差分布を使用しました。現在、モデルが一般化線形モデルの仮定を満たしていることを確認しています: Yの独立 正しいリンク機能 説明変数の正しい尺度 影響のある観測はありません 私の質問は、モデルがこれらの仮定を満たしていることをどのように確認できますか?最良の出発点は、各説明変数に対して応答変数をプロットすることです。ただし、説明変数のうち3つはカテゴリ(1〜4レベル)であるため、プロットで何を探す必要がありますか? また、説明変数間の多重共線性と相互作用をチェックする必要がありますか?はいの場合、カテゴリー説明変数を使用してこれを行うにはどうすればよいですか?

5
この散布図の解釈方法は?
x軸の人数とy軸の給与の中央値に等しいサンプルサイズの散布図があります。サンプルサイズが給与の中央値に影響するかどうかを確認しようとしています。 これはプロットです: このプロットをどのように解釈しますか?


3
複数の新しいラインで散布図を議論する方法は?
2つの変数を測定しましたが、散布図は複数の「線形」モデルを示唆しているようです。それらのモデルを蒸留しようとする方法はありますか?他の独立変数を識別することは困難であることが判明しました。 両方の変数は大きく左に歪んでいます(小さな数字に向かって)。これは、私たちのドメインで予想される分布です。ドットの強度は、この&lt; x 、y &gt;でのデータポイントの量(スケール)を表します。 log10log10\log_{10}&lt;x,y&gt;&lt;x,y&gt; あるいは、ポイントをクラスター化する方法はありますか? 私たちの分野では、これらの2つの変数は線形に相関すると主張されています。私たちは、なぜデータに当てはまらないのかを理解/説明しようとしています。 (注、1700万のデータポイントがあります) 更新:すべての答えに感謝します、ここにいくつかの要求された説明があります: 両方の変数は整数のみであり、対数散布図のパターンの一部を説明しています。 幸い、定義により、両方の変数の最小値は1です。 7M点はである(データの左歪度によって「説明」)&lt;3,1&gt;&lt;3,1&gt;<3,1> 要求されたプロットは次のとおりです。 対数散布図: (空白は整数値が原因です) log-log polar: θ=yθ=y\theta = y 比率のヒストグラム: 以来周波数は、対数スケールであるバー7M点であり、他のバーを隠すことになります。1/31/31/3

1
ggplotまたはellipseパッケージで95%CI楕円をプロットすると異なる結果が得られる
protoclust{protoclust}データの分類に使用される変数のペアごとにスキャッタープロットを作成し、クラスごとに色を付け、各クラスの95%信頼区間の楕円を重ねることで(で作成された)クラスタリングの結果を視覚化したいelipses-classesは、変数の各ペアの下で重複しています。 楕円の描画を2つの異なる方法で実装しましたが、結果の楕円が異なります!(最初の実装では楕円が大きくなります!)軸の中心と角度はどちらも似ているように見えるので、アプリオリはサイズが異なるだけです(多少のスケーリング?)。私はそれらの1つ(両方ではないことを願っています!)、または引数を使用して何か間違ったことをしているに違いないと思います。 誰かが私が間違っていることを教えてもらえますか? ここに2つの実装のコードがあります。どちらも、データ楕円をどのようにしてggplot2散布図に重ね合わせることができるかという答えに基づいています。 ### 1st implementation ### using ellipse{ellipse} library(ellipse) library(ggplot2) library(RColorBrewer) colorpal &lt;- brewer.pal(10, "Paired") x &lt;- data$x y &lt;- data$y group &lt;- data$group df &lt;- data.frame(x=x, y=y, group=factor(group)) df_ell &lt;- data.frame() for(g in levels(df$group)){df_ell &lt;- rbind(df_ell, cbind(as.data.frame(with(df[df$group==g,], ellipse(cor(x, y),scale=c(sd(x),sd(y)),centre=c(mean(x),mean(y))))),group=g))} p1 &lt;- ggplot(data=df, aes(x=x, y=y,colour=group)) + geom_point() + …

3
大きなN、離散データ、および多くの変数がある場合、散布図行列から情報を抽出する方法は?
私は乳がんのデータセットをいじって、すべての属性の散布図を作成して、(赤)のクラスmalignant(青)の予測に最も影響を与えるものを把握しましたbenign。 行がx軸を表し、列がy軸を表すことを理解していますが、この散布図のデータまたは属性についてどのような観測ができるかわかりません。 この散布図からのデータを解釈/観察するためのヘルプ、またはこのデータを視覚化するために他の視覚化を使用する必要があるかどうかを探しています。 使用したRコード link &lt;- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast &lt;- read.arff(link) cols &lt;- character(nrow(breast)) cols[] &lt;- "black" cols[breast$class == 2] &lt;- "red" cols[breast$class == 4] &lt;- "blue" pairs(breast, col=cols)

2
多くの変数の散布図行列の探索
多くのパラメーター(たとえば、50〜200)を含むデータセットを分析していて、変数間の関係(たとえば、2変数散布図または2次元ヒストグラム)に興味があります。ただし、この数のパラメーターでは、200x200の配列のプロットを描画するのは現実的ではないようです(それを印刷して壁に掛けない限り)。 一方、相関行列のみを実行しても、2変数関係に関するすべての情報が得られるわけではありません。 多くの変数の2変数関係を探索する方法(ライブラリまたはワークフロー)はありますか? 私は特に他の人に結果を示すことに興味があります(おそらくいくつかのデータ前処理の後)。たとえば、JavaScriptでインタラクティブな何か、相関行列から選択したフィールドの散布図行列を見ることができたとします。 散布図行列とは、次のようなものです。 (から取らpandasplottingブログ ;でaviable パイソン/パンダ、R、D3.js、など)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.