タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

1
これはどのようなチャートですか?
あいまいな質問で申し訳ありませんが、このグラフはBiddleらに表示されます。2009年と私は以前にそのような何かに遭遇したことがありません。これは、エッジが面取りされた棒グラフであり、「角」もあります。これらはどういう意味ですか?このタイプのチャートには名前がありますか? パー/meta/244083/site-for-asking-about-charts私はアカデミアが求める最適な場所だと思いました。


4
ヘビーテール分布のBoxplot相当?
ほぼ正規分布のデータの場合、ボックスプロットは、データの中央値と広がり、および異常値の存在をすばやく視覚化する優れた方法です。 ただし、より重い裾の分布では、多くのポイントが外れ値として表示されます。これは、外れ値がIQRの固定因子の外側にあると定義されているためです。 では、この種のデータを視覚化するために人々は何を使用していますか?もっと適応したものはありますか?それが重要な場合は、Rでggplotを使用します。

4
ヒストグラムに平均をプロットするのは適切ですか?
平均値を視覚化するためにヒストグラムに垂直線を追加することは「大丈夫」ですか? 私には大丈夫のようですが、教科書などでこれを見たことがないので、そうしない慣習があるのではないかと思っています。 グラフは学期論文用であり、非常に重要な暗黙の統計ルールを誤って破らないようにしたいだけです。:)

4
Rの1つのグラフに複数のプロットを描画しますか?
次のコードを使用して、のグラフに4つのプロットを描画しようとしましたR。プロット間には多くのスペースがあるため、この図には満足できません。したがって、プロットの幅は、プロットを分析するのに十分ではありません。 誰かが私に4つのプロットを持つ素敵なグラフを作成するのを手伝ってもらえますか? デフォルトの5つのラベルの代わりに1から10のx軸ラベルを保持するにはどうすればよいですか? データ: a1:11.013 13.814 13.831 13.714 13.787 13.734 13.778 13.771 13.823 13.659 a2:5.181 7.747 8.314 8.061 7.920 8.153 8.540 8.845 7.881 8.301 b1、c1、およびd1にa1データを使用しました。ここのb2、c2、d2のa2データ。 図: コード: op=par(mfrow=c(4,1), mar=c(5.5,5.1,4.1,2.1)) plot(a1, type="b", ylim=c(0,14.5), xlab="Time (secs)", ylab="", cex.axis=1.4, cex.lab=1.3,cex=1.2,lwd=2.5,col="red1",lty=2,pch=1, main="A") lines(a2,type="b",pch=3,lty=3,col="darkblue",lwd=2.5,cex=1.2) par(xpd=T) legend(1,26.5,c("X","Y"),bty="n",horiz=T,cex=1.5,col=c("red1","darkblue"),text.col=c("red1","darkblue"),pch=c(1,3),lty=c(2,3),x.intersp=0.4,adj=0.2) plot(b1, type="b", ylim=c(0,14.5), xlab="Time (secs)", ylab="", cex.axis=1.4, cex.lab=1.3,cex=1.2,lwd=2.5,col="red1",lty=2,pch=1, main="B") …

3
平行座標プロットの簡単な説明
私は多くの平行座標プロットを読んで見ました。誰かが次の一連の質問に答えることができますか? 素人が理解できるように、単純な言葉での平行座標プロット(PCP)とは何ですか? 可能であればいくつかの直観を伴う数学的説明 PCPはいつ有用で、いつ使用するのですか? PCP が役に立たないのはいつですか? PCPの考えられる長所と短所

5
データ視覚化技術の認知処理/解釈
誰もが異なる視覚化技術の有効性(理解可能性)を調査する研究を知っていますか? たとえば、ある形式の視覚化を他の形式よりも早く理解するのはどれくらいですか?視覚化との対話性は、人々がデータを思い出すのに役立ちますか?それらの線に沿ったもの。視覚化の例としては、散布図、グラフ、タイムライン、マップ、インタラクティブインターフェイス(平行座標など)などがあります。 私は特に一般人の研究に興味があります。

6
変数間の関係を識別するためのRパッケージ[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前に閉鎖されました。 変数間に関係があるかどうかを調べるために使用できるRパッケージはありますか? 通常、パターンを探しているときは、相関関係を調べ、次にファセットプロットを調べます。次に、データ内の変数にいくつかの変換を手動で適用します。Rパッケージによってこのプロセスを加速できるかどうか疑問に思っていました。

2
視覚化はデータを変換するための十分な根拠ですか?
問題 30のパラメーターのそれぞれによって説明される分散を、たとえばパラメーターごとに異なるバーを持つバープロットとして、y軸に分散をプロットしたいと思います。 ただし、以下のヒストグラムに見られるように、分散は0を含む小さな値に向かって大きく偏っています。 で変換すると、小さな値(以下のヒストグラムとバープロット)の違いが見やすくなります。log(x+1)log⁡(x+1)\log(x+1) 質問 log(x + 1 )log⁡(バツ+1)\log(x+1)

1
線形混合効果モデルの結果を示すプロット
私はRで線形混合効果モデリングを使用していくつかのデータを分析しています。私は結果をポスターに含めることを計画しています。モデル。残差プロット、フィット値と元の値のプロットなどについて考えていました。 これは私のデータに大きく依存することはわかっていますが、線形混合効果モデルの結果を説明するための最良の方法を感じようとしていました。Rでnlmeパッケージを使用しています。 ありがとう

5
この散布図の解釈方法は?
x軸の人数とy軸の給与の中央値に等しいサンプルサイズの散布図があります。サンプルサイズが給与の中央値に影響するかどうかを確認しようとしています。 これはプロットです: このプロットをどのように解釈しますか?


1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

1
密度プロットの高さの解釈方法
密度プロットの高さの解釈方法: たとえば、上のプロットでは、ピークはx = 18で約0.07にあります。値の約7%が約18であると推測できますか?それよりも具体的にできますか?また、高さ0.02のx = 30に2番目のピークがあります。これは、値の約2%が約30であることを意味しますか? 編集:1を超える確率分布値は問題ないのですか?ここではまったく問題ではない確率値> 1について説明します。また、単純なベイズの分類法に関連して、ここでもポイントではないことを説明します。私は、このような密度曲線から描くことができる数値的推論を、簡単な言葉で言いたいです。曲線下面積の役割について説明しますが、私の質問は、曲線上に存在する特定のxとyの組み合わせに関して具体的にどのような推論を引き出すことができるかです。たとえば、このグラフでx = 30とy = 0.02をどのように関連付けることができますか。ここで30と0.02の関係についてどのような記述を書くことができますか。密度は1つの単位値であるため、値の2%が29.5と30.5の間で発生していると言えますか?その場合、次のプロットのように、値が0から1までしか変化しない場合、どのように解釈するのでしょうか。 値の100%が0と1の間にある場合、なぜ0と1の外側に曲線があるのですか? ここで、x = 0.1からx = 0.2に平坦な部分があり、yは0.8です。長方形を形成します。x = 0.1とx = 0.2の間でどのような値の割合が発生するかを知るにはどうすればよいですか (PS:この質問がおもしろい/重要だと思ったら、賛成してください;)

3
4次元データを視覚化するための一般的な選択肢は何ですか?
次の4次元データがあり、最初の3つは座標と見なされ、最後の1つは値と見なされるとします。 c1, c2, c3, value 1, 2, 6, 0.456 34, 34, 12 0.27 12, 1, 66 0.95 最後の値の最初の3つの座標の効果をより良く視覚化する方法は? 私は3つの方法を知っています。 1つは、ポイントのサイズを4つの値とする最初の3つの座標の3Dプロットです。しかし、データの傾向を見るのはそれほど簡単ではありません。 別の方法は、座標が固定された一連の3Dプロットを使用することです。 もう1つは、Rの格子のいわゆる「トレリスグラフ」です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.