タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

4
QQプロットの解釈方法
私は小さなデータセット(21の観測値)で作業しており、Rには次の通常のQQプロットがあります。 プロットが正規性をサポートしていないことを見て、基礎となる分布について何を推測できますか?右側に偏った分布がより適切であるように思えます、そうですか?また、データから他にどのような結論を導き出すことができますか?

4
ヒストグラムに基づくデータのおおよその分布の評価
ヒストグラムに基づいてデータが指数関数である(つまり、右に歪んでいる)かどうかを確認するとします。 データをグループ化またはビン化する方法に応じて、大幅に異なるヒストグラムを取得できます。 ヒストグラムのセットの1つは、データが指数関数的であるように思われます。別のセットでは、データは指数関数ではないように見えます。適切に定義されたヒストグラムから分布を決定するにはどうすればよいですか?


1
plot.lm()の解釈
Rのplot(lm)によって生成されたグラフの解釈について質問がありました。スケール位置プロットとレバレッジ残差プロットの解釈方法を教えていただけませんか。コメントをいただければ幸いです。統計、回帰、計量経済学の基本的な知識があると仮定します。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
k-meansクラスター分析の結果のきれいなプロットを作成する方法は?
Rを使用してK-meansクラスタリングを実行しています。14個の変数を使用してK-meansを実行しています K-meansの結果をプロットする美しい方法は何ですか? 既存の実装はありますか? 14個の変数があると、結果のプロットが複雑になりますか? GGclusterと呼ばれるクールなものを見つけましたが、まだ開発中です。また、サモンマッピングについても読みましたが、あまり理解していませんでした。これは良い選択肢でしょうか?

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

4
正準相関分析の機能を視覚化する方法(主成分分析の機能と比較して)
正準相関分析(CCA)は、主成分分析(PCA)に関連する手法です。散布図を使用してPCAまたは線形回帰を教えるのは簡単ですが(Googleの画像検索に関する数千の例を参照)、CCAの同様の直感的な2次元の例を見たことはありません。線形CCAの機能を視覚的に説明する方法

3
randomForest :: getTree()からサンプルツリーを実際にプロットする方法は?[閉まっている]
いくつかのサンプルツリーを実際にプロットする方法について、ライブラリまたはコードの提案がありました。 getTree(rfobj, k, labelVar=TRUE) はいエンコードされたファクターがどれだけうまく機能しているかなど) 適切な答えのない事前の質問: ランダムフォレストをより解釈可能にする方法は? また、ランダムフォレストから知識を得ます 実際にサンプルツリーをプロットしたいです。だから、すでにそれについて私と議論しないでください。varImpPlot(Variable Importance Plot)やpartialPlotor MDSPlot、またはこれらの他のプロットについては聞いていませんが、それらは既にありますが、サンプルツリーを見ることの代わりではありません。はい、視覚的に出力を調べることができますgetTree(...,labelVar=TRUE)。 (plot.rf.tree()貢献は非常に歓迎されると思います。)


2
ggplot2で凡例のタイトルを変更するにはどうすればよいですか?[閉まっている]
2 x 4 x 3セルデータセットからのデータを要約するために、ggplot2で作成しているプロットがあります。を使用して2レベル変数のパネルを作成しfacet_grid(. ~ Age)、を使用してx軸とy軸を設定できましたaes(x=4leveledVariable, y=DV)。私aes(group=3leveledvariable, lty=3leveledvariable)はこれまでプロットを作成していました。これにより、2レベル変数でパネル化された視覚化が提供されます。X軸は4レベル変数を表し、3レベル変数のパネル内に異なる線がプロットされます。しかし、3レベル変数のキーには3レベル変数の名前が付けられており、文字スペースを含むタイトルにしたいです。凡例のタイトルの名前を変更するにはどうすればよいですか? 私が試したものはうまくいかないようです(abp私のgpgplot2オブジェクトはどこですか): abp <- abp + opts(legend.title="Town Name") abp <- abp + scale_fill_continuous("Town Name") abp <- abp + opts(group="Town Name") abp <- abp + opts(legend.title="Town Name") サンプルデータ: ex.data <- data.frame(DV=rnorm(2*4*3), V2=rep(1:2,each=4*3), V4=rep(1:4,each=3), V3=1:3)

3
ログスケールはいつ適切ですか?
時系列グラフのy軸など、特定の状況でグラフ化/グラフ化が適切な場合にログスケールを使用することを読みました。しかし、なぜそうなのか、それが適切な場合についての明確な説明を見つけることができませんでした。私は統計学者ではないので、この点を完全に見逃しているかもしれないことを覚えておいてください。もしそうなら、改善策の方向性に感謝します。

12
グラフからデータを取得するために必要なソフトウェア[終了]
デカルト座標(標準の日常プロット)にプロットされたデータのイメージを取得し、グラフにプロットされたポイントの座標を抽出するソフトウェア(できれば無料、できればオープンソース)の経験がありますか? 本質的に、これはデータマイニングの問題であり、データの可視化の逆の問題です。


6
RのROC曲線を使用して最適なカットオフポイントとその信頼区間を決定する方法は?
正常細胞と腫瘍細胞を区別するために使用できるテストのデータがあります。ROC曲線によると、この目的には適しています(曲線下面積は0.9): 私の質問は: このテストのカットオフポイントと、読み取り値があいまいであると判断される信頼区間を決定する方法 これを視覚化する最良の方法は何ですか(を使用ggplot2)? グラフはROCRとggplot2パッケージを使用してレンダリングされます: #install.packages("ggplot2","ROCR","verification") #if not installed yet library("ggplot2") library("ROCR") library("verification") d <-read.csv2("data.csv", sep=";") pred <- with(d,prediction(x,test)) perf <- performance(pred,"tpr", "fpr") auc <-performance(pred, measure = "auc")@y.values[[1]] rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]]) p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1) p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2) p <- p + geom_text(aes(x=1, y= 0, hjust=1, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.