タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

7
クラスタリングアルゴリズムの特性を示すための2D人工データの検索
さまざまな分布と形式に従う2次元のデータポイント(各データポイントは2つの値(x、y)のベクトル)のデータセットを探しています。そのようなデータを生成するコードも役立ちます。それらを使用して、いくつかのクラスタリングアルゴリズムが実行する方法をプロット/視覚化したいと思います。ここではいくつかの例を示します。 星のような雲データ 4つのクラスター、1つは分離可能 スパイラル(クラスターなし) 指輪 2つのかろうじて分離された雲 らせんを形成する2つの平行なクラスター ...など

1
連続する比率の視覚化
4つのカテゴリを持ついくつかの消費者データを視覚化しようとしています。ユーザーはさまざまなカテゴリを自由に切り替えることができます。個人ごとに最後の3つまたは4つのスイッチを視覚化したいと思います。 したがって、4つの縦横比が縦棒のプロットから始めます。その後、ビンが小さすぎて使い物にならなくなるまで、各カテゴリーが前の機会に人々が行ったことに分解し、次に64と分解して、16になります。 マリメッコチャートと積み上げ棒グラフまたはデンドログラムの間のどこかでうまくいくと思いますが、それが何と呼ばれるかさえわかりません! 誰かが私が使用しているプロットのタイプを手伝ってくれるなら、そしてあなたがもっと素敵になりたいのなら、それをRに実装する方法があれば、私はとても感謝します。

4
プロットのために異なる桁のデータをスケーリングする
次のデータセットを見てください。 Date Visits Carts carts Orders Created converted Created 2011-11-11 12277 161 9 36 2011-11-12 11871 93 5 19 2011-11-13 13072 107 8 8 2011-11-14 13594 112 4 34 2011-11-15 12741 129 8 43 2011-11-16 15491 261 16 57 2011-11-17 13418 186 17 42 これをグラフにプロットするように依頼されました。日付にはX軸があり、残りのデータにはY軸があります。問題は、データの規模が劇的に異なることです。訪問数が数千で、作成されたオーダーが数十である場合、データはグラフにうまくプロットされません。 このシナリオで統計担当者が何をするのだろうと思っていました。訪問数を1000で割り、説明(訪問数(K))を入力できましたが、作成されたカートで同じ問題が発生します。何百ものその他すべてが低い数十にあります このシナリオではどのようなことが行われますか?

7
データ視覚化の例、教育、研究用のデータセット
私が研究しているいくつかのdatavis手法をテストするために使用できる既存のデータセットを検索しています。 私はRに含まれているようないくつかのリソースを知っています(試してみるplot(Orange)か、ここを参照してください)。 しかし、私はそれを一歩前進させたいと思います: 視覚化ツールをテストするのに最適な実際のデータセットはどれですか? 学術論文やdatavisに関する教育用スライドで使用したデータセットはどれですか。 グラフ化の利点を示す実例の中で最も良い例はどれですか。

3
データの新しい知識を発見するためのガイドライン
私は自分自身または他の誰かに指摘するために何かをプロットします。通常、質問がこのプロセスを開始し、多くの場合、特定の回答を求めている人が希望を示します。 バイアスの少ない方法でデータに関する興味深いことを学ぶにはどうすればよいですか? 今私は大体この方法に従っています: 要約統計。 ストリップチャート。 散布図。 興味深いデータのサブセットで繰り返します。 しかし、それは系統的でも科学的でもないようです。 従うべきではないデータについて明らかにするためのガイドラインや手順はありますか?適切な分析を行ったことをどのように知ることができますか?

4
標準エラーは何に使用されますか?
私が見つけたチュートリアルを使用し、データを表示するために標準誤差と共に平均値をプロットしています。しかし、私は結果について議論することに問題を抱えています。私のプロットは以下のとおりです。標準エラーの一部(エラーバーとして表示)は大きく異なり、一部はゼロに非常に近いものです。

6
時間帯別のチャートの一般的な名前は何ですか?
特定の期間の時間帯別のトラフィックを示すグラフを作成しています。したがって、y軸は交通量、x軸は午前0時、午前1時、午前2時などです。曜日でもかまいません。このタイプのグラフの一般的な名前は何ですか?「サイクルチャート」を思いついた。それは標準ですか?ありますか? 更新: もう少し明確にするために、一番上のグラフに表示されているのは 1日ではなく、何日もの集計です。たとえば、先月の平均午前6時は正午よりも低くなっています。同様に、下のグラフでは、昨年のトラフィックが土曜日に減少しています。

7
Rを使用して400万のエッジネットワークの中心性測定を計算する方法
私は、互いに通信する人々を表す有向ネットワークの400万エッジのCSVファイルを持っています(たとえば、ジョンはメアリーにメッセージを送信し、メアリーはアンにメッセージを送信し、ジョンはメアリーに別のメッセージを送信します)。私は2つのことをしたいと思います: 各個人の次数、(おそらく)固有ベクトル中心性測度の次数を求めます。 ネットワークの視覚化を取得します。 私のラップトップには電力があまりないので、Linuxサーバーのコマンドラインでこれを実行したいと思います。そのサーバーとstatnetライブラリにRをインストールしました。私が見つかりました。この2009年のポスト私は同じことをやろうとしていると、それで問題が発生したよりも多くの有能な誰かのを。だから私は他の誰かがこれを行う方法についてのポインタを持っているのではないかと思っていました。 ちょうどあなたにアイデアを与えるために、これは私のCSVファイルがどのように見えるかです: $ head comments.csv "src","dest" "6493","139" "406705","369798" $ wc -l comments.csv 4210369 comments.csv

2
R:グラフを動的に更新する[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 7か月前に閉鎖。 これはデータを視覚化する質問です。常に更新されている(オンライン更新)いくつかのデータを含むデータベースがあります。Rが5秒または10秒ごとにグラフを更新する最良の方法は何ですか。(もう一度プロットすることなく、すべてが可能です)? フレッド

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
ファン(極)デンドログラムをRでプロットする方法は?
ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 私はこのようなものを指している: ソリューションを示すための推奨データセット: data(mtcars) plot(hclust(dist(mtcars)))

10
構造方程式/ MPLUSモデルをどのように描画しますか?
構造方程式/混合モデルを効率的かつきれいに描くためのソフトウェアツール(できればオープンソース)を探しています。 xfigとgraphvizを調べた後、汎用のベクターグラフィックパッケージであるinkscapeを使用します。 stat.stackexchangeコミュニティを調査したい:構造方程式/混合モデルをどのように描画しますか?どのソフトウェアを使用していますか?

2
xスケールは同じであるがRのyスケールが異なる2つのグラフを垂直に積み重ねるにはどうすればよいですか?
ご挨拶、 現在、私はRで次のことをしています: require(zoo) data <- read.csv(file="summary.csv",sep=",",head=TRUE) cum = zoo(data$dcomp, as.Date(data$date)) data = zoo(data$compressed, as.Date(data$date)) data <- aggregate(data, identity, tail, 1) cum <- aggregate(cum, identity, sum, 1) days = seq(start(data), end(data), "day") data2 = na.locf(merge(data, zoo(,days))) plot(data2,xlab='',ylab='compressed bytes',col=rgb(0.18,0.34,0.55)) lines(cum,type="h",col=rgb(0,0.5,0)) summary.csvの一部: date,revision,file,lines,nclass,nattr,nrel,bytes,compressed,diff,dcomp 2007-07-25,16,model.xml,96,11,22,5,4035,991,0,0 2007-07-27,17,model.xml,115,16,26,6,4740,1056,53,777 2007-08-09,18,model.xml,106,16,26,7,4966,1136,47,761 2007-08-10,19,model.xml,106,16,26,7,4968,1150,4,202 2007-09-06,81,model.xml,111,16,26,7,5110,1167,13,258 ... 最後の2行は必要な情報をプロットしており、結果は次のようになります。 青い線は、関心のあるアーティファクトのバイト単位のエントロピーです。緑の線は、変化のエントロピーを表します。 さて、このグラフでは、スケールに大きな違いがないため、うまく機能します。しかし、緑の線が非常に小さくなって見えなくなる他のグラフがあります。 私が探していたソリューションには、次の2つのことが含まれていました。 …

2
複数の「ヒストグラム」(棒グラフ)の視覚化
データを視覚化する正しい方法を選択するのが困難です。我々は持っていると言う書店販売している本を、そしてすべての本は、少なくとも一つの持っているカテゴリを。 書店の場合、本のすべてのカテゴリーをカウントすると、その書店の特定のカテゴリーに該当する本の数を示すヒストグラムが取得されます。 書店の動作を視覚化したいのですが、他のカテゴリよりもカテゴリを好むかどうかを確認したいと思います。彼らがまとめてSFを支持しているかどうかは知りたくありませんが、すべてのカテゴリを平等に扱っているかどうかは知りたいです。 約100万冊の書店があります。 私は4つの方法を考えました: データをサンプリングし、500の書店のヒストグラムのみを表示します。10x10グリッドを使用して、5つの個別のページに表示します。4x4グリッドの例: #1と同じ。ただし、今回はカウントdescに従ってx軸の値を並べ替えます。したがって、好意がある場合は簡単に確認できます。 #2のヒストグラムをデッキのようにまとめて3Dで表示することを想像してみてください。このようなもの: 色を表すために3番目の軸を使用して色を表現する代わりに、ヒートマップ(2Dヒストグラム)を使用 します。 複数のヒストグラムを表す他の視覚化のアイデア/ツールはありますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.