タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

1
大腸菌の発生の分析について統計学者はどんな質問をしますか?
ドイツでの最近の腸内出血性大腸菌 (EHEC)の 流行について聞いたことがあるかもしれません。 統計学者はEHEC分析についてどのような質問をしますか? 私はレポーター/公務員↔非専門家の間のQ + Aについて考えています、教師とエンジニアはディプロム/マスターの学位を持っていますが、せいぜい統計のほんの少しです。 (写真、EHECのさまざまな株を示すEHEC土地の地図、およびさまざまなテストのカバレッジは可能ですか?) 6月20日(月):EHECの発生は、世界全体で統計が本当に重要な領域であると思いました:さまざまな原因の証拠は何ですか、これらをどのように一般に伝えることができますか?それで、賞金を始めます。

2
2Dでの多次元データ(LSI)の視覚化
潜在的なセマンティックインデックスを使用して、ドキュメント間の類似点を見つけています(JMSに感謝します) 次元を削減した後、ドキュメントをクラスターにグループ化するためにk平均クラスタリングを試しましたが、これは非常にうまく機能します。しかし、少し先に進んで、ドキュメントをノードのセットとして視覚化します。ここで、任意の2つのノード間の距離は、類似性に反比例します(非常に類似しているノードは互いに接近しています)。 データが2次元を超えるため、類似度行列を2次元のグラフに正確に縮小できないことに不思議に思います。だから私の最初の質問:これを行う標準的な方法はありますか? データを2次元に削減してから、それらをX軸とY軸としてプロットできますか?それは、100から200までのドキュメントのグループに対して十分でしょうか?これが解決策である場合、データを最初から2次元に削減する方が良いですか、それとも多次元データから2つの「最良の」次元を選択する方法はありますか? 私はPythonとgensimライブラリを使用しています。

1
中央値およびグラフィック表現で報告するエラー?
私は、パラメトリックANOVAとt検定からノンパラメトリックKruskal-Wallis検定とMann-Whitneysに加えて、ランク変換された2ウェイANOVAとバイナリを含むGzLMから、論文データにさまざまな検定を使用しました。ポアソンおよび比例データ。これをすべて結果に書き込む際に、すべてを報告する必要があります。 比率データの非対称信頼区間を報告する方法については、すでにここで質問しました。標準偏差、標準誤差、または信頼区間が手段に適していることを知っています。これは、すべてのテストが適切にパラメトリックである場合に報告するものです。ただし、ノンパラメトリックテストでは、平均ではなく中央値を報告する必要がありますか?その場合、どのエラーを報告しますか? これに関連するのは、ノンパラメトリックテストの結果をグラフィカルに表示する方法です。カテゴリ内には主に連続データまたは間隔データがあるため、通常は棒グラフを使用します。棒の上部が平均であり、エラーバーが95%のCIを示しています。NPテストの場合、引き続き棒グラフを使用できますが、棒の上部は中央値を表しますか? あなたの提案をありがとう!

2
信頼区間で交互作用プロットを描画する方法は?
私の試み: 私は信頼区間を得ることができませんでした interaction.plot() 一方plotmeans()、「gplot」パッケージからは2つのグラフが表示されません。さらに、plotmeans()デフォルトでは軸が異なるため、2つのグラフを重ね合わせることができませんでした。 plotCI()パッケージ「gplot」からの使用と2つのグラフの重ね合わせに成功しましたが、それでも軸の一致は完全ではありませんでした。 信頼区間を使用して交互作用プロットを作成する方法に関するアドバイスはありますか?1つの関数、または重ね合わせ方法plotmeans()やplotCI()グラフに関するアドバイス。 コードサンプル br=structure(list(tangle = c(140L, 50L, 40L, 140L, 90L, 70L, 110L, 150L, 150L, 110L, 110L, 50L, 90L, 140L, 110L, 50L, 60L, 40L, 40L, 130L, 120L, 140L, 70L, 50L, 140L, 120L, 130L, 50L, 40L, 80L, 140L, 100L, 60L, 70L, 50L, 60L, 60L, 130L, 40L, 130L, 100L, …

4
YとXの相関関係のおかげで、説明された分散でゲインをどのように提示するのですか?
単純な線形相関を1年生に(視覚的に)説明する方法を探しています。 視覚化する古典的な方法は、Y〜X散布図に直線回帰直線を与えることです。 最近、プロットに3つの画像を追加してこのタイプのグラフィックスを拡張するというアイデアに思いつきました:y〜1の散布図、次にy〜xの散布図、resid(y〜x)〜x、そして最後に残差の(y〜x)〜1(平均値の中心) このような視覚化の例を次に示します。 そしてそれを生成するRコード: set.seed(345) x <- runif(50) * 10 y <- x +rnorm(50) layout(matrix(c(1,2,2,2,2,3 ,3,3,3,4), 1,10)) plot(y~rep(1, length(y)), axes = F, xlab = "", ylim = range(y)) points(1,mean(y), col = 2, pch = 19, cex = 2) plot(y~x, ylab = "", ) abline(lm(y~x), col = 2, lwd = …

2
Rの順序付けられたカテゴリカルデータ間の相関関係を(視覚的に)すばやく評価しますか?
アンケートのさまざまな質問への回答間の相関関係を探しています(「うーん、質問11への回答が質問78の回答と相関しているかどうかを見てみましょう」)。すべての回答はカテゴリ型です(そのほとんどは「非常に不幸」から「非常に満足」までの範囲です)が、いくつかの回答は異なるセットです。それらのほとんどは序数と見なすことができるので、ここでこのケースを考えてみましょう。 私は商用統計プログラムにアクセスできないので、Rを使用する必要があります。 Rattle(Rのフリーウェアデータマイニングパッケージ、非常に気の利いたもの)を試してみましたが、残念ながらカテゴリカルデータはサポートされていません。私が使用できるハックの1つは、「非常に不幸」ではなく数値(1..5)を含む調査のコード化されたバージョンをRにインポートして、それらが数値データであるとラトルに信じさせることです。 私は散布図を作成し、ドットサイズを各ペアの数値の数に比例させることを考えていました。グーグルで検索した後、http: //www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/を見つけましたが、(私にとって)非常に複雑に見えます。 私は統計学者ではありませんが(プログラマーです)、この件について少し読んだことがあります。私が正しく理解していれば、ここではスピアマンのrhoが適切でしょう。 だから、急いでいる人のための質問の短いバージョン:Rでスピアマンのローをすばやくプロットする方法はありますか?プロットは、数値の行列よりも簡単です。これは、目を簡単に見ることができ、材料にも含めることができるためです。 前もって感謝します。 PS私はこれをメインのSOサイトに投稿するか、ここに投稿するかについてしばらく考えました。両方のサイトでR相関を検索した後、このサイトは質問により適していると感じました。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
ノッチ付きボックスプロットを解釈する方法
いくつかのEDAを実行しているときに、因子の2つのレベルの違いを示すために箱ひげ図を使用することにしました。 ggplotがボックスプロットをレンダリングする方法は満足のいくものでしたが、少し単純化されています(以下の最初のプロット)。ボックスプロットの特性を調査しながら、ノッチの実験を開始しました。 ノッチは中央値の周りにCIを表示し、2つのボックスのノッチが重ならない場合、95%の信頼レベルで「中央値が異なる」という「強力な証拠」があることを理解しています。 私の場合(2番目のプロット)、ノッチは有意に重なりません。しかし、なぜ右側のボックスの底が奇妙な形をしているのですか? 同じデータをバイオリンプロットにプロットしても、対応するバイオリンの確率密度に異常はありませんでした。

1
不確実性がどのように集計されるかを視覚化するのに役立つグラフィカルな方法は何ですか?
私は、不確実性がその中に蓄積する一連のシステムを持っています。これらは常に純粋に加算的であるとは限りません-時々それらは、時々彼らはそうではありません。私は、ファンチャート、信頼区間のある棒グラフ、および単一のアイテムを伝達するための箱ひげ図の使用にある程度成功しています。 しかし、不確実性がどのように蓄積および結合するかを示しながら、不確実性が存在するデータポイントも示すことができますか?

2
箱ひげ図を読む:グループ間の有意差を収集することは可能ですか?
次の箱ひげ図を見ているとしましょう: 木曜日と金曜日の間、私はほとんどの人が睡眠時間に大きな違いがあるように思われることに同意すると思います。しかし、それは統計的に有効な推測ですか?木曜日と金曜日の間で四分位範囲のどちらも重複しないという事実のために、私たちは有意差を識別できますか?木曜日と金曜日のウィスカの上部と下部がそれぞれ重なっているという事実はどうですか?それは分析に影響しますか? 通常、このようなチャートに付随するのはある種の分散分析ですが、箱ひげ図を見るだけでグループ間の違いについてどれだけ言えるか知りたいです。

3
二変量二項分布を可視化する
質問: 3次元空間では2変量2項分布はどのように見えますか? 以下は、パラメーターのさまざまな値について視覚化したい特定の関数です。つまり、、p 1、およびp 2です。nnnp1p1p_{1}p2p2p_{2} f(x1,x2)=n!x1!x2!px11px22,x1+x2=n,p1+p2=1.f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. 2つの制約があることに注意してください。およびp 1 + p 2 = 1です。さらに、nは正の整数、たとえば5です。x1+x2=nx1+x2=nx_{1}+x_{2}=np1+p2=1p1+p2=1p_{1}+p_{2}=1nnn555 LaTeX(TikZ / PGFPLOTS)を使用して関数をプロットする試みが2回行われました。そうすることで、、p 1 = 0.1とp 2 = 0.9、およびn = 5、p 1 = 0.4とp 2 = 0.6の値について、以下のグラフを取得します。ドメイン値に制約を実装することに成功していません。x 1 + x 2 = nなので、少し困惑しています。n=5n=5n=5p1=0.1p1=0.1p_{1}=0.1p2=0.9p2=0.9p_{2}=0.9n=5n=5n=5p1=0.4p1=0.4p_{1}=0.4p2=0.6p2=0.6p_{2}=0.6x1+x2=nx1+x2=nx_{1}+x_{2}=n 任意の言語(R、MATLABなど)で作成された視覚化は問題ありませんが、私はTikZ / PGFPLOTSを使用してLaTeXで作業しています。 最初の試み 、 p 1 = …

3
平均と標準偏差のみを持つ結果のプロット
この平均の表とリコールスコアの標準偏差の観測値の適切なプロットを視覚化しようとしています。 RecallControlMean37SD8ExperimentalMean21SD6ControlExperimentalMeanSDMeanSDRecall378216\begin{array} {c|c c|c c|} & \text{Control} & & \text{Experimental} & \\ & \text{Mean} & \text{SD} &\text{Mean} &\text{SD} \\ \hline \text{Recall} & 37 & 8 & 21 & 6 \\ \hline \end{array} それを行う最良の方法は何ですか?棒グラフはそれを行う良い方法ですか?その場合の標準偏差をどのように説明できますか?

1
「バグプロット」または「二変量ボックスプロット」とは何ですか?
私は箱ひげ図の多次元(ここでは2変量)バージョンを紹介する論文を見つけました。そのバグプロットは正確には何ですか?頂点に基づいてネストされた一連のポリゴンを確認できます。これらのポリゴンの1つはバグプロットとして宣言されています。ネストされたポリゴン構築のアイデアは何ですか?バグプロットであるポリゴンはどれですか(中央またはポイントの平均数を保持)。バグプロットのエッジには、いくつかの有用なプロパティがありますか(特にポイントセットを分割するなど)?


3
累積/累積プロット(または「ローレンツ曲線の視覚化」)
私はそのようなプロットが何と呼ばれるのかわからないので、私はこの質問に愚かなタイトルを付けました。 次のように順序付けられたデータセットがあるとしましょう 4253 4262 4270 4383 4394 4476 4635 ... 各数字は、特定のユーザーがWebサイトに投稿した投稿の数に対応しています。ここで定義されている「参加の不平等」現象を経験的に調査しています。 わかりやすくするために、「ユーザーの10%がデータの50%に貢献している」などのステートメントを読者がすばやく推測できるプロットを作成したいと思います。それはおそらくこの明らかにかなりひどいペイントのスケッチに似ているはずです: これがどのように呼ばれるのか私には手がかりがないので、どこを探すべきか分かりません。また、誰かがで実装したR場合、それは素晴らしいことです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.