タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

2
Rを使用して時間の経過に伴う分布をプロットする良い方法は何ですか?
私は約400人の個人とそれぞれ> 1万回のタイムポイント(シミュレーション結果)を持っています。これらは時間の経過とともに変化するので、監視できるようにしたいと考えています。すべての個人をプロットするのは面倒であり、平均値+ -sd、最小/最大値、または変位値をプロットすることは、私の好みには情報が少なすぎます。このタイプのデータを視覚化するために他の人が思いついたのは、どういうことかと思います。データポイントが少ない場合は、各タイムポイントにbeanplotsを使用しますが、それはそれほど多くのタイムポイントでは機能しません。

1
スター座標と主成分分析
現在、「ビジュアルデータ分析」の大学コースのプレゼンテーションを準備しています。そして、私のトピックの1つは「Star Coordinate」の視覚化です。スター座標 Star Coordinatesが高次元データの変換を実行し、よく知られているPCA技法もそれを実行するので、PCAをStar Coordinatesで模倣できるかどうか疑問に思いますか?元の変数の線形結合を表すように座標軸を並べ替えると思いますか?しかし、これは単なるアイデアです。誰かがこれを確認または反証できますか?

1
バイナリの結果で長期データを視覚化する
数値の結果を持つ長期データの場合、スパゲッティプロットを使用してデータを視覚化できます。たとえば、次のようなもの(UCLA Statsサイトから取得): tolerance<-read.table("http://www.ats.ucla.edu/stat/r/faq/tolpp.csv",sep=",", header=T) head(tolerance, n=10) interaction.plot(tolerance$time, tolerance$id, tolerance$tolerance, xlab="time", ylab="Tolerance", legend=F) しかし、私の結果がバイナリ0または1の場合はどうなりますか?たとえば、Rの「ohio」データでは、バイナリの「resp」変数が呼吸器疾患の存在を示しています。 library(geepack) ohio2 <- ohio[2049:2148,] head(ohio2, n=12) resp id age smoke 2049 1 512 -2 1 2050 0 512 -1 1 2051 0 512 0 1 2052 0 512 1 1 2053 1 513 -2 1 2054 0 …

7
要約統計量からの信頼区間バーのプ​​ロット
箱ひげ図に少し似ています。必ずしも標準の上限信頼区間、下限信頼区間、平均、およびデータ範囲を示すボックスプロットを意味するわけではありませんが、95%信頼区間と平均という 3つのデータのみを含むボックスプロットのようなものです。 これはまさに私が欲しいものを持っていたジャーナル記事のスクリーンショットです: また、そのようなプロットを作成するために回答者が言及するソフトウェアをどのように使用するかについても知りたいです。

2
「星の座標」で5Dデータセットをプロットする方法
私は「スター座標:次元の均一な扱いを伴う多次元視覚化手法」という論文を読んでおり、データをプロットしようとしています。 私が持っていると言う、5次元のデータポイント、及びポイントが紙で説明した式により計算されます。 A (2 、5 、3 、1 、8 )A(2,5,3,1,8)A(2,5,3,1,8) スター座標の基本的な考え方は、2次元平面上の円上に座標軸を配置し、円の中心に原点をもつ軸間に等しい(初期)角度を配置することです(図1)。最初は、すべての軸の長さが同じです。データポイントは、軸の長さに合わせてスケーリングされ、最小マッピングは原点に、最大マッピングは軸のもう一方の端に割り当てられます。単位ベクトルはそれに応じて計算されます。... これは、通常の2次元および3次元の散布図を、正規化により高次元に拡張したものです。 私はその考えを理解するのに苦労しています。どうすればプロットできますか?主な問題は、論文の公式が理解できなかったことです。

2
線がより大きな勾配にあるときに互いに近くに表示される2つの線を説明するために使用される用語
これが相互検証の範囲外であるかどうかは許してください。ここで説明するように(3ページ)、プロット上の2つの線の間の距離を測定して、垂直距離ではなく2つの線の間の最短距離を比較するときに現象が発生します。これは、特定の勾配でのライン間の距離の過小評価につながります。説明のために、次の図は前述のリンクからのものです。 これらの2つの線の間のy軸の差はすべてのx値にわたって均一ですが、差は縮小しているように見えます。この現象が正式な名称であるかどうか、また正式な名称である場合、その現象をより詳細に説明する標準的な参考資料/引用があるかどうか知りたいのですが。

2
視覚化で色とデータ値の適切な関連付けを見つける方法は?
洪水シミュレーション用のビジュアライザーを作成するソフトウェアプロジェクトに取り組んでいます。このプロジェクトの一環として、特定のポイントで水深を示す水勾配を作成しました。どの値がどの色を表すかを設定するために、データを調べて、発生する最小値と最大値を取得し、そのスケールに従って色を均等に配分します。 ただし、これらのシミュレーションには、シミュレーションの他のどの場所よりも水深が大幅に深い場合があります。これにより、マップ上のほとんどのポイントの色が非常に似たものになります。これはあまり有益ではなく、水がより深い領域を非常に見えにくくします。 私の目標は、より多くの色をより頻繁に発生する深度に捧げることです。たとえば、深度が0〜12であるが、ほとんどの深度が1〜2の場合、11〜12または4〜5の場合よりも、その範囲内でより多くの色の変化が発生するようにします。標準偏差またはこれを行うには正規分布が必要ですが、これらがどのように機能し、どのように使用して目標を達成できるかについては、少し曖昧です。 提供することができるどんな助けでもありがたいです。ありがとうございました。

2
時間依存の共変量で生存分析を視覚化
時間依存の共変量を含むCox回帰のモデル提案のフォローアップとして、妊娠の時間依存の性質を説明するカプランマイヤープロットを次に示します。つまり、データセットは、妊娠の数に応じて複数の行を持つ長いデータセットに分解されます。KMグラフと拡張されたcoxモデルも、結果に対する妊娠の有益な効果を示唆しているようです。しかし、私が不思議に思っているKMグラフを見ると、最初の出生の線は1.0から始まるのでしょうか。最初の出産が与えられたときと等しいxで0出生のy値からこの行を開始する方が直感的ではないでしょうか? 編集:これについて詳しく調べたところ、通常のKMは適切ではないことがわかりました。むしろ、私は、Statonで使用されているサイモンとマクチの方法を使用する必要があります(サイモンR、マクウRW。生存とイベントの発生との関係のノンパラメトリックなグラフィカル表現:応答者対非応答者バイアスへの適用。 統計医学、1984; 3:35-44) これがRに実装されたのを見た人はいますか?

2
ヒステリシスループの領域をエレガントに決定する方法(内部/外部の問題)
2つのパラメーターを測定しました(溶存有機炭素DOC = y、排出量= x)。これら2つの変数を互いにプロットすると、ヒステリシスループが得られます(コード例と図を参照)。 ここで、さらに分析するために、このヒステリシスループの領域を決定します。これは、モンテカルロダーティングメソッドを使用して実行できることを理解しました。この方法では、未知の領域の面積は、既知の長方形の面積に、内側のフィールド(ループ)でのヒットを掛けたものに比例します。 私の問題は、Rを使用して内側/外側の問題を解決する方法です。どのようにして既知の領域を持つ長方形を描画し、ヒステリシスループの内側と外側のランダムヒットに優れるのでしょうか。 私は他の方法を受け入れることに注意してください... 私はググっていろいろな統計サイトを検索したが答えは見つからなかった。他のウェブサイト/投稿への直接的な支援やリンクは大歓迎です。 Data <- read.table("http://dl.dropbox.com/u/2108381/DOC_Q_hystersis.txt", sep = ";", header = T) head(Data) plot(Data$Q, Data$DOC, type = "o", xlab = "Discharge (m3 s-1)", ylab = "DOC (mg C l-1)", main = "Hystersis loop of the C/Q relationship")

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

3
データの実際の次元を視覚化する方法は?
名目上16次元のデータセットがあります。あるケースでは約100個、別のケースでは約20,000個のサンプルがあります。PCAとヒートマップを使用して行ったさまざまな探索的分析に基づいて、真の次元(つまり、「信号」のほとんどをキャプチャするために必要な次元の数)は約4であると確信しています。スライドを作成して、プレゼンテーションのためのその効果。私が反証しようとしているこのデータについての「従来の知恵」は、真の次元が1つまたは2つであるということです。 データセットの実際の次元を示すための優れた単純な視覚化とは何ですか?できれば、統計にある程度の経歴はあるが「実際の」統計学者ではない人にも理解できるようにしてください。

2
テーブルとしての箱ひげ図
原稿を準備しており、「データ内容がより正確であるため」、箱ひげ図を表に変換するよう編集者に依頼されました。データについて何かを明らかにするのに箱ひげ図はかなりまともだと思いますが、皆さんはこれについてどう思いますか?データを表示するために、ボックスプロットよりもテーブルを選ぶことがよくありますか?

4
グループ間の接続の視覚化
私は(企業の)約10のグループを持っています。各グループは相互に接続されています。私が持っているデータは、つながりの強さを表しています。グループAの誰かがグループBにメールを送信した回数を想像してください。 接続の強度は0にすることができます。2つのグループABとBAの間には2つの接続があります。 a)これを視覚化する良い方法は何でしょうか?たとえば、各グループが円であると想像できます。線は円を接続し、線の太さは接続の強さを表します。グループのサイズを示すことができればプラスになりますが、必須ではありません。 b)これを視覚化するためのソフトウェアツールを知っていますか?このツールは高すぎるものであってはならず、試用版として入手可能であるべきです。今のところ、これは単なる概念実証に過ぎません。Webベースである必要はありません。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.