タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

3
データはどの分布に従うのですか?
私には1000個のコンポーネントがあり、これらが障害をログに記録した回数と、障害をログに記録するたびにデータを収集してきたとしましょう。要するに、私はこれらの1000個のコンポーネントのそれぞれの修復時間(秒単位)を記録しています。データはこの質問の最後に記載されています。 これらすべての値を取得descdistし、fitdistrplusパッケージからRでカレンとフレイのグラフを作成しました。私の希望は、修復の時間が特定のディストリビューションに従っているかどうかを理解することでした。boot=500ブートストラップされた値を取得するためのプロットを次に示します。 このプロットは、観測がベータ分布に該当することを示していることがわかります(または、その場合、何が明らかになっているのでしょうか?) ?(私はこれらの結果の背後にある実用的な現実世界の直観を探しています)。 編集: packageのqqPlot関数を使用したQQplot car。最初に、fitdistr関数を使用して形状とスケールのパラメーターを推定しました。 > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) 次に、私はこれをしました: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) 編集2: 対数正規QQplotで更新します。 私のデータは次のとおりです。 c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, …

7
数百万のポイントが存在する場合にデータをより効率的にプロットする統計的方法?
Rは、数百万のポイントが存在する場合にプロットを生成するのに時間がかかることがあります-ポイントが個別にプロットされることを考えると、当然です。さらに、そのようなプロットは散らかりすぎて有用ではないことが多い。多くのポイントが重なり合って黒いマスを形成し、そのマスに多くのポイントをプロットするのに多くの時間が費やされます。 標準の散布図で大きなデータを表す統計的な代替手段はありますか?密度プロットを検討しましたが、他の選択肢はありますか?nnn

6
折れ線グラフの線が多すぎますが、より良い解決策はありますか?
ユーザーによるアクションの数(この場合は「いいね」)の経時的なグラフを作成しようとしています。 したがって、Y軸として「アクションの数」、X軸は時間(週)、各行は1人のユーザーを表します。 私の問題は、約100人のユーザーのセットについてこのデータを調べたいということです。折れ線グラフは、すぐに100本の線でごちゃごちゃになります。この情報を表示するために使用できるより良いタイプのグラフはありますか?または、個々の行のオン/オフを切り替えられるようにする必要がありますか? すべてのデータを一度に見たいのですが、アクションの数を高精度で識別できることはそれほど重要ではありません。 なぜ私はこれをしているのですか 私のユーザーのサブセット(トップユーザー)について、特定の日付にロールアウトされたアプリケーションの新しいバージョンが気に入らないユーザーを見つけたいと思います。個々のユーザーによるアクション数の大幅な減少を探しています。

3
Rを使用して、処理ごとにデータを分離する散布図を作成する良い方法は何ですか?
私は一般的にRと統計について非常に新しいですが、私はそのネイティブの能力を超えていると思われる散布図を作成する必要があります。 観測値のベクトルがいくつかあり、それらを使用して散布図を作成します。各ペアは3つのカテゴリのうちの1つに分類されます。色または記号で各カテゴリを区切る散布図を作成したいと思います。これは、3つの異なる散布図を生成するよりも優れていると思います。 各カテゴリでは、ある時点で大きなクラスターが存在するという事実に別の問題がありますが、クラスターは他の2つのグループよりも1つのグループで大きくなります。 誰かがこれを行う良い方法を知っていますか?パッケージをインストールして使用方法を学習する必要がありますか?誰でも似たようなことをしましたか? ありがとう

4
クラスの不均衡の下でのPrecision-Recall曲線の最適化
私はいくつかの予測子を持っている分類タスクを持っています(そのうちの1つが最も有益です)、私は分類器を構築するためにMARSモデルを使用していますも元気)。これで、トレーニングデータに大きなクラスの不均衡があります(各ポジティブサンプルに対して約2700のネガティブサンプル)。情報検索タスクと同様に、私は、上位の肯定的なテストサンプルの予測をより懸念しています。このため、Precision Recall曲線のパフォーマンスは私にとって重要です。 まず、トレーニングデータでモデルをトレーニングし、クラスの不均衡をそのまま維持しました。トレーニング済みのモデルを赤で表示し、最も重要な入力を青で表示します。 不均衡データのトレーニング、不均衡データの評価: クラスの不均衡がモデルをスローしていると考えて、上位のポジティブサンプルの学習はデータセット全体のごく一部であるため、バランスの取れたトレーニングデータセットを取得するためにポジティブトレーニングポイントをアップサンプリングしました。バランスの取れたトレーニングセットでパフォーマンスをプロットすると、良いパフォーマンスが得られます。PR曲線とROC曲線の両方で、訓練されたモデルは入力よりも優れています。 (アップサンプリング)バランスデータのトレーニング、(アップサンプリング)バランスデータの評価: ただし、バランスの取れたデータでトレーニングされたこのモデルを使用して、元のバランスの取れていないトレーニングセットを予測すると、PRカーブのパフォーマンスが低下します。 (アップサンプリングされた)バランスデータのトレーニング、元のアンバランスデータの評価: だから私の質問は: PR曲線の視覚化が訓練されたモデル(赤)のパフォーマンスの低下を示し、ROC曲線がクラスの不均衡のために改善を示すのはなぜですか? リサンプリング/アップサンプリング/ダウンサンプリングのアプローチはこれを解決して、トレーニングを高精度/低リコール領域に集中させることができますか? 高精度/低リコール領域にトレーニングを集中する他の方法はありますか?

2
主成分分析におけるバイプロットの解釈
この素晴らしいチュートリアルに出くわしました。Rを使用した統計分析のハンドブック。第13章主成分分析: R言語でPCAを実行する方法に関するオリンピック7大会。図13.3の解釈がわかりません。 したがって、最初の固有ベクトルと2番目の固有ベクトルをプロットしています。どういう意味ですか?最初の固有ベクトルに対応する固有値がデータセットの変動の60%を説明し、2番目の固有値-固有ベクトルが変動の20%を説明するとします。これらを互いにプロットすることはどういう意味ですか?

3
多くのセットの交差点を視覚化する
多くのセットの交差部分の重なりを示すのに適した視覚化モデルはありますか? 私はベン図のようなものを考えていますが、どういうわけか10以上などのより多くのセットに適しているかもしれません。ウィキペディアにはいくつかのより高いセットのベン図が表示されますが、4セットの図でさえ多くを取り入れる必要があります。 データの最終結果についての私の推測では、セットの多くが重複しないため、ベン図がうまくいく可能性がありますが、それを生成できるコンピューターツールを見つけたいと思います。Googleチャートではそれほど多くのセットが許可されていないようです。


3
2つ以上の回帰モデルの勾配を比較するために使用できるテストは何ですか?
1つの予測子に対する2つの変数の応答の違いをテストしたいと思います。最小限の再現可能な例を次に示します。 library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, subset …

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

6
円グラフの問題
円グラフに関する議論が増えているようです。 それに対する主な議論は次のようです: 面積は長さよりも少ない力で知覚されます。 円グラフのデータポイントとピクセルの比率が非常に低い ただし、プロポーションを描写する際に何らかの形で役立つ可能性があると思います。ほとんどの場合、テーブルを使用することに同意しますが、ビジネスレポートを書いているときに、何百ものテーブルを含めたのに、円グラフがないのはなぜですか? コミュニティがこのトピックについてどう考えているのか興味があります。さらに参考文献を歓迎します。 いくつかのリンクを含めます。 http://www.juiceanalytics.com/writing/the-problem-with-pie-charts/ http://www.usf.uni-osnabrueck.de/~breiter/tools/piechart/warning.en.html この質問を終わらせるために、円グラフとワッフルグラフの例を作成することにしました。

6
壊れた軸の代替手段は何ですか?
ユーザーは、軸の値を分割して、同じグラフ上に異なる桁のデータを表示したいと思うことがよくあります(こちらを参照)。これは便利かもしれませんが、データを表示するのに常に好ましい方法とは限りません(誤解を招く可能性があります)。数桁異なるデータを表示する別の方法は何ですか? データを対数変換するか、ラティスプロットを使用する2つの方法が考えられます。他のオプションは何ですか?

4
カラーマップviridisをjetで使用する理由
https://www.youtube.com/watch?v=xAoljeRJ3lUで発表されているように、Matplotlibはデフォルトのカラーマップをjetからviridisに変更します。 しかし、私はそれをかなりよく理解していません。多分私は色盲だから? 元のカラーマップジェットは非常に強く見え、コントラストを感じることができます。 新しいカラーマップviridisにはそのコントラストがありませんが: 誰でも簡単に説明できますか?論文のプロットが必要です。そして、監督者(および私自身)に、ヴィリディスが優れていることを納得させる正当な理由が必要です。


4
Rで視覚的に魅力的な密度ヒートマップを生成する
Rにヒートマップを生成するための一連の機能があることは知っていますが、問題は視覚的に魅力的なマップを作成できないことです。たとえば、下の画像は、避けたいヒートマップの良い例です。最初のものは明らかに詳細に欠けていますが、もう1つは(同じ点に基づいて)あまりにも詳細すぎて有用ではありません。両方のプロットは、spatstat Rパッケージのdensity()関数によって生成されています。 どうすればプロットに「フロー」を追加できますか?私が目指しているのは、市販のSpatialKey(スクリーンショット)ソフトウェアの結果が生成できる外観の詳細です。 この方向に私を連れて行くことができるヒント、アルゴリズム、パッケージまたはコードの行はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.