タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

6
グラフ理論—分析と可視化
被験者がCrossValidatedの利益を得るかどうかはわかりません。教えてくれます。 私は(グラフ理論から)グラフを研究する必要があります。特定の数のドットが接続されています。すべてのドットと各ドットが依存しているドットを含むテーブルがあります。(私も含意を持つ別のテーブルを持っています) 私の質問は次のとおり です。それを簡単に研究するための優れたソフトウェア(またはRパッケージ)はありますか? グラフを表示する簡単な方法はありますか?

3
部分依存プロットのy軸の解釈
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 5年前に移行され ました。 部分依存プロットに関する他のトピックを読みましたが、それらのほとんどは、それらを正確に解釈する方法ではなく、異なるパッケージで実際にプロットする方法に関するものです。 私はかなりの量の部分依存プロットを読んで作成しています。私は、彼らが私のモデルからの他のすべての変数(χc)の平均の影響で関数ƒS(χS)に対する変数χsの限界効果を測定することを知っています。yの値が大きいほど、クラスの正確な予測に大きな影響を与えます。しかし、私はこの定性的な解釈に満足していません。 私のモデル(ランダムフォレスト)は、2つの控えめなクラスを予測しています。「はい」と「いいえ」。TRIは、これに適した変数であることが証明されている変数です。 私が考え始めたのは、Y値が正しい分類の確率を示しているということです。例:y(0.2)は、TRI値が30を超えていると、True Positive分類を正しく識別する可能性が20%であることを示しています。 逆に y(-0.2)は、TRI値が<〜15の場合、True Negative分類を正しく識別する確率が20%であることを示しています。 文献で行われている一般的な解釈は、「TRI 30より大きい値がモデルの分類にプラスの影響を与え始める」というように聞こえますが、それだけです。潜在的にあなたのデータについて多くを語ることができるプロットにとって、それはとても曖昧で無意味に聞こえます。 また、すべてのプロットは、y軸の範囲内で-1から1の範囲で制限されます。-10〜10などの他のプロットを見ました。これは、予測しようとしているクラスの数の関数ですか? 誰もこの問題に話すことができるかどうか疑問に思っていました。これらのプロットまたは私を助けてくれるいくつかの文献をどのように解釈すべきかを教えてください。多分私はこれを読みすぎていますか? 統計学習の要素であるデータマイニング、推論、および予測を非常によく読んでおり、素晴らしい出発点でしたが、それだけです。

1
t-SNEとMDS
最近、t-SNE(t-Distributed Stochastic Neighbor Embedding)に関するいくつかの質問を読んでおり、MDS(Multidimensional Scaling)に関するいくつかの質問も訪れました。 これらはよく似て使用されることが多いので、ここでは別々に(またはPCAと比較して)両方に多くの質問があるので、この質問をするのは良い考えのように思えました。 要するに、t-SNEとMDSの違いは何ですか?例えば。探索するデータ階層の優れた点、さまざまな仮定など。 収束率?カーネルの使用についてはどうですか、両方とも準拠していますか?

8
3つのカテゴリ変数間の関係をどのように視覚化できますか?
3つのカテゴリ変数を含むデータセットがあり、3つすべての関係を1つのグラフで視覚化したい。何か案は? 現在、次の3つのグラフを使用しています。 各グラフは、ベースライン低下のレベル(軽度、中度、重度)に対応しています。次に、各グラフ内で、治療(0,1)とうつ病の改善(なし、中程度、実質)の関係を調べます。 これらの3つのグラフは3方向の関係を確認するために機能しますが、1つのグラフでこれを行う既知の方法はありますか?

2
多重線形回帰モデルを記述または視覚化する方法
いくつかの入力パラメーター、たとえば3を使用して、多重線形回帰モデルをデータに適合させようとしています。 F(x )F(x )= A x1+ B x2+ Cバツ3+ dまたは= (A B C )T(x1 バツ2 バツ3)+ d(私)(ii)(私)F(バツ)=Aバツ1+Bバツ2+Cバツ3+dまたは(ii)F(バツ)=(A B C)T(バツ1 バツ2 バツ3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d \tag{ii} \end{align} このモデルを説明して視覚化するにはどうすればよいですか?次のオプションが考えられます。 このモデルの精度を示すために、標準偏差と(係数、定数)で説明されているように回帰方程式に言及し、次に残差プロットに言及します。 (i )(私)(i) …

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

14
まだ簡単にデータを調査できるソフトウェア
スプレッドシートの騒乱と戦う私の試みでは、真の統計ソフトウェア(R、Stataなど)などのより堅牢なツールを推し進めることで、しばしば福音主義的です。最近、私はこの見方で、彼らは単にプログラムを学ぶことはないだろうと率直に言った人に挑戦されました。プログラミングを必要としないデータ分析ツールを提供したいと思います(ただし、理想的には、後でつま先を水に浸すことにした場合はプログラミングに拡張されます)。真っ直ぐな顔で推奨できるデータ探索用のパッケージは何ですか?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

7
ボックスプロットのいくつかの代替手段は何ですか?
ユーザーが選択したポリゴンの人口調査データを表示し、さまざまなパラメーターの分布をグラフィカルに表示したい(パラメーターごとに1つのグラフ)Webサイトの作成に取り組んでいます。 通常、データには次のプロパティがあります。 サンプルサイズは大きくなる傾向があります(約10,000個のデータポイントなど) 値の範囲は大きくなる傾向があります(たとえば、最小人口は100未満、最大人口は500,000のようになります) 通常、q1は最小値(200など)に近く、q2とq3は10,000以内です。 正規分布のようには見えません 私は統計学者ではないので、私の説明は正確には明確ではないかもしれません。 この分布をグラフで表示したいと思います。グラフは、市民(必要に応じて、素人)に表示されます。 ヒストグラムを使用することをお勧めしますが、値の範囲が広いため不可能です。そのため、ビンを作成するのは本当に簡単ではありません。 統計についてほとんど知らないことから、箱ひげ図はこの種のデータを表示するためによく使用されますが、素人にとっては箱ひげ図の解読は容易ではないと感じています。 このデータをわかりやすく表示するためのオプションは何ですか?

1
箱ひげ図の歴史はどのようなもので、「箱ひげ」のデザインはどのように進化しましたか?
多くの情報源は、に古典的な「ボックスプロット」デザインとデートジョン・テューキーデザインはで、それ以来、比較的静的に宿泊しているようだと、1970年の彼の「概略的なプロット」エドワード・タフトのカットダウンボックスプロットのバージョン間、上のキャッチに失敗しますバイオリンプロット -ボックスプロットのより有益なバリエーション-はあまり人気がありません。10パーセンタイルと90パーセンタイルまで伸びるというクリーブランドの提案には、支持者がいます。Cox(2009)を参照してくださいが、これは標準ではありません。 Hadley WickhamとLisa Stryjewskiは、箱ひげ図の歴史に関する未発表の論文を書きましたが、箱ひげ図の歴史的な先駆者をカバーしていないようです。 それでは、現在のユビキタスな「箱とひげ」のプロットはどのようにして生まれたのでしょうか?どのようなデータの視覚化から発展し、それらの初期の設計には大きな利点がありましたか?また、なぜそれらがTukeyのスキームによる使用で非常に包括的に食われているように見えるのですか?図解された答えはボーナスになりますが、ウィッカムやストリエフスキーよりも歴史的に深く掘り下げた参考文献に向けられると便利です。 参照資料 ニュージャージー州コックス(2009)。Speaking Stata:ボックスプロットの作成と変更。Stata Journal、9(3)、478。 Wickham、H.およびStryjewski、L.(2011)。40年の箱ひげ図。http://vita.had.co.nz/papers/boxplots.pdf

3
2つのドットが接続された行を持つこのプロットの名前は何ですか?
私はEIAレポートを読んでおり、このプロットは私の注目を集めました。同じ種類のプロットを作成できるようになりたいと思います。 2年間(1990〜2015年)のエネルギー生産性の進化を示し、この2つの期間の間に変化値を追加します。 このタイプのプロットの名前は何ですか?Excelで同じプロットを(異なる国で)作成するにはどうすればよいですか?

5
ストリーミングデータ用のt-SNEのバージョンはありますか?
t-SNEとBarnes-Hut近似の私の理解は、すべての力の相互作用を同時に計算し、各ポイントを2d(または低次元)マップで調整できるように、すべてのデータポイントが必要であるということです。 ストリーミングデータを効率的に処理できるt-sneのバージョンはありますか?したがって、私の観測が一度に1つずつ到着している場合、新しい観測を配置するのに最適な2Dマップ上の位置を見つけるか、2Dマップ上のすべてのポイントを継続的に更新して新しい観測を考慮します。 これは理にかなっていますか、それともt-sneの設定に反しますか?

1
ggplot2でgeom_pointの位置を「回避」するにはどうすればよいですか?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Rでggplot2を使用して、次のようなプロットを作成しています。 エラーバーは互いに重なり合っており、非常に乱雑に見えます。異なるインデックスのエラーバーを分離するにはどうすればよいですか?position = "dodge"を使用しましたが、機能していないようです。これが私のコードの主要部分です。 plot = ggplot(data,aes(x=ntrunc,y=beta_best,group=ntrunc,colour=INDEX)) +geom_point(aes(shape=detectable),na.rm=TRUE,position="dodge") +geom_errorbar(aes(x=ntrunc,ymax=beta_high,ymin=beta_low),na.rm=TRUE,position="dodge")


5
離散変数と連続変数の関係を視覚化する最良の方法は何ですか?
以下の関係を示す最良の方法は何ですか? 連続変数と離散変数、 2つの離散変数? これまで、散布図を使用して連続変数間の関係を調べてきました。ただし、離散変数の場合、データポイントは特定の間隔で累積されます。したがって、最適なラインは偏っている可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.