タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

2
ブール特徴の小さなサンプルセットに対するPCAとスペクトルクラスタリングの違い
50サンプルのデータセットがあります。各サンプルは、11個の(相関している可能性がある)ブール機能で構成されています。これらのサンプルを2Dプロットで視覚化し、50個のサンプルの間にクラスター/グループがあるかどうかを調べたいと思います。 私は次の2つの方法を試しました。 (a)50x11マトリックスでPCAを実行し、最初の2つの主成分を選択します。データを2Dプロットに投影し、簡単なK平均法を実行してクラスターを特定します。 (b)50x50(コサイン)類似性行列を作成します。次元削減のためにスペクトルクラスタリングを実行し、その後再びK-meansを実行します。 直接PCAを実行することと、類似度行列の固有値を使用することの概念的な違いは何ですか?一方が他方よりも優れていますか? また、そのようなデータを2Dで視覚化するより良い方法はありますか?私のサンプルサイズは常に50に制限されており、機能セットは常に10から15の範囲にあるため、複数のアプローチをその場で試し、最適なアプローチを選択します。 関連質問: クラスタリングまたはPCAによるサンプルのグループ化

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

3
ヒストグラムの間隔の数に上限はありますか?
データセットのヒストグラムに適切な数の間隔(ビン)を選択する方法を説明するいくつかの記事と本の抜粋を読んだことがありますが、ポイントの数に基づいて間隔のハード最大数があるかどうか疑問に思っていますデータセット、またはその他の基準。 背景:私が求めているのは、研究論文の手順に基づいてソフトウェアを作成しようとしているためです。手順の1つのステップは、データセットからいくつかのヒストグラムを作成し、特性関数(論文の作成者が定義)に基づいて最適な解像度を選択することです。私の問題は、著者がテストする間隔の数の上限に言及していないことです。(私は何百ものデータセットを分析する必要があり、それぞれに異なる「最適な」数のビンを含めることができます。また、最適な数のビンを選択することが重要なので、手動で結果を見て、適切なものを選択することはできません作業。) 間隔の最大数をデータセットのポイント数に設定するだけでよいでしょうか、それとも統計で一般的に使用される他の基準がありますか?

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
なぜ情報値を計算するのですか?
カテゴリー変数と連続変数を持つデータがありますが、説明的なデータ分析で情報値を見つける必要があります。 データ分析の最初に各変数の情報値を計算する理由と、分析を行うための情報値のカットオフポイントを教えてください

3
Rで棒が並んでいる棒グラフ図を作成する方法
ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 Rでこれらのデータの棒グラフを作成したい(CVSファイルから読み取った): Experiment_Name MetricA MetricB Just_X 2 10 Just_X_and_Y 3 20 次の図を作成します。 私は初心者であり、開始する方法すら知りません。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
時系列のノイズの多いパッチを強調表示するにはどうすればよいですか?
時系列データがたくさんあります-水位と速度vs時間。これは、水理モデルシミュレーションからの出力です。モデルが期待どおりに動作していることを確認するための確認プロセスの一環として、各時系列をプロットして、データに「ウォブル」がないことを確認する必要があります(以下のマイナーウォブルの例を参照)。モデリングソフトウェアのUIを使用すると、このデータを確認するのにかなり時間がかかり、面倒です。したがって、結果を含むモデルのさまざまなデータをExcelにインポートし、それらをすべて一度にプロットする短いVBAマクロを作成しました。時系列データを分析して疑わしいセクションを強調表示する別の短いVBAマクロを記述したいと思っています。 これまでの私の唯一の考えは、データの勾配について分析を行うことができるということです。特定の検索ウィンドウ内で勾配が正から負に複数回急速に変化する場所は、不安定であると分類できます。もっと簡単なトリックはありませんか?基本的に、「安定した」シミュレーションは非常に滑らかな曲線を提供するはずです。突然の変化は、計算の不安定性の結果である可能性があります。

1
PCAプロットのくさびのような形状は何を示していますか?
テキスト分類用のオートエンコーダに関する彼らの論文で、 HintonとSalakhutdinovは2次元LSA(PCAに密接に関連しています)によって生成されるプロットを示しました。 PCAをまったく異なるわずかに高次元のデータに適用すると、同様に見えるプロットが得られました(この場合を除いて、内部構造があるかどうかを本当に知りたかったのです)。 ランダムデータをPCAに入力すると、ディスク状のブロブが得られるため、このくさび状の形状はランダムではありません。それ自体は何か意味がありますか?

2
人々が定量的な要約と視覚化をどのように解釈するかを研究している科学分野は何ですか?
データの視覚化に関するアドバイスを提供する、よく知られたリソースが豊富にあります。(たとえば、Tufte、Stephen Few et al、Nathan Yau)。しかし、次のような質問への回答については、どの分野に向けるかもしれません。 円グラフの批判は実際に関連していますか?人々は、弧の長さよりも線形スケールの長さの解釈がはるかに優れていますか? たとえば、一連の基礎となる変数のインデックスサマリーを作成し、米国の2010年には100の値、2015年には110の値があることを一般の聴衆に説明するとします。ほとんどの人はこれらの数値をどのように解釈するでしょうか。より良い説明のために活用するため、または誤解を防ぐために、この測定基準を提示するときに私が考慮すべき自然な認識習慣はありますか? 別の言い方をすれば、今日利用できる膨大な視覚化と設計のアドバイスを整理するのに役立つ、定量的情報のプレゼンターが経験的に正しいテスト済みの原則を探すことができる科学分野は何ですか? 目的は、データを視覚化する方法、または新しいデータ視覚化問題に取り組む方法についてのアドバイス、アイデア、または現在のコンセンサスを見つけることではなく、定量的および/または視覚的情報を解釈する方法の科学を探す場所を学ぶことです。 (分野のジャーナル、会議、学者への言及に対する追加のクレジット)

5
非常に多くのペアのデータポイントをグラフィカルに表す良い方法は何ですか?
私の分野では、ペアのデータをプロットする通常の方法は、2つのグループの中央値と中央値のCIでオーバーレイする一連の細い傾斜線セグメントとしてです。 ただし、この種のプロットは、データポイントの数が非常に大きくなるため(私の場合、1万ペア程度)、読みにくくなります。 アルファを減らすことは少し助けになりますが、それでもまだ素晴らしいとは言えません。解決策を探しているときに、このホワイトペーパーに出くわし、「平行線プロット」を実装することにしました。繰り返しますが、これは少数のデータポイントに対して非常にうまく機能します。 NNN たとえば、ボックスプロットやバイオリンを使用して2つのグループの分布を個別に表示し、2つの中央値/ CIを示す上部にエラーバーを付けて線をプロットすることはできると思いますが、それは伝えられないので、私は本当にその考えが好きではありません。データのペアの性質。 また、2D散布図のアイデアにあまり熱心ではありません。よりコンパクトな表現が理想的です。理想的には、2つのグループの値が同じ軸に沿ってプロットされている表現が望ましいです。完全を期すために、データは2D散布図のようになります。 非常に大きなサンプルサイズでペアのデータを表すより良い方法を誰かが知っていますか?いくつかの例にリンクしていただけませんか? 編集する すみません、私が探しているものを説明するのに十分な仕事をしていないのは明らかです。はい、2D散布図は機能します。ポイントの密度をよりよく伝えるために、2D散布図を改善する方法はたくさんあります-カーネル密度推定に従ってドットを色分けして、2Dヒストグラムを作成できます、等高線をドットの上などにプロットできます... しかし、これは私が伝えようとしているメッセージに対してはやり過ぎだと思います。ポイント自体の 2D密度を表示することについては特に気にしません-必要なのは、「棒」の値が「点」の値よりも一般的に大きいことを、できるだけ単純かつ明確な方法で示すことだけです。 、そしてデータの本質的なペアの性質を失うことなく。理想的には、2つのグループのペアの値を直交軸ではなく同じ軸に沿ってプロットしたいのです。これにより、視覚的に比較することが容易になります。 多分散布図より良い選択肢はありませんが、うまくいく可能性のある代替案があるかどうか知りたいのですが。

2
平均気温に対する年間のkWh使用量を表す方法は?
ただ面白くするために、家計の月次電力消費量を前年比でグラフ化したいと思います。ただし、kWhの使用に関して、家や行動が改善しているのか、悪化しているのか、または安定しているのかを判断できるように、月間気温への参照も含めたいと思います。 私が扱っているデータ: +----------+--------+-----------+----------------+----------+-----------+------------+ | Month | # Days | kWh Usage | Daily kWh Avg. | Avg. Low | Avg. High | Avg. Temp. | +----------+--------+-----------+----------------+----------+-----------+------------+ | Mar 2015 | 32 | 1048 | 33 | 40 | 60 | 50 | | Feb 2015 | 29 | 1156 | …

3
予測モデルの伝達​​関数-解釈
私はARIMAモデリングに夢中になっていて、プロモーションモデリングの目的で外因性変数が追加されており、ビジネスユーザーに説明するのに苦労しています。場合によっては、ソフトウェアパッケージは単純な伝達関数、つまりパラメーター*外生変数で終わることがあります。この場合、解釈は簡単です。つまり、プロモーションアクティビティX(外因性のバイナリ変数で表されます)は、従属変数(たとえば、需要)にYの量で影響します。したがって、ビジネス用語では、プロモーション活動XはYユニットによる需要の増加をもたらすと言えます。 伝達関数がより複雑になる場合があります。たとえば、多項式*外生変数の除算です。私ができることは、すべての動的回帰係数を見つけるために多項式の除算を行い、たとえば、プロモーション活動は、それが発生する期間中の需要だけでなく、将来の期間にも影響を与えると言うことです。しかし、ソフトウェアパッケージは多項式の除算として出力伝達関数を出力するため、ビジネスユーザーは直感的な解釈を行うことができません。除算せずに複雑な伝達関数について言えることはありますか? 関連するモデルのパラメータと関連する伝達関数を以下に示します。 定数= 4200、AR(1)、プロモーション活動係数30、Num1 = -15、Num2 = 1.62、Den1 = 0.25 ですから、この期間にプロモーション活動を行うと、需要のレベルが30単位増えると思います。また、伝達関数(多項式の除算)が存在するため、プロモーション活動は現在の期間だけでなく、その後の期間にも影響を与えます。問題は、プロモーションの影響を受ける将来の期間の数と、需要単位での期間あたりの影響をどのように見つけることができるかです。

2
この「Redditの米国」グラフはどのように作成されますか?
以下はpからのグラフです。James Dowdellが作成したものですが、Christian RudderのDataclysmの 202 。これは、ユーザーがリンク、コメント、および投票を送信できるreddit.comの関心領域である、さまざまな上位200のサブレディット間の関係を示しています。これらは、このサイトのタグに似ています。subredditリージョンのサイズはその人気を表しています。サブレディットはクロスコメントによってグループ化され、濃い色合いはそのサブレディット内にとどまり、他のユーザーに投稿しない人の割合を表します。 これは標準的なボロノイ分割で、島の色を付けたものですか、それとももっと複雑なものですか? これらのいずれかを作成するにはどうすればよいですか?

2
有向線分の混乱を視覚的に要約する
何百万もの有向線分のデータセットがあります。ラインセグメントは連続しています。これは気候変数(顕熱)であり、30分間隔で観測およびシミュレーションされた値を持ちます。シミュレーションのパフォーマンスのパターンを探しています。obs対シミュレーション値の散布図を見て、それらを線分にリンクしています(矢印は時間の方向を示しています)。それらをプロットすると、次のように解釈することが不可能なぼやけた混乱を得るだけです: これは、10000行のサブセットであり、細かく、不透明度が低くプロットされています。 ggplot(d, aes(x=Qh_obs, xend=lead(Qh_obs), y=Qh_sim, yend=lead(Qh_sim))) + geom_segment(size=0.1, alpha=0.2, arrow=arrow(length=unit(2, units='mm'))) dput() 最初の700行のデータ(投稿の長さによって制限されます): structure( list( Qh_sim = c( 56.401439666748, 33.9568634033203, 16.2147789001465, 0.797790050506592, -3.19529962539673, -10.3250732421875, -11.6082448959351, -21.5074787139893, -21.5963478088379, -21.4389324188232, -19.8912830352783, -18.5908279418945, -19.2523441314697, -19.663516998291, -19.1126575469971, -18.4237308502197, -16.6181221008301, -14.7601175308228, -14.5604763031006, -14.3527803421021, -14.6219816207886, -14.791407585144, -15.452392578125, -15.8962726593018, -11.9349966049194, -7.97028636932373, 12.4507570266724, 32.1654815673828, 56.9330673217773, 82.0748443603516, 110.501235961914, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.