タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

4
相互作用プロットを解釈するのに役立ちますか?
2つの独立変数間に交互作用がある場合、交互作用プロットの解釈に問題があります。 次のグラフはこのサイトからのものです。 ここで、とは独立変数で、は従属変数です。B D VAAABBBDVDVDV 質問:相互作用と主な効果はありますが、主な効果はありませんBAAABBB Bが場合、の値が高いほどの値が高くなることがます。それ以外の場合、はの値に関係なく一定です。したがって、相互作用があるととの主効果(より高いので、高いへリード保持、時定数を)。D V B 1 D V A A B A A D V B B 1AAADVDVDVB1B1B_1DVDVDVAAAAAABBBAAAAAADVDVDVBBBB1B1B_1 また、レベルが異なると、レベルも異なり、一定に保つことがわかります。したがって、Bの主な効果があります。しかし、明らかにそうではありません。つまり、これは私が相互作用プロットを誤って解釈していることを意味するはずです。何が悪いのですか?D V ABBBDVDVDVAAA また、プロット6-8を誤って解釈しています。私がそれらを解釈するために使用したロジックは上記で使用したものと同じなので、上記で作成しているエラーがわかっていれば、残りを正しく解釈できるはずです。それ以外の場合は、この質問を更新します。

2
セグメント化されたファネルをどのように視覚化しますか?(そして、Pythonでそれを行うことができますか?)
セグメント化されたマーケティング目標到達プロセスを提示するMozのこの投稿を見ました。 この種のことは私の仕事にかなりの価値があるでしょう。このようなセグメント化された目標到達プロセスを表示するために、生データを視覚化する方法はわかりません。考えは、セールスリードはさまざまなソース(データの分割に使用)から来ており、取引に変換するまでにいくつかの段階を経ることです。各ステージから別のステージへのドロップオフ。各スライスの幅は、それぞれのリードの絶対数によって決まります。[ 編集:参照用にここで使用されている画像は、各スライスの右側に指定されている数値に関して誤解を招くものであることに注意してください。スライスの幅と数の間に関係はないようです。画像は、セグメント化されたファネルのデザインへの参照としてのみ取られるべきです。 とにかく、それを視覚化する方法はありますか?可能であれば、Pythonでこれを行う方法が欲しいです。 これは、誰かが必要な場合のダミーデータを含むGoogleドキュメントです... あなたの洞察を楽しみにしています。ありがとう!

2
ディリクレ分布でシンプレックスを三角形サーフェスとして表すことの意味は?
Dirchiletの分布を紹介し、それについて図を示した本を読んでいます。しかし、私はそれらの数字を本当に理解することができませんでした。こちらの図を下に貼りました。私が理解していないのは、三角形の意味です。 通常、2つの変数の関数をプロットする場合は、var1とva2の値を取得してから、これら2つの変数の関数値の値をプロットします。これにより、3D次元で視覚化できます。しかし、ここには3つの次元と関数値の他の1つの値があるため、4D空間で視覚化されます。それらの数字が理解できません! 誰かがそれらを明確にしてくれることを願っています! 編集:これは、図2.14aから理解できないことです。したがって、K = 3ディリクレからサンプルtheta(基本的にはベクトル)、つまりtheta = [theta1、theta2、theta3]を描画しました。三角形は[theta1、theta2、theta3]をプロットします。原点から各theta_iまでの距離は、theta_iの値です。次に、theta_iごとに頂点を配置し、3つの頂点すべてを接続して三角形を作成します。[theta1、theta2、theta3]をdir(theta | a)に接続すると、ベクトルthetaの同時確率である1つの数値が得られることを知っています。また、連続確率変数の確率が面積の尺度であることも理解しています。しかし、ここには3次元があるので、結合確率はピンク色の平面とその下からの空間の体積の尺度になります...ピラミッド。ここで三角形の役割が何なのかわかりません。

2
因子と連続共変量の間の相互作用をどのようにプロットしますか?
同じグラフに、連続予測子とカテゴリカルモデレーター間の相互作用をプロットしたいと思います。両方がカテゴリカル(因子相互作用)である場合の方法は知っていますが、一方が連続的​​でもう一方がカテゴリカルである場合の方法はわかりません。

1
ヴァイオリンプロットの解釈
私はヴァイオリンプロットを使用してさまざまなグループの分布を比較していますが、私が見つけたオンラインリソースのほとんどは、プロットの作成方法と結果の非常に基本的な解釈(中央値の変動、データがクラスター化されているかどうか)にのみ関連しています。 バイオリンのプロットを正しく解釈するためのガイドラインとして従うことができる詳細な例を探しています。

4
このグラフに名前はありますか-円グラフとメッコプロットの間の一種のクロス
以下のこの種のチャートに名前はありますか(私が働いているが、このプロットの作成に関与していなかったニュージーランドのビジネス、イノベーション、雇用省から供給されています)?これは、面積が変数に比例する長方形で構成され、円グラフ、モザイクプロット、およびメッコプロットの間の一種の十字に似ています。それはおそらくメッコプロットに最も近いですが、列ではなく、より複雑なジグソーで作業しているという複雑さがあります。 各領域の長方形の間に白い境界線があるため、オリジナルは少し良く見えます。 驚くべきことに、統計グラフィックにはそれほど悪くないという印象を受けますが、意味のあるものにマッピングされた色をより適切に使用することで改善できる可能性があります。米国の2011年予算を示す強力なインタラクティブバージョンは、ニューヨークタイムズで使用されています。 興味深い課題は、自動アルゴリズムを考えてそれを描画し、それを合理的に見えるようにすることです。長方形は、許容範囲内で異なるアスペクト比を持つことができるようにする必要があります。

2
適応コピュラとは何ですか?
私の基本的な質問は、適応コピュラとは何ですか? 適応コピュラについてのプレゼンテーションのスライドがあります(残念ながら、スライドの作成者に質問することはできません)。これは何に適していますか? スライドは次のとおりです。 次に、スライドは変化点テストに進みます。私はこれが何であるか、そしてなぜ私はコピュラに関連してこれが必要なのかと思っていますか? スライドは、適応的に推定されたパラメータープロットで終了します。 これは、私の見積もりが遅れていることを示しているようです。他の解釈、コメントは素晴らしいです!

1
複数の潜在クラスモデルからの結果の視覚化
潜在クラス分析を使用して、バイナリ変数のセットに基づいて観測値のサンプルをクラスター化しています。私はRとパッケージpoLCAを使用しています。LCAでは、検索するクラスターの数を指定する必要があります。実際には、人々は通常、それぞれが異なる数のクラスを指定する複数のモデルを実行し、さまざまな基準を使用して、データの「最良の」説明を決定します。 さまざまなモデルを調べて、class =(i)のモデルに分類された観測値がclass =(i + 1)のモデルによってどのように分布されるかを理解しようとすることが非常に役立つことがよくあります。少なくとも、モデル内のクラスの数に関係なく、非常に堅牢なクラスターが見つかることがあります。 これらの関係をグラフ化し、これらの複雑な結果をより簡単に論文で伝えたり、統計学に向いていない同僚に伝えたりしたいのですが。これは、Rである種の単純なネットワークグラフィックパッケージを使用して非常に簡単に実行できると思いますが、その方法がわかりません。 誰かが私を正しい方向に向けてくれませんか?以下は、サンプルデータセットを再現するコードです。各ベクトルxiは、可能性のあるi個のクラスを持つモデルで、100個の観測値の分類を表します。観測(行)がクラス間で列全体にどのように移動するかをグラフ化したいと思います。 x1 <- sample(1:1, 100, replace=T) x2 <- sample(1:2, 100, replace=T) x3 <- sample(1:3, 100, replace=T) x4 <- sample(1:4, 100, replace=T) x5 <- sample(1:5, 100, replace=T) results <- cbind (x1, x2, x3, x4, x5) ノードが分類であり、エッジが(重みまたは色によって)モデル間で分類から移動する観測の%を反映するグラフを作成する方法があると思います。例えば 更新:igraphパッケージでいくつかの進歩があります。上記のコードから始めます... poLCAの結果は、クラスメンバーシップを説明するために同じ番号をリサイクルするため、少し再コーディングする必要があります。 N<-ncol(results) n<-0 for(i in 2:N) { …

2
ブラックボックス非線形モデルの予測に対するさまざまな入力の重要性をどのように視覚化できますか?
私の組織で行われる予測の助けとして、インタラクティブな予測ツール(Python)を構築しています。今日まで、予測プロセスは主に人間主導で行われており、予測者は自然なニューラルネットワークのデータを同化し、学習した腸の感覚を使用して予測を行います。長期的な予測の検証と予測モデリングの調査から、私はあなたが期待するかもしれないものを見つけました。異なる予測者は異なるバイアスを示し、一部の予測子の効果は誇張されているようであり、他の重要な予測子は無視されているようであり、概して予測パフォーマンスは比較的単純な経験的モデルと比較して平凡です。 予測は引き続き手動で行われますが、私は予測者の相対的な影響のより良い定量化を予測者に提供するための有用なツールを構築しようとしています。見過ごされがちな季節の影響などの重要な影響もあり、ユーザーに強調したいと思います。私は、いくつかの「経験豊富な」予測者(その多くは統計に関する正式な知識がほとんどない)からのモデリングプロセスについてある程度の反発と懐疑論を期待しているため、コミュニケーションは少なくとも同じくらい重要であり、予測精度の測定可能な改善を達成します。 私が開発しているモデルには強力な自動回帰コンポーネントがあり、イベントによって大幅に変更されることがあります。このイベントは、非イベント時に、ゼロに近い一部の予測子で測定値として表示されます。これは、予測者が使用するメンタルモデルと一致しています。重要な部分は、どの「イベント」測定が予測を特定の予測の自己回帰値から遠ざけるのに最も影響を与えるかを実証できることです。この方法でプロセスをイメージします。予測者はその最良の推測値を導き出し、モデルは別の値を提案し、予測者はその理由を尋ねます。モデルは、「ここを参照してください。この予測子のこの値は夏の予測値を増加させます。冬だった場合、それは別の方向に移動します。他にもこれらの測定値があることを知っています。 ここで、モデルが単純な線形回帰であると想像してください。値にモデルの係数を掛けて単純な棒グラフとして表示することにより、イベントベースの予測子の相対的な「効果」を表示することを想像できます。異なる予測子からのすべてのバーは、AR値からの合計偏差になり、これは、この例では、強い影響力を持つものを簡潔かつ明確に示しています。 問題は、予測されているプロセスが予測子に高度な非線形性を表示することです。少なくとも、ブラックボックス非線形機械学習アルゴリズム(ランダムフォレストとGBM)は、GLMの場合よりもはるかに成功しています。このデータセット。理想的には、ユーザーエクスペリエンスを変更せずに「内部」で機能するモデルをシームレスに変更できるようにしたいので、アルゴリズム固有のアプローチを使用せずにさまざまな測定の重要性を簡単な方法で示す一般的な方法が必要です。現在のアプローチでは、1つの予測子を除くすべての値をゼロに設定して効果を準線形化し、予測偏差を記録してからすべての予測子について繰り返し、上記の棒グラフに結果を表示します。強い非線形性が存在する場合、これはうまく機能しない可能性があります。

2
箱ひげ図のひげについて
箱ひげ図のひげの解釈について質問があります。私は以下を読みました:「長方形の上部と下部で、「ひげ」は0.25と0.75の分位数の間の距離の1.5倍の範囲を示していますが、「距離」が何を意味するのか完全には理解していません。 0.25と0.75の分位数の間、データのパーセンテージは常に同じであるため、確率質量が意味されているとは限りません。それではアイデアは何ですか?

5
実験データの表現
データの視覚化について私のアドバイザーと議論があります。彼は実験結果を表すとき、値は下の画像に示されているように「マーカー」のみでプロットされるべきであると主張します。曲線は「モデル」のみを表す必要があります 一方、次の2番目の画像に示すように、読みやすくするために、多くの場合、曲線は不要であると思います。 私は間違っているのですか、それとも教授ですか?後者の場合は、彼にこれを説明するためにどうしたらいいですか。

4
20年分の日次データを時系列にプロットする方法
次のデータセット:https : //dl.dropbox.com/u/22681355/ORACLE.csvが あり、「Open」の「Date」による毎日の変化をプロットしたいので、次のようにしました: oracle <- read.csv(file="http://dl.dropbox.com/u/22681355/ORACLE.csv", header=TRUE) plot(oracle$Date, oracle$Open, type="l") そして私は以下を取得します: これは明らかにこれまでで最も良いプロットではないので、そのような詳細なデータをプロットするときに使用する適切な方法は何でしょうか。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
mcmc.listからplot.bugsおよびplot.jagsによって生成されるプロットと同様のプロットをどのように生成できますか?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。 Rは、関数R2WinBUGS :: bugsとR2jags:jagsによって生成されたオブジェクトbugsとjagsオブジェクトから素晴らしい要約プロットを出力できるようです。 しかし、私はrjagsパッケージを使用しています。結果をrjags::coda.samples使用R2WinBUGS::plot.mcmc.listして関数の結果をプロットしようとすると、各パラメーターの診断プロット(パラメーター密度、チェーン時系列、自己相関)になります。 以下は、Andrew Gelmanのチュートリアル「RからのWinBuugsとOpenBugsの実行」から作成したいプロットのタイプです。これらはを使用して作成されましたplot.pugs。 問題はplot.bugs、bugsオブジェクトを引数としてplot.mcmc.list受け取り、の出力を受け取ることですcoda.samples。 次に例を示します(からcoda.samples): library(rjags) data(LINE) LINE$recompile() LINE.out <- coda.samples(LINE, c("alpha","beta","sigma"), n.iter=1000) plot(LINE.out) 私が必要なのは によって生成されたものと同様の、情報が豊富な、1ページの要約プロットを生成する方法 plot.bugs LINE.outバグオブジェクトに変換する関数または

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.