タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

1
複数の代入後のキャリブレーションプロットのプーリング
複数の代入後のキャリブレーションプロット/統計のプーリングに関するアドバイスをお願いします。将来のイベントを予測するために統計モデルを開発する設定では(たとえば、病院の記録からのデータを使用して退院後の生存やイベントを予測する)、多くの情報が欠落していることが想像できます。複数の代入はそのような状況を処理する方法ですが、結果として、代入の固有の不確実性による追加の変動性を考慮して、各代入データセットからのテスト統計をプールする必要があります。 複数のキャリブレーション統計(hosmer-lemeshow、HarrellのEmax、推定キャリブレーションインデックスなど)があることを理解しています。プーリングに関する「通常の」Rubinのルールが適用される可能性があります。 ただし、これらの統計は多くの場合、モデルの特定のミスキャリブレーション領域を示さないキャリブレーションの全体的な測定値です。この理由から、私はむしろ較正プロットを見たいと思います。残念ながら、プロットまたはそれらの背後にあるデータ(個人ごとの予測確率と個人ごとの観測結果)を「プール」する方法については無知であり、生物医学文献(私がよく知っている分野)にはあまり見つけることができません、または、ここで、CrossValidatedで。もちろん、各代入データセットのキャリブレーションプロットを見ることは答えかもしれませんが、多くの代入セットが作成されると、非常に面倒になる可能性があります。 したがって、複数の代入(?)後にプールされたキャリブレーションプロットをもたらす手法があるかどうかを尋ねたいと思います

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

11
グラフに3つの情報を表示する
注:50ポイントの生データが現在添付されています。 私が行った研究の量と、週ごとに完了したページ数を日ごとに分けて表示したいので、次のように表示しました。 グラフを理解できないと言われましたが、他にどのように表示できるかわかりません。累積的な描写をすることなく、本質的に3つの次元が必要だからです。数週間後にグラフが判読できなくなるため、多数の折れ線グラフの使用を避けたいと思います。私にできることは何もありませんか? これらをより明確に表示するにはどうすればよいですか? Date Total Total pages 21/11/2014 2.4166 0 22/11/2014 0 0 23/11/2014 1.5833 4 24/11/2014 3.0166 13 25/11/2014 2.4999 6 26/11/2014 1.4833 3 27/11/2014 3.0499 6 28/11/2014 0 0 29/11/2014 2.4499 5 30/11/2014 2.8833 2 1/12/2014 0 0 2/12/2014 4.1166 8 3/12/2014 1.3333 5 4/12/2014 1.2499 3 …

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
LASSO変数トレースプロットの解釈
私はこのglmnetパッケージを初めて使用しますが、結果の解釈方法がまだわかりません。誰でも次のトレースプロットを読むのを手伝ってもらえますか? グラフは、次を実行して取得していました。 library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)

1
混合モデルの結果を視覚化する
混合モデルで私が常に抱えていた問題の1つは、結果が得られたら、データの視覚化(紙やポスターに掲載されるようなもの)を把握することです。 現在、私は次のような式のポアソン混合効果モデルに取り組んでいます: a <- glmer(counts ~ X + Y + Time + (Y + Time | Site) + offset(log(people)) glm()に適合するものを使用すると、predict()を使用して簡単に新しいデータセットの予測を取得し、それから何かを構築できます。しかし、このような出力では-Xからのシフト(およびおそらくYの設定値)を使用して、経時的なレートのプロットのようなものをどのように構築しますか?固定効果の推定値からフィットを十分に予測できると思いますが、95%CIはどうですか? 他の誰かが結果を視覚化するのに役立つと考えることができるものはありますか?モデルの結果は以下のとおりです。 Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 5.3678e-01 0.7326513 time 2.4173e-05 0.0049167 0.250 Y 4.9378e-05 0.0070270 -0.911 0.172 Fixed effects: Estimate Std. Error z value Pr(>|z|) (Intercept) …

2
コインをひっくり返して分類器を組み合わせる
私は機械学習コースを勉強しており、講義のスライドには推奨されている本と矛盾する情報が含まれています。 問題は次のとおりです。3つの分類子があります。 低い範囲のしきい値でより良いパフォーマンスを提供する分類子A より高い範囲のしきい値でより優れたパフォーマンスを提供する分類子B 分類子C pコインを反転し、2つの分類子から選択することで得られるもの。 ROC曲線で見た分類器Cのパフォーマンスはどうなりますか? 講義のスライドでは、このコインを反転させるだけで、分類器AとBのROC曲線の魔法の「凸包」が得られると述べています。 私はこの点を理解していません。コインをひっくり返すだけで、どのようにして情報を得ることができますか? 講義スライド 本が言うこと 一方、推奨される本(Ian H. Witten、Eibe Frank、Mark A. HallによるData Mining ...)は次のように述べています。 これを確認するには、tAとfAのそれぞれ正と偽の正の割合を与えるメソッドAの特定の確率カットオフと、tBとfBを与えるメソッドBの別のカットオフを選択します。これら2つのスキームを確率pとq(p + q = 1)でランダムに使用すると、pの真と偽の陽性率が得られます。tA + q tBおよびp fA + q fB。これは、ポイント(tA、fA)と(tB、fB)を結ぶ直線上にあるポイントを表し、pとqを変えることにより、これら2つのポイント間のライン全体をトレースできます。 私の理解では、本が言うことは、実際に情報を得て凸包に到達するためには、単にpコインをひっくり返すよりも高度なことをする必要があるということです。 私の知る限り、正しい方法は(本で提案されているように)次のとおりです。 分類器Aの最適なしきい値Oaを見つける必要があります 分類器Bの最適なしきい値Obを見つける必要があります Cを次のように定義します。 t <Oaの場合、tで分類器Aを使用します t> Obの場合、tで分類器Bを使用 Oa <t <Obの場合、OaとObの間の位置の線形結合としての確率により、Oaを持つ分類器AとObを持つBの間を選択します。 これは正しいです?はいの場合、スライドが示唆するものと比較していくつかの重要な違いがあります。 それは単純なコインの反転ではなく、どの地域に属するかに基づいて手動で定義されたポイントとピックを必要とするより高度なアルゴリズムです。 OaとObの間のしきい値で分類子AとBを使用することはありません。 私の理解が正しくなかった場合、この問題とそれを理解する正しい方法は何ですか? スライドが示すように、単にpコインを反転させるだけで何が起こるでしょうか?AとBの間のROC曲線が得られると思いますが、特定のポイントでより良い曲線よりも「良い」曲線になることはありません。 私が見る限り、私はスライドがどのように正しいかを本当に理解していません。左側の確率的計算は私には意味がありません。 更新: …

3
Rを使用して摩耗を視覚化する最良の方法は?
スルーこのサイト私は最近サンキーダイアグラム、で何が起こっているかを視覚化するのに最適な方法を発見してきた伝統的なフローチャートを。 以下は、ジョージM.ホワイトサイドとジョージW.クラブツリー、 ソースによるサンキー図の良い例です。2007年2月9日:エネルギー、科学の長期基礎研究を忘れないでください 315。5813、pp.796-798。 Sankey Rパッケージが存在しないことに気付いた後、オンラインでRスクリプトを見つけましたが、残念ながらこのスクリプトはかなり生で、ある程度制限されています。stackoverflowでSankey Rパッケージまたはより成熟した関数を求めましたが、驚いたことに、RでSankey Diagramsを構築するための成熟した関数がないようです。 報奨金を投稿した後、Geek On Acidは、既存のスクリプトに小さなハックを提案するのに十分なほど親切で、特定の目的で多かれ少なかれ機能しました。 改良されたRスクリプトにより、この図が作成されました 。stackoverflow.com。 しかし、Rパッケージがないことは、上記の図に示されているようなデータフローでRを使用して損耗を視覚化するのにSankey Diagramsがそれほど驚くべき方法ではないことを示しています(データとRコードの最初のstackoverflowの質問を参照してください。減耗を視覚化するより良い方法があります。 Rを使用してデータフローの減少を視覚化する最良の方法は何だと思いますか?

1
ggplotで階段関数をプロットする方法は?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 私はこのようなグラフを持っています: それを生成するためのRコードは次のとおりです。 DF <- data.frame(date = as.Date(runif(100, 0, 800),origin="2005-01-01"), outcome = rbinom(100, 1, 0.1)) DF <- DF[order(DF$DateVariable),] #Sort by date DF$x <- seq(length=nrow(DF)) #Add case numbers (in order, since sorted) DF$y <- cumsum(DF$outcome) library(ggplot2) ggplot(DF, aes(x,y)) + geom_path() + #Ploting scale_y_continuous(name= "Number of failures") + scale_x_continuous(name= "Operations performed") 私はこのようなものが欲しい: …

4
評判に対する投票の影響の分析を改善するにはどうすればよいですか?
最近、私はアップボットに対する評判の影響の分析を行い(ブログ投稿を参照)、その後、より啓発的な(またはより適切な)分析とグラフィックスについていくつか質問をしました。 いくつか質問があります(特に特定の人には自由に回答し、他の人は無視してください)。 現在の化身の中で、私は郵便番号を中央に置くつもりはありませんでした。これは、ポストカウントの下限に向かってより多くのポストがあるため、散布図に負の相関の誤った外観を与えることだと思います(これは、Jon Skeetパネルではなく、定命のユーザーでのみ発生しますパネル)。ポスト番号の平均を中心にしないのは不適切ですか?(ユーザーの平均スコアごとにスコアを中心にしたからです) グラフから、スコアが非常に右に歪んでいることが明らかであるはずです(そして、平均センタリングはそれを変更しませんでした)。回帰直線をフィッティングするとき、線形モデルと、Huber-White sandwhichエラー(rlmMASS Rパッケージを使用)を使用するモデルの両方にフィッティングしますが、勾配推定値に違いはありませんでした。ロバスト回帰の代わりにデータへの変換を検討すべきでしたか?変換では、0および負のスコアの可能性を考慮する必要があることに注意してください。または、OLSの代わりにカウントデータに他のタイプのモデルを使用する必要がありましたか? 一般に、最後の2つのグラフィックスは改善できると考えています(また、改善されたモデリング戦略にも関連しています)。私の(うんざりした)意見では、評判の効果が本当かどうかはポスターの歴史のかなり早い段階で実現されるのではないかと疑います(本当なら、これらは再考されるかもしれません。 「合計スコアによる評判」効果の代わりに「投稿」)。オーバープロットを考慮しながら、これが正しいかどうかを示すためにグラフィックを作成するにはどうすればよいですか?これを実証する良い方法は、フォームのモデルに適合することだと思いました。 Y=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY = \beta_0 + \beta_1(X_1) + \alpha_1(Z_1) + \alpha_2(Z_2) \cdots \alpha_k(Z_k) + \gamma_1(Z_1*X_1) \cdots \gamma_k(Z_k*X_1) + \epsilon ここで、は(現在の散布図と同じ)、X 1は、Z 1はYYYscore - (mean score per user)X1X1X_1post number例えばポスト番号のいくつかの任意の範囲を表すダミー変数(ある Z 1つの等しいポスト番号である場合、 Zポスト番号がなどの場合、 2は等しくなります)。β 0Z1⋯ZkZ1⋯ZkZ_1 \cdots Z_kZ1Z1Z_111 through 25Z2Z2Z_2126 through 50β0β0\beta_0及びそれぞれグランドインターセプト及び誤差項です。次に、推定γを調べますϵϵ\epsilonγγ\gamma評判の影響がポスターの歴史の早い段階で出現したかどうかを判断する(またはグラフィカルに表示する)スロープ。これは合理的な(そして適切な)アプローチですか? ある種のノンパラメトリックな平滑化線をこれらのような散布図(黄土やスプラインなど)に適合させることは一般的なようですが、スプラインを使った私の実験では啓発的なものは何も明らかになりませんでした(ポスターの歴史の早い段階でのポスト効果の証拠はわずかで気まぐれでした)私が含めたスプラインの数に)。私は効果が早期に起こるという仮説を持っているので、上記のモデリングアプローチはスプラインよりも合理的ですか? また、私はこのデータのすべてをdrしましたが、調べるべき他のコミュニティがまだたくさんあります(スーパーユーザーやサーバーフォールトのようなものは同様に大きなサンプルを引き出しています)ので、将来提案するのは十分合理的ですホールドアウトサンプルを使用して関係を調べる分析。

2
ボックスプロットで中央値の代わりに平均値を表示する[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 4ヶ月前に閉店。 python matplotblibで箱ひげ図をプロットする場合、プロットの半分の線は分布の中央値です。 代わりに平均でラインを持つ可能性はありますか。または、その横に別のスタイルでプロットします。 また、行が中央値であることが一般的であるため、平均にすると、読者を本当に混乱させますか(もちろん、中間行とは何かをメモします)。

5
大量のデータをグラフィカルに表示する良い方法
私は、14の変数と345,000の住宅データの観測(建設された年、面積、販売価格、居住郡など)を含むプロジェクトに取り組んでいます。良いグラフィカルなテクニックと、素敵なプロットテクニックを含むRライブラリを見つけようとしています。 ggplotとラティスで何がうまく機能するかをすでに見ています。数値変数のいくつかについてバイオリンプロットを行うことを考えています。 明確で洗練された、最も重要な、簡潔な方法で、大量の数値または因子タイプの変数を表示するために、他のどのパッケージが推奨されますか?

8
「ハンドルバー」プロットの代替グラフィックス
私の研究分野では、データを表示する一般的な方法は、棒グラフと「ハンドルバー」の組み合わせを使用することです。例えば、 「ハンドルバー」は、作成者に応じて標準誤差と標準偏差を交互に切り替えます。通常、各「バー」のサンプルサイズはかなり小さく、約6です。 これらのプロットは、生物科学で特に人気があるようです-BMC Biologyの最初のいくつかの論文、第3巻を参照してください。 それでは、このデータをどのように提示しますか? これらのプロットが嫌いな理由 個人的に私はこれらのプロットが好きではありません。 サンプルサイズが小さい場合は、個々のデータポイントを表示しないだけです。 表示されているのはsdまたはseですか?どちらを使用するかに同意する人はいません。 なぜバーを使用するのですか。データは(通常)0からはなりませんが、グラフの最初のパスからわかるようになっています。 グラフは、データの範囲やサンプルサイズについてはわかりません。 Rスクリプト これは、プロットの生成に使用したRコードです。そうすれば、(必要に応じて)同じデータを使用できます。 #Generate the data set.seed(1) names = c("A1", "A2", "A3", "B1", "B2", "B3", "C1", "C2", "C3") prevs = c(38, 37, 31, 31, 29, 26, 40, 32, 39) n=6; se = numeric(length(prevs)) for(i in 1:length(prevs)) se[i] = sd(rnorm(n, prevs, …

3
クラスタリングのデータ出力をプロットする方法は?
一連のデータ(一連のマーク)をクラスタリングしてみて、2つのクラスターを得ました。グラフィカルに表現したいと思います。私は(x、y)座標を持っていないので、表現について少し混乱しています。 そのためのMATLAB / Python関数も探しています。 編集 データを投稿すると、質問がより明確になると思います。Pythonでkmeansクラスタリングを使用して(scipyを使用せずに)作成した2つのクラスターがあります。彼らです class 1: a=[3222403552.0, 3222493472.0, 3222491808.0, 3222489152.0, 3222413632.0, 3222394528.0, 3222414976.0, 3222522768.0, 3222403552.0, 3222498896.0, 3222541408.0, 3222403552.0, 3222402816.0, 3222588192.0, 3222403552.0, 3222410272.0, 3222394560.0, 3222402704.0, 3222298192.0, 3222409264.0, 3222414688.0, 3222522512.0, 3222404096.0, 3222486720.0, 3222403968.0, 3222486368.0, 3222376320.0, 3222522896.0, 3222403552.0, 3222374480.0, 3222491648.0, 3222543024.0, 3222376848.0, 3222403552.0, 3222591616.0, 3222376944.0, 3222325568.0, 3222488864.0, 3222548416.0, 3222424176.0, 3222415024.0, 3222403552.0, …

3
PowerPointで使用するのに最適なオープンソースデータ視覚化ソフトウェア
最高のオープンソースデータ視覚化ソフトウェアは何ですか?次のものが必要です。 Microsoft Excelからデータをインポートできます(Oracleデータベースからデータをインポートすることもできますが、これは必須ではありません)。 ソフトウェアによって生成されたグラフは、Microsoft PowerPointにエクスポートできます(コピーと貼り付けは問題ありません)。 オープンソースで使いやすい。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.