タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

3
トリミング率とトリミング平均のプロットをどのように解釈できますか?
宿題の質問の一部として、最小と最大の観測値を削除してデータセットのトリミング平均を計算し、結果を解釈するように求められました。トリミングされた平均は、トリミングされていない平均よりも低かった。 私の解釈では、これは基礎となる分布が正に歪んでおり、そのため、左尾が右尾よりも密度が高いためだと考えられました。このゆがみの結果、高いデータムを削除すると、低いデータを削除するよりも平均が下にドラッグされます。これは、非公式に言えば、「代わりに待機している」データが少ないためです。(これは合理的ですか?) その後、私はトリム平均計算にトリミングパーセンテージが、これをどのように影響するか不思議に始め種々のために。興味深い放物線の形になりました: バツ¯tr(k )バツ¯tr⁡(k)\bar x_{\operatorname{tr}(k)}k = 1 / n 、2 / n 、… 、(n2− 1 )/ nk=1/n、2/n、…、(n2−1)/nk = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n これをどのように解釈するのかよくわかりません。直観的には、グラフの勾配は中央値のデータポイント内の分布の部分の負の歪度(に比例)であるように思われます。(この仮説は私のデータでチェックアウトしますが、私はしか持っていないので、あまり自信がありません。)kkkn = 11n=11n = 11 このタイプのグラフには名前がありますか、それとも一般的に使用されていますか?このグラフからどのような情報を収集できますか?標準的な解釈はありますか? 参考のため、データは4、5、5、6、11、17、18、23、33、35、80です。

2
離散データにラインプロットを使用するのは間違っていますか?
離散データセットが折れ線グラフとしてプロットされるのをよく見ましたが、線が離散データセットでは意味のない測定間隔の間の値を推測することがあります。したがって、離散データに線プロットを使用するのは間違っていますか? 例として、2つの時系列データセットを取得します。1つは連続(朝、毎日測定される体重)と1つは離散(1日あたりのドーナツの数)です。最初のデータセットは折れ線グラフであることが理にかなっています。これは、午後の体重が朝と朝の体重に関連すると推測するのが妥当だからです。ただし、ドーナツの数が線グラフで表される場合、ドット間の線はその線から意味を推測できません。 編集 ここで別の例です:で創業プロット以来連邦毎時最低賃金http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html 誤解しない限り、最低賃金の変化は離散的であるため、任意に選択した時間を調べて、点を結ぶ線を使用してポイントで最低賃金を確立することはできません。

3
グラフのフォーマット:折れ線グラフの下に塗りつぶしを使用するのが適切な場合
これはデータの視覚化に関する質問です。ここで質問してもかまいません。 下のグラフのように、時系列の折れ線グラフの下に塗りつぶしを使用するのが適切なのはいつですか?(1日のping時間を示しています) 下に塗りつぶしのない普通の線を使用する方が一般的だと思いますが、視覚的な多様性のために塗りつぶしを使用しても大丈夫ですか? 私は、トピックに関する知覚的研究、またはスタイルガイドについて知ることに特に興味があります。

2
QQプロットがヒストグラムと一致しません
ヒストグラム、カーネル密度、財務ログリターンの近似正規分布があり、これらは損失に変換されます(符号が変更されます)。これらのデータの通常のQQプロットがあります。 QQプロットは、テールが正しく適合していないことを明確に示しています。しかし、ヒストグラムと適合した正規分布(青)を見ると、0.0付近の値でも正しく適合していません。そのため、QQプロットは、テールのみが適切に適合していないことを示していますが、明らかに分布全体が正しく適合していないことを示しています。QQプロットに表示されないのはなぜですか?

1
Rを使用して「ホワイトハウスへのパス」を計算する方法
視覚的で面白くて美しいこの素晴らしい分析に出会いました。 http://www.nytimes.com/interactive/2012/11/02/us/politics/paths-to-the-white-house.html Rを使用してこのような「パスツリー」を構築する方法を知りたいのですが、そのようなパスツリーを構築するにはどのようなデータとアルゴリズムが必要ですか。 ありがとう。

1
複数の予測子を持つロジットモデルの確率曲線のグラフ化
次の確率関数があります。 確率= 11 + e− zプロブ=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} どこ z= B0+ B1バツ1+ ⋯ + Bnバツn。z=B0+B1バツ1+⋯+Bnバツn。z = B_0 + B_1X_1 + \dots + B_nX_n. 私のモデルは次のように見えます Pr (Y= 1 )= 11 + exp(− [ − 3.92 + 0.014 × (bid )] )Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(入札)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{bid})]\right)} これは、以下のような確率曲線を介して視覚化されます。 元の回帰式にいくつかの変数を追加することを検討しています。性別(カテゴリ:FおよびM)および年齢(カテゴリ:<25および> …

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
ロジスティッククォンタイル回帰–結果を最適に伝える方法
以前の投稿で、EQ-5Dスコアをどのように扱うかを考えました。最近、BottaiとMcKeownが提案したロジスティッククォンタイル回帰に出くわしました。式は簡単です: L O Gi t (y)= l o g(y− yM I nはymは、Xが− y)log私t(y)=log(y−ym私nymaバツ−y)logit(y)=log(\frac{y-y_{min}}{y_{max}-y}) 回避ログ(0)と0で除算するには、小さな値で範囲を拡張。これにより、スコアの境界を尊重する環境が得られます。ϵϵ\epsilon 問題は、すべてのがロジットスケールになり、通常のスケールに変換し直さなければ意味がないことですが、それはβが非線形であることを意味します。グラフ作成の目的では、これは重要ではありませんが、βの数が多い場合は問題になりません。ββ\betaββ\betaββ\beta 私の質問: フルスパンを報告せずにロジットを報告するにはどうすればよいですか?ββ\beta 実装例 実装をテストするために、この基本機能に基づいたシミュレーションを作成しました。 o u t c o m e = β0+ β1∗ x t e s t3+ β2∗ s e xoあなたはtcome=β0+β1∗バツtest3+β2∗seバツoutcome=\beta_0+\beta_1* xtest^3+\beta_2*sex ここで、、β 1 = 0.5及びβ 2 = 1。スコアには上限があるため、4以上および-1未満の結果値を最大値に設定しました。β0= 0β0=0\beta_0 = 0β1= 0.5β1=0.5\beta_1 …

9
素敵なグラフを自動的に作成するにはどうすればよいですか?
例えば。このページにあるものなどhttp://store.steampowered.com/hwsurvey これを実行できる既製のソフトウェアはありますか?または、同様のことを行う他のソフトウェアに関する推奨事項はありますか?これは実際には統計の問題ではないことは知っていますが、効果的であるためにはきちんとした魅力的な方法でデータを提示する必要があると強く感じているので、この質問は一部の人々にとって役に立つと思います。 更新(29/12/11): この質問に対するすべての回答に感謝します。すべての提案に感謝します。自動的に、つまりデータを入力するとグラフが自動的に更新されます。 私のプロジェクトの目的は、無期限に6〜10セットのデータを毎日(またはおそらく2倍)収集することです。Webサイトでデータを表現する方法を見つけたいと思います(私がしたSteamリンクに似ています)上記のとおり)、ユーザーバックエンドは技術に詳しくないユーザーでも簡単に処理できます。他に提案がある場合は、回答に追加してください!再度、感謝します!

2
Rのグラフに複数のバープロットを描く[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前に閉鎖されました。 Rの1つのグラフに4つの棒グラフをプロットしたいと思います。次のコードを使用しました。ここで、どのように凡例をグラフの上に保持することができますか、具体的には凡例は2〜3のバープロットでなければなりません。私も試しましpar(mar=c(4.1,4.1,8.1,4.1)たが、成功していません。また、legend()2番目のバープロットを実行しようとしましたが、役に立ちません。凡例は、4つのバープロットすべてに対するものです。これで私を助けてください。 par(mfrow=c(1,4)) barplot(t(A), beside=T, ylim=c(-100,100),..) barplot(t(B), beside=T, ylim=c(-100,100),..) barplot(t(C), beside=T, ylim=c(-100,100),..) barplot(t(D), beside=T, ylim=c(-100,100),..) legend(...)


5
良い色強度スケールを作る方法は?
私は決して統計が得意ではありませんが、私は正しい場所に来ていると思います。私の質問は簡単です: 私の問題は、小さな国のいくつかの州の人口を比較することですが、一部の州の人口は3000,000人で、一部の州の人口は2,000人です。 私はそれを地図上に描いています。色の「強度」は、すべての州の人口が全国の人口とどのように比較されるかによって異なります。 問題は、人口の多い州は非常に濃い色で表示され、小さい州はほとんど色がないことです。 データを「正規化」または比較可能にする簡単な方法はありますか? 私が自分自身を適切に説明しているかどうかはわかりませんが、誰かが私を助けてくれることを願っています。私の質問が明確でない場合はコメントしてください。明確にします。 ご協力ありがとうございました!

1
データの視覚化とは別に、t-SNEの良い使い方は何ですか?
どのような状況で(データの視覚化は別として)t-SNEを使用する必要がありますか? T-SNEは次元削減のために使用されます。これに対する答えの質問は 、T-SNEのみ可視化のために、私たちは、クラスタリングのためにそれを使用してはならないことを使用すべきであることを示唆しています。では、t-SNEの適切な用途は何ですか?


1
MCMC結果のトレースプロットが必要な理由
私はMCMCメソッドを使用して研究論文を読んでおり、それらのほとんどがトレースプロットを提供しているのがわかります。なぜモンテカルロマルコフチェーンでトレースプロットが必要なのですか?パラメータのトレースプロットは何を示していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.