タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

2
「Stata」または「R」の回帰不連続設計のグラフ
LeeとLemieux(p。31、2009)は、研究者に、回帰不連続設計分析(RDD)を実行しながらグラフを提示することを提案しています。彼らは以下の手順を提案します: 「...帯域幅がいくつかあり、カットオフ値の左側と右側にそれぞれいくつかのビンと K_1がある場合、アイデアはビン(b_k、b_ {k + 1} ]、k = 1、。。。、K = K_0 + K_1、ここでb_k = c−(K_0−k + 1)\ cdot h。 "hhhK0K0K_0K1K1K_1bkbkb_kbk+1bk+1b_{k+1}k=1,...,K=K0k=1,...,K=K0k = 1, . . . ,K = K_0K1K1K_1bk=c−(K0−k+1)⋅h.bk=c−(K0−k+1)⋅h.b_k = c−(K_0−k+1) \cdot h. c=cutoff point or threshold value of assignment variable h=bandwidth or window width. ...次に、平均結果をカットオフポイントの左と右だけで比較します... " ..すべての場合において、カットオフポイントの両側で別々に推定された4次回帰モデルからの適合値も表示します...(同じ論文のp。34) 私の質問は、私たちがその手順をプログラムはどうすればよいですStataかRに...シャープRDDのために(信頼区間)の割り当て変数に対して、結果変数のグラフをプロットするためのサンプル例がStata挙げられ、こことここ(rd_obsとRD置き換え)とサンプルの例Rはこちらです。ただし、これらはどちらもステップ1を実装していなかったと思います。どちらも生のデータと、プロットの適合線を持っていることに注意してください。 信頼変数なしのサンプルグラフ[Lee and …

2
一次マルコフ連鎖のクラスターの評価
数千の一次マルコフ連鎖のデータセットを約10個のクラスターにクラスター化しました。 これらのクラスターを評価し、クラスター内のアイテムが共有しているアイテムを見つけ、他のクラスターとどのように異なるかを知るための推奨される方法はありますか?したがって、「クラスターAのプロセスは、いったんそこに到達すると状態Yに留まる傾向がありますが、他のクラスターのプロセスには当てはまりません」のようなステートメントを作成できます。 それらのマルコフ連鎖の遷移行列は大きすぎて、単に「見て」見ることはできません。それが役立つ場合、それらは比較的まばらです。 私のアイデアは、クラスター内のすべての遷移行列を取り、それらを合計し、それを画像の強度として(0〜255のスケールで)プロットすることでした。私が試すべきもっと「プロフェッショナル」なものはありますか?

3
データセットを最初に一目で見る
私の無知を許してください、しかし... 自分で見つけた新しいデータの束に直面している状況で、自分を見つけ続けています。このデータは通常、次のようになります。 Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 通常、一見、ここに傾向があるかどうかは本当にわかりません。さまざまな列間の相関関係はそれほど重要ではないかもしれませんが、列/カテゴリのすべての可能な組み合わせに対して手動でプロットを作成する必要がなかったとしたら嬉しいです。 データのテーブルと、列を数値、日付、カテゴリとして扱う必要がある情報を受け入れ、プロットを開始するツールはありますか? 各2つの数値列間の相関 各2つの数値列間の相関関係、各カテゴリの個別のトレンドライン 時系列としての各数値列、 カテゴリで区切られた時系列としての各数値列、 等 最終的に、これは多数のプロットを生成し、そのほとんどはノイズのみを示します。理想的には、このツールは相関によってプロットにスコアを付け、最終的に最もスコアの高いプロットからスライドショーを表示できます。これは非常に不完全ですが、データセットを一見すると便利です。 そう?誰もがこれに使用するツールがあり、私はそれについて知らないだけですか、これは私たちが作る必要があるものですか?

5
2文字の組み合わせの視覚化
SOに関するこの質問への回答では、約125の1文字から2文字の名前のセットが返されました。https : //stackoverflow.com/questions/6979630/what-1-2-letter-object-names-conflict-with-existing -r-objects [1] "Ad" "am" "ar" "as" "bc" "bd" "bp" "br" "BR" "bs" "by" "c" "C" [14] "cc" "cd" "ch" "ci" "CJ" "ck" "Cl" "cm" "cn" "cq" "cs" "Cs" "cv" [27] "d" "D" "dc" "dd" "de" "df" "dg" "dn" "do" "ds" "dt" "e" "E" [40] "el" "ES" "F" …

3
欠落しているエントリとの相関行列を表示するにはどうすればよいですか?
変数間の関係を簡単に調べるために、これまでに収集した記事の相関関係のグラフィック表現を取得したいと思います。以前は(乱雑な)グラフを描いていましたが、データが多すぎます。 基本的に、私はテーブルを持っています: [0]:変数1の名前 [1]:変数2の名前 [2]:相関値 「全体的な」行列は不完全です(たとえば、V1 * V2、V2 * V3の相関関係がありますが、V1 * V3の相関関係はありません)。 これをグラフィカルに表現する方法はありますか?

2
Rの複素回帰プロット
視覚的なデータ分析のために複雑なグラフィックを描く必要があります。2つの変数と多数のケース(> 1000)があります。例(分散を「通常」にするには、数値は100です): x <- rnorm(100,mean=95,sd=50) y <- rnorm(100,mean=35,sd=20) d <- data.frame(x=x,y=y) 1)同時発生の相対頻度に対応するポイントサイズで生データをプロットする必要plot(x,y)があるため、オプションではありません-ポイントサイズが必要です。これを達成するために何をすべきですか? 2)同じプロットで、相関の変化を表す95%信頼区間の楕円と線をプロットする必要があります(正しく名前を付ける方法がわからない)-次のようなもの: library(corrgram) corrgram(d, order=TRUE, lower.panel=panel.ellipse, upper.panel=panel.pts) しかし、1つのプロットで両方のグラフを使用します。 3)最後に、これに加えて、結果の線形回帰モデルを描画する必要があります。 r<-lm(y~x, data=d) abline(r,col=2,lwd=2) しかし、エラー範囲... QQ-プロットのようなもの: しかし、可能であればフィッティングエラーのため。 だから問題は: これらすべてを1つのグラフで実現する方法は?

1
区分的回帰直線のプロット
lines各セグメントを個別にプロットするために使用するgeom_smooth(aes(group=Ind), method="lm", fill=FALSE)か、またはを使用する以外に、このような区分的モデルの回帰直線をプロットする方法はありますか? m.sqft <- mean(sqft) model <- lm(price~sqft+I((sqft-m.sqft)*Ind)) # sqft, price: continuous variables, Ind: if sqft>mean(sqft) then 1 else 0 plot(sqft,price) abline(reg = model) Warning message: In abline(reg = model) : only using the first two of 3regression coefficients ありがとうございました。

4
グラフで谷を探す方法は?
私は、基本的に整数の長いリスト(数百万の値)であるゲノムカバレッジデータをいくつか調べています。各整数は、ゲノム内のこの位置がカバーされている(または「深い」)ことを示しています。 このデータで「谷」、つまり周囲の環境よりも大幅に「低い」領域を探したいのですが。 私が探している谷のサイズは、50塩基から数千の範囲であることに注意してください。 それらの谷を見つけるためにどのようなパラダイムを使用することをお勧めしますか? 更新 データのいくつかのグラフィカルな例: アップデート2 谷とは何かを定義することは、もちろん私が苦労している問題の1つです。これらは私にとって明白なものです: しかし、さらに複雑な状況がいくつかあります。一般に、私が検討する3つの基準があります。1.グローバル平均に対するウィンドウ内の(平均?最大?)カバレッジ。2.直接の周囲に関するウィンドウの(...)カバレッジ。3.ウィンドウどのように大規模である:私は短いスパンのために非常に低いカバレッジを見れば、それは私が短いスパンのために軽度の低カバレッジを見れば、それはだ、私は長いスパンのために非常に低いカバレッジを見れば、それはまた面白い、面白いですない本当に面白いです、ただし、長いスパンでカバレッジが少し低い場合-それはそうです。つまり、それは、sapnの長さとカバレッジの組み合わせです。それが長いほど、カバレッジを高くし、それでも谷と見なします。 おかげで、 デイブ


3
「R」におけるグラフクラスタリングのアプローチと例
「r」のグラフクラスタリングを使用して、グラフ内のノードをグループ化/マージしようとしています。 ここに私の問題の驚くほどおもちゃのバリエーションがあります。 2つの「クラスター」があります。 クラスタを接続する「ブリッジ」があります これが候補ネットワークです。 接続距離「ホップカウント」を確認すると、次のマトリックスが得られます。 mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,2,2), c(2,1,1,1,1,1,1,1,2,2), c(1,1,1,2,2,2,1,1,1,1), c(1,1,2,3,3,2,2,1,1,1), c(1,1,2,3,3,2,2,1,1,1)) ここでの考え: 幸運なことに、またはおもちゃの単純さのために、マトリックスには明らかなパッチがありますが、これは(非常に大きい)マトリックスの場合には当てはまりません。ポイントと行の関係をランダム化した場合、それほどクリーンではありません。 間違っている可能性があります。タイプミスがある場合はお知らせください。 ここでのホップ数は、行iのポイントを列jのポイントに接続するための最短ホップ数です。セルフホップはまだホップなので、対角線はすべて1です。 したがって、このマトリックスでは、距離(ホップ数)が大きいほど数値が大きくなります。距離ではなく「接続性」を示す行列が必要な場合は、行列の各セルをその乗法的逆行列で置き換えるドット逆行列を実行できます。 質問: 私自身の方法を見つけるのを助けるために: それらを組み合わせることによりグラフ上のノードの数を減らすための用語は何ですか?それはクラスタリング、マージ、マンギングですか?私が使うべき言葉は何ですか? 実証済みのテクニックは何ですか?このトピックに関する教科書はありますか?あなたは論文やウェブサイトを指すことができますか? 今、私は最初にここを見てみました-それは素晴らしい「最初のチェック」スポットです。探していたものが見つかりませんでした。見逃した場合(ありそうもないことですが)、CVのトピックに関する1つまたは2つの回答済みの質問を教えていただけますか? 私が行くところに連れて行くには: ネットワーク上のノードを適切にクラスター化する「R」パッケージはありますか? これを行うためのサンプルコードを教えてもらえますか? 結果の削減されたネットワークをグラフィカルに表示する「R」パッケージはありますか? これを行うためのサンプルコードを教えてもらえますか? 前もって感謝します。

1
多くの左にゆがんだ分布の視覚化
表示したい一連の左スキュー/ヘビーテール分布があります。(AS標識三つの要因を横切る42点の分布がありA、BそしてC以下が)。また、変動は因子全体で縮小していBます。 私が抱えている問題は、結果のスケール(比率または倍率変化)全体で分布を区別するのが難しいことです。 データをログに記録すると、左の歪度が過度に強調され、より多くのサンプルが裾に移動します(異常値ポイントのマッシュが作成されます)。 これらのデータを視覚化するための他の手法についての提案はありますか?

3
ウェブサイトを通る経路のパス確率ツリーを構築する
私は現在、Webサイトで分析を行っています。そのため、Webサイトにアクセスしたときに人々がたどる可能性のある経路を示すディシジョンツリー図を作成する必要があります。data.frameホームページから、すべてのお客様のサイトへの経路を表示するa を扱っています。たとえば、顧客は次の方法をとることができます。 Homepage - pg 1 Kitchen Items page - pg 2 Pots and Pans page - pg 3 したがって、この顧客は3ページの移動を行うことになります。私がRでやろうとしていることは、すべての顧客のパスを組み合わせて、サイトの特定のパスをたどる顧客に確率を割り当てることです。たとえば、すべてのパスを調べると、ホームページにアクセスした人の34%が「キッチンアイテムのページ」にアクセスすることがわかりました。Rにはこの機能がありますか? rpartとpartykitパッケージを使用してさまざまなメソッドを調べましたが、それらは役に立たないようです。 このための正しい方向への操縦は非常に高く評価されています!

3
バイナリ予測結果と継続的予測子をどのように視覚化しますか?
視覚化する必要のあるデータがあり、どのように行うのが最善かわかりません。私はいくつかの基本アイテムの設定したそれぞれの周波数でF = { F 1、⋯ 、F N }と成果 O ∈ { 0 、1 } nはQ={q1,⋯,qn}Q={q1,⋯,qn}Q = \{ q_1, \cdots, q_n \}F={f1,⋯,fn}F={f1,⋯,fn}F = \{f_1, \cdots, f_n \}O∈{0,1}nO∈{0,1}nO \in \{0,1\}^n。次に、私のメソッドが低頻度アイテムをどれだけうまく「発見」するか(つまり、1つの結果)をプロットする必要があります。私は当初、周波数のx軸とポイントプロットの0-1のy軸しかありませんでしたが、ひどく見えました(特に2つの方法からのデータを比較する場合)。すなわち、各アイテムである結果(0/1)を有しており、その周波数によって順序付けされます。q∈Qq∈Qq \in Q 次に、単一のメソッドの結果の例を示します。 私の次のアイデアは、データを間隔に分割して、その間隔での局所感度を計算することでしたが、そのアイデアの問題は、頻度分布が必ずしも均一ではないことです。それで、どのように間隔を選ぶのが最善ですか? これらの種類のデータを視覚化して、まれな(つまり、非常に頻度の低い)アイテムを見つけることの有効性を表す、より良い/より便利な方法を知っている人はいますか? QQQ


8
グラフィック百科事典
トラフィックの測定、予測などに関するマルチユーザーWebアプリを作成する必要があります。この時点で、棒グラフと円グラフを使用することを知っています。 残念ながら、これらのグラフタイプは、私が収集して計算するすべてのデータを表現するのに十分ではありません。 グラフのコレクションを探しています。本か何かを買わなければならないのなら大丈夫です。私を刺激するために、説明付きのグラフィックサンプルをいくつか見つける必要があります。 そのようなリソースを知っていますか?私に何かアドバイスはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.