タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

4
グリッド線と灰色の背景はチャートジャンクであり、例外ベースでのみ使用する必要がありますか?
ほとんどの当局は、プロット内の暗いグリッド線または他の顕著なグリッド線は、合理的な定義によって「チャートジャンク」であり、チャートの本文のメッセージから視聴者をそらすことに同意しているようです。そのため、その点について言及することはありません。 同様に、視聴者への参照を作成するために淡いグリッド線が必要になる場合があることに同意することができます。この記事で指摘されているように、Tufteは時折グリッド線の必要性を主張しました。そして、あなたがそれらを使用する必要があるときに、淡い灰色の背景にそのようなグリッド線を白にするというggplot2のHadley Wickhamのアプローチに同意します。 しかし、私が不確かなのは、そのようなグリッド線と灰色の背景がggplot2のようにデフォルトであるかどうかです。たとえば、灰色の背景に白いグリッド線を浮き彫りにする以外の理由はないようです-これは、どちらかが必要かどうかの質問をさらに頼みます。私は最近、ほとんどのグラフィックニーズにggplot2の使用を開始し、素晴らしいと思いますが、以前使用していたグラフィックに対する「ボックスなし、背景なし、グリッド線なし」アプローチに挑戦しました。gridlines=OFFそれらを追加する特別な理由がない限り、これが私のデフォルトであると考えていました。たとえば、基本的にこの記事で推奨されているアプローチなどです。 もちろん、グリッド線と背景の陰影を避けるためにggplot2でテーマを定義するのは簡単ですが(実際、私たちの仕事でこれを行いました)、ggplot2のアプローチは非常に素晴らしく、一般的にそのデフォルトの美的選択は良いのでしょうか?何かが欠けています。 だから-私はこの点に関する参考に感謝するでしょう。(例えば、Hadley Wickhamがggplot2のデフォルトを設定することで)よく考えられていて、正しい方向に向けられることに非常に寛容です。私が見つけた中で最高ののは、ggplot2 googleグループ上のリンクのカップルですが、クリーブランドによる最も参考になりそうな参照は、与えられたリンクでは利用できません。

4
1つのプロットで多くの変数を視覚化する
特定の変数(〜15)の値が時間とともにどのように変化するかを示したいのですが、変数が各年でどのように異なるかを示したいと思います。だから私はこのプロットを作成しました: しかし、配色を変更したり、さまざまな線/形状タイプを追加したりしても、これは面倒に見えます。この種のデータを視覚化するより良い方法はありますか? Rコードを使用したテストデータ: structure(list(Var = structure(c(1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 6L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 8L, 8L, 8L, 8L, 8L, 8L, 8L, 9L, 9L, 9L, …

6
統計グラフィックスの「こんにちは、世界」はありますか?
コンピュータプログラミングでは、「hello、world」と呼ばれる新しい言語またはシステムを学習/指導するための古典的な最初のプログラムがあります。 http://en.wikipedia.org/wiki/Hello_world_program グラフパッケージを使用するための古典的な最初のデータ視覚化はありますか?もしそうなら、それは何ですか?そうでない場合、良い候補者は何でしょうか?


6
分布を比較するための優れたデータ視覚化技術とは何ですか?
私は博士論文を書いていますが、分布を比較するためにボックスプロットに過度に依存していることに気付きました。このタスクを達成するために他にどの方法が好きですか? また、データの視覚化に関するさまざまなアイデアを取り入れることができるRギャラリーとして、他のリソースを知っているかどうかを尋ねたいと思います。

3
リッカートアイテムレスポンスデータの視覚化
リッカート応答のセットを視覚化する良い方法は何ですか? たとえば、A、B、C、D、E、F、Gについての決定に対するXの重要性を問い合わせる項目のセットは?積み上げ棒グラフよりも優れたものはありますか? N / Aの回答で何をすべきですか?それらはどのように表されますか? 棒グラフは割合または回答数を報告する必要がありますか?(つまり、バーは同じ長さになる必要がありますか?) パーセンテージの場合、分母に無効な応答やN / A応答を含める必要がありますか? 私は自分の意見を持っていますが、他の人のアイデアを探しています。

1
巨大なスパース分割表を視覚化する方法は?
私には2つの変数があります:薬物名(DN)と対応する有害事象(AE)は、多対多の関係にあります。33,556の薬名と9,516の有害事象があります。サンプルサイズは約580万回の観測です。 DNとAEの関連/関係を研究し、理解したい。写真を見たほうが良いので、このセットをRで視覚化する方法を考えています。どうすればいいのかわかりません...

2
GAMに相互作用用語を含める方法
次のコードは、2つの時系列間の類似性を評価します。 set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) mod1 <- gam(Temp ~ Loc + s(Doy) + s(Doy,by …

3
視覚化のための次元削減は、t-SNEによって解決される「閉じた」問題と見なされるべきですか?
私は次元削減のための -snetttアルゴリズムについてたくさん読んでいます。MNISTのように数字の明確な分離を実現する「クラシック」データセットのパフォーマンスには非常に感銘を受けました(元の記事を参照)。 また、トレーニング中のニューラルネットワークによって学習された機能を視覚化するためにも使用し、結果に非常に満足しています。 だから、私が理解しているように: tttO (n ログn )O(nログ⁡n)O(n \log n) これはかなり大胆な発言であることは承知しています。この方法の潜在的な「落とし穴」を理解することに興味があります。つまり、有用ではないことがわかっているケースはありますか?さらに、この分野の「未解決の」問題は何ですか?

2
等高線/熱オーバーレイを使用した散布図
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 最近の論文の補足でこのプロットを見て、Rを使用して再現できるようにしたいと思います。それは散布図ですが、オーバープロットを修正するために、「熱」に対応する等高線があります。密度のオーバープロット。どうすればいいですか?

3
モデルの予測確率のキャリブレーションを視覚化する
各インスタンスについて、各クラスの確率を生成する予測モデルがあるとします。現在、これらの確率を分類(精度、リコールなど)に使用する場合、そのようなモデルを評価する方法はたくさんあることを認識しています。また、ROC曲線とその下の領域を使用して、モデルがクラスをどれだけ区別できるかを判断できることも認識しています。それらは私が尋ねているものではありません。 モデルのキャリブレーションを評価することに興味があります。 ブリアスコアのようなスコアリングルールは、このタスクに役立つことがわかっています。それは大丈夫です、そして、私はそれらの線に沿って何かを組み込む可能性が高いですが、私はそのようなメトリックが素人にとってどれほど直感的であるかわかりません。もっと視覚的なものを探しています。結果を解釈する人に、モデルが何かを予測したときに、実際に70%の確率で70%が発生する可能性があるかどうかを確認できるようにしてほしい QQプロットのことを聞いたことがありますが(使用したことはありません)、最初はこれが私が探しているものだと思いました。ただし、実際には2つの確率分布を比較することを目的としているようです。それは直接私が持っているものではありません。多数のインスタンスについて、予測された確率と、イベントが実際に発生したかどうかがわかります。 Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... QQプロットは本当に欲しいものですか、それとも何か他のものを探していますか?QQプロットを使用する必要がある場合、データを確率分布に変換する正しい方法は何ですか? 予測された確率で両方の列を並べ替えて、いくつかのビンを作成できると思います。それは私がやるべきことのタイプですか、それとも私はどこかで考えていますか?私はさまざまな離散化手法に精通していますが、この種の標準的なビンに離散化する特定の方法はありますか?

7
ヒートマップは「最も効果の低いタイプのデータ視覚化の1つ」ですか?
質問:ヒートマップが最も効果的なのはいつ(どの種類のデータ視覚化問題に対して)ですか?(特に、他のすべての可能な視覚化手法よりも効果的ですか?) ヒートマップの効果が最も低いのはいつですか? ヒートマップがデータを視覚化する効果的な方法である可能性が高いかどうか、およびそれらがいつ効果的でない可能性があるかを決定するために使用できる一般的なパターンまたは経験則はありますか? (主に、2つのカテゴリ変数と1つの連続変数のヒートマップを念頭に置いていますが、他のタイプのヒートマップに関する意見を聞くことにも興味があります。) コンテキスト:データの視覚化に関するオンラインコースを受講しており、現在、効果がなく使い古されたプロットタイプについて議論しています。彼らはすでにダイナマイトプロットと円グラフについて言及していましたが、それらが効果的でなく、それらに代わるより良い代替物がある理由については、明確で説得力がありました。さらに、ダイナマイトプロットと円グラフに関する特定の意見を裏付ける他のソースを見つけるのは簡単でした。 ただし、このコースでは、「ヒートマップは最も効率の低いタイプのデータ視覚化の1つである」とも述べています。理由の言い換えを以下に示します。しかし、この観点を裏付けるGoogleの他の場所を見つけようとしたとき、円グラフとダイナマイトプロットの有効性について意見を調べるのとは対照的に、私は多くの困難を抱えていました。そのため、コースで与えられるヒートマップの特性評価がどの程度有効であるか、また、それらに対する要因が特定のコンテキストで最も重要でなく、最も重要な場合を知りたいと思います。 指定された理由は次のとおりです。 色を連続的なスケールにマッピングすることは困難です。 この規則にはいくつかの例外があります。したがって、これは通常、取引のブレーカーではありませんが、ヒートマップの場合、色の知覚は隣接する色によって変化するため、問題は特に困難です。したがって、ヒートマップは、小さなデータセットであっても、個々の結果を表示するのには適していません。これは以下につながります: 特定の色に対応する数値を十分な精度で推測することは不可能であるため、テーブル検索方法を使用して特定の質問に回答することは一般に実行不可能です。 多くの場合、データはトレンドを引き出すような方法でクラスター化されていません。 このようなクラスタリングがなければ、一般的な全体パターンについて何かを推測することは、しばしば困難または不可能です。 特にマルチカラーグラデーションを使用する場合、ヒートマップは「すごい要素」を伝えるため、または単にクールに見えるためにのみ使用されることがよくありますが、通常、データを伝達するためのより良い方法があります。 共通のスケールで連続データをプロットすることは常に最良の選択肢です。時間成分がある場合、最も明白な選択はラインプロットです。

4
偽陽性率と真陽性率を示すこのチャートの名前とその生成方法は?
以下の画像は、偽陽性率と真陽性率の連続曲線を示しています。 ただし、すぐに得られないのは、これらのレートの計算方法です。メソッドがデータセットに適用される場合、特定のFPレートと特定のFNレートがあります。それは、各方法が曲線ではなく単一の点を持つべきだという意味ではないでしょうか?もちろん、メソッドを構成して複数の異なるポイントを生成する方法は複数ありますが、この連続したレートがどのように発生するか、またはどのように生成されるかは明確ではありません。

4
分割表の最適な視覚化はどれですか?
統計的観点から、通常はカイ二乗検定で分析されている分割表を表示するのに最適なプロットはどれですか?覆い隠された棒グラフ、積み上げ棒グラフ、ヒートマップ、等高線プロット、ジッター散布図、複数線プロットなどですか?絶対値またはパーセンテージを表示する必要がありますか? 編集:または@forecasterがコメントで示唆しているように、数値の表自体は単純なプロットであり、十分なはずです。

2
さまざまな条件下での2つの数値変数間の関連性をグラフ化するためのヒントを含む優れたオンラインリソース
コンテキスト: その間、2つの数値変数間の関連を効果的にプロットする方法に関する一連のヒューリスティックを取得しました。データを扱うほとんどの人が同様のルールを持っていると思います。 このようなルールの例は次のとおりです。 変数の1つが正に歪んでいる場合、その軸を対数目盛でプロットすることを検討してください。 多数のデータポイントがある場合(たとえば、n> 1000)、何らかの形式の部分透過性の使用やデータのサンプリングなど、別の戦略を採用します。 変数の1つが限られた数の離散カテゴリをとる場合、ジッターまたはヒマワリプロットの使用を検討してください。 3つ以上の変数がある場合、散布図行列の使用を検討してください。 何らかの形のトレンドラインを当てはめることはしばしば有用です。 プロット文字のサイズをサンプルサイズに調整します(nが大きい場合は、より小さいプロット文字を使用します)。 等々。 質問: おそらく例を挙げて、2つの数値変数間の関連性を効果的にプロットするためのこれらおよびその他のトリックを説明するWebページまたはサイトを生徒に紹介できるようにしたいと思います。 インターネット上でこれをうまく機能させるページやサイトはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.