タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)


2
スプラインベースの視覚化
教科書には通常、トピックを説明しているときに、均一なスプラインの基礎の素晴らしいサンプルプロットがあります。線形スプラインの小さな三角形の列、または3次スプラインの小さなこぶの列のようなもの。 これは典型的な例です: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introcom_a0000000525.htm 標準のR関数(bsやnsなど)を使用してスプライン基底のプロットを生成する簡単な方法があるかどうか疑問に思っています。単純な行列演算のいくつかの部分と、スプライン基底のきれいなプロットをエレガントな方法で吐き出す些細なRプログラムとがあると思います。考えられない!

2
インクとデータの比率およびプロットの背景
パッケージとテーマをプロットする多くの「最新技術」と多くの著名なデータの人々は、プロットに灰色の背景を使用していることに気付きました。以下に例を示します。 ggplot2: ネイトシルバーのfivethirtyeight.com: 上記の最初の例(ggplot2)では、灰色の背景を使用するとグリッド線に必要なインクが減ると主張するかもしれませんが、これは確かに2番目の場合には当てはまりません。白または透明の背景とは対照的に、灰色の背景を使用する利点は何ですか?

2
追加変数プロット(部分回帰プロット)は、重回帰で何を説明しますか?
Moviesデータセットのモデルがあり、回帰を使用しました。 model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) 出力は次のとおりです。 今、私は最初にAdded Variable Plotと呼ばれるものを試しましたが、次の出力が得られました: avPlots(model, id.n=2, id.cex=0.7) 問題は、Googleを使用して追加変数プロットを理解しようとしましたが、その深さを理解できませんでした。プロットを見て、出力に関連する各入力変数に基づいたスキューの表現の種類を理解しました。 データの正規化を正当化する方法など、もう少し詳細を取得できますか?

3
極端な外れ値を持つボックスプロットを表示する方法は?
データの提示に関するガイダンスを使用できます。 この最初のプロットは、サイトカインIL-10の症例対照比較です。y軸を手動で設定して、データの99%を含めました。 これを手動で設定したのは、ケースグループに極端な異常値があるためです。 私の共同研究者は、データセットの外れ値の削除をためらっています。私はそれでいいですが、彼らはむしろそうではありません。それは明らかな解決策です。しかし、すべてのデータを保持し、この外れ値を削除しない場合、どのようにこの箱ひげ図を最適に提示できますか?軸を分割しますか?最初のグラフだけを使用して、すべてのデータを含むように作成されていることに注意してください。(このオプションは私にとって不誠実です)。どんなアドバイスも素晴らしいでしょう。

2
プレゼンテーション用の統計グラフのスタイルガイドはありますか?
プレゼンテーション用にグラフを最適にフォーマットする方法に関するアドバイス/リソース/推奨事項を探しています。経験から、印刷出版用に作成されたグラフは、ビーマーで表示した場合に「スケーリング」されないことがわかっています。多くの場合、テキストは小さすぎ、行の太さは十分ではありません。ほとんどの場合、.eps / .pdfファイルを使用してプレゼンテーションに直接押し込むのは悪い考えです。 ビーマーで幅広い視聴者にグラフを提示することに関して、推奨されるスタイルガイドはありますか?

2
分割表のふるい/モザイクプロットの代替
インターネット上のカテゴリデータ(コンティンジェンシーテーブル)のタイプのプロットに出くわしましたが、それは本当に好きでしたが、それを二度と見つけたことがなく、それが何であるかさえ知りません。行の高さと列の幅が限界確率に対してスケーリングされているという点で、それは本質的にふるいプロットのようなものでした。したがって、各ボックスは、独立性の下で予想される相対頻度にスケーリングされました。ただし、各ボックス内にクロスハッチングをプロットするのではなく、各観測の二変量ユニフォームからランダムに選択された位置に点(散布図のように)をプロットするという点で、シーブプロットとは異なりました。このように、ポイントの密度は、観測されたカウントが期待されるカウントとどれだけ一致しているかを反映しています。つまり、すべてのボックスで密度が類似している場合、nullモデルは妥当です。)は、nullモデルではあまりありそうにないかもしれません。クロスハッチングの代わりにポイントがプロットされるため、プロットされる要素と観測カウントの間にはシンプルで直感的な対応がありますが、これは必ずしもシーブプロットには当てはまりません(以下を参照)。さらに、ポイントのランダムな配置は、プロットに「有機的な」感触を与えます。さらに、色を使用して、ヌルモデルから大きく分岐するボックス/セルを強調表示することができ、プロットマトリックスを使用して多くの異なる変数間のペアワイズ関係を調べることができるため、同様のプロットの利点を組み込むことができます。 i,ji,ji,j 誰もこのプロットが何と呼ばれているのか知っていますか? Rや他のソフトウェア(モンドリアンなど)でこれを簡単に行うパッケージ/関数はありますか?vcdにその ようなものが見つかりません。もちろん、ゼロからハードコーディングすることもできますが、それは苦痛です。 ふるいプロットの簡単な例を次に示します。さまざまなカテゴリの予想カウントがnullモデルの下でどのように再生されるかは簡単にわかりますが、クロスハッチングを実際の数値と一致させるのは難しく、非常に読みやすく、審美的に恐ろしい: B ~B A 38 4 ~A 3 19 価値があることに関しては、モザイクプロットには逆の問題があります:どのセルが(多すぎる)または(少なすぎる)カウント(nullモデルに対して)を持っているかを確認するのは簡単ですが、その関係を認識することはより困難です期待されたカウントはそうだったでしょう。具体的には、列の幅は限界確率に比例してスケーリングされますが、行の高さはスケーリングされないため、その情報を抽出することはほぼ不可能になります。 そして今、完全に異なるもののために... 「多すぎる」に青を、「少なすぎる」に赤を使用する規則がどこから来たのか誰もが知っていますか?これは常に私にとって直観に反するものでした。非常に高い密度(または観測値が多すぎる)は高温になり、低密度は低温になり、(少なくともステージ照明では)赤は暖かく、青は冷たくなるように思えます。 更新: 正しく覚えていれば、私が見たプロットは、マーケティングのティーザーとしてオンラインで自由に利用できるようになった本の章(紹介またはch1)のpdfにありました。ここにゼロからコーディングしたアイデアの大まかなバージョンがあります: この粗いバージョンでも、シーブプロットよりも読みやすく、モザイクプロットよりもいくつかの点で簡単だと思います(たとえば、関係の認識が簡単です)セル周波数の間は独立しています)。次の機能があると便利です。任意の分割表でこれを自動的に行います。プロットマトリックスの構成要素として使用でき、c。 上記のプロットに付属する優れた機能があります(モザイクプロットの標準化された残差凡例など)。

4
主観的なランク順の結果をどのようにグラフ化しますか?
ノンパラメトリックテストとは別に、主観的なランキングを視覚化する方法を探しています。 12人の参加者に、さまざまな主観的基準(それぞれのランキングを個別にランク付け)に従って8種類のアイテムをランク付けするように依頼しました。ランキングの個々のセットについて、ランキングの高レベルの傾向を視覚化する良い方法を探しています。 私は平均ランキングで棒グラフとレーダープロットの両方を試しましたが、他の人がランキングごとの応答数について散布図/バルーンプロットを使用しているのを見たことがありますが、何が最良の概要を伝えるかはよくわかりません。8つの平均ランキング、またはアイテムごとの各ランキングの8つのカウントを使用できます。 編集: 例:各列はアイテムであり、各行は8つのアイテムのそれぞれの人のランキングです。この例では特に強力な合意ではありませんが、一般的に全体的な傾向を伝える最良の方法を理解したいと考えています。 Item: A B C D E F G H Rater: 1 6 8 1 7 3 4 2 5 2 1 3 8 7 6 5 2 4 3 5 8 7 6 1 4 2 3 4 5 8 7 6 4 2 1 …

3
インタラクティブなデータ視覚化はいつ使用すると便利ですか?
すぐに話す講演の準備をしている間、私は最近、インタラクティブなデータ視覚化のための2つの主要な(無料)ツールであるGGobiとmondrianを掘り始めました。 明確に表現するためにあなた自身の助けを求めたい(自分自身と私の将来の聴衆の両方に)インタラクティブなプロットを使用することはいつ役に立ちますか?データ探索(自分用)とデータ表示(「クライアント」)のどちらか クライアントにデータを説明するとき、次のアニメーションの価値を確認できます。 「識別/リンク/ブラッシング」を使用して、グラフ内のどのデータポイントが何であるかを確認します。 データの感度分析の提示(例:「このポイントを削除すると、ここに得られるものがあります) データ内のさまざまなグループの効果を示す(例:「男性のグラフを見て、今度は女性のグラフを見てみましょう」) 時間の効果を示す(または年齢、または一般に、プレゼンテーションに別の次元を提供する) 自分でデータを調べる場合、作業中のデータセットの外れ値を調べるときに、識別/リンク/ブラッシングの価値がわかります。 しかし、これら2つの例以外では、これらの手法が他の実用的な用途を提供するかどうかはわかりません。特に私たち自身のデータ探索のために! インタラクティブな部分は、データ内のさまざまなグループ/クラスターのさまざまな動作を探索するのに適していると主張できます。しかし、(実際に)そのような状況に近づいたとき、私がしがちだったのは、関連する統計手順(および事後検定)を実行することでした-そして、重要であることがわかった場合は、データを関連グループ。私が見てきたことから、これはデータを「不思議に思う」よりも安全なアプローチです(データのdrに簡単につながる可能性があります(修正に必要な多重比較の範囲は明確ではありませんでした)。 この件に関するあなたの経験/考えを読んでとてもうれしいです。 (この質問はウィキにすることができます-主観的ではなく、よく考えられた答えが喜んで私の「答え」マークを獲得します:))


2
ポスタープレゼンテーションの整理方法
現在、ポスターのプレゼンテーションを行っていますが、グラフィックのいくつかの側面についてのアドバイス(またはアドバイスへの参照)をお願いします。私が話している例のポスターについては、Journal of Computational and Graphical Statisticsの Volume 20 Issue 2の ASA Data Expo記事の補足資料を参照してください(別の例はこちら(Hendrix et al。、2008))。また、重要な場合は、物理的に印刷されたポスターの前に立って、通行人からリクエストがあった場合はプロジェクトの詳細を説明する論文を持ち、会場は学術会議になります。 オブジェクトのフローをグラフィックでどのように表示するか。英語の人々は通常左から右に読みますが、私のポスターのパネルも同じようにすべきですか?例(連続番号をパネルの読み取り順序と考えてください)の場合、表1の順序は常に表2よりも望ましいですか? Table 1: 1 2 3 Table 2: 1 3 5 4 5 6 2 4 6 個々のグラフィックスはどのくらい小さい/大きいですか?人々が実際にグラフィックを見るのをやめるとき、彼らがまだ庭から離れていると言います(これは合理的な仮定ですか?)、グラフィックの要素がまだ解釈できるおおよその最小サイズは何ですか?気にする必要はありません(凡例/軸を読む必要がある場合、目を細めます)? 多すぎますか?提示される情報の量に明らかな制限はありますか?グラフィックに付随するテキストについても同様です。グラフィックに付随するテキストが多すぎるかどうかを確認できますか?経験則はありますか? 私が見るポスターの多くには、さまざまなサイズのパネルがあり、実際の明らかな整列はありません。私は個人的にはこれが好きではありません(それは私にとって無秩序であるようになります)が、私はちょうどcurmudgeonlyですか?現在のポスターを注文した方法は、論文の分析セクションを書いたばかりの場合と似ていますが、そのような注文はポスターのプレゼンテーションには適していませんか?整然としたセクションの反例として、ポスターの中央に拡大された中央のグラフィックがあり、中央のグラフィックを囲む小さなパネルに他の補足情報があります。 また、人々が(何らかの理由で)特に効果的であると考えたポスターの例と、なぜ彼らが効果的である(または単に審美的に楽しい)と思うかについての説明があれば興味があります。また、表側の状況(特に効果のないポスター)にも興味があります。 データの視覚化に関するフローデータブログでのNathan Yauの研究の多くはこの議論に関連しているようですが、メディア(物理的な印刷されたポスター)と聴衆(学術)はこれらの議論のほとんどではありません。これらの側面のいくつかに対処する他の参照はありますか?私は現在、「人々の目を引く」よりも解釈の方が心配です(注意を引くには多数の明るいグラフィックで十分だと思います)。 また、これらの質問への回答にも興味があります(たとえば、すべての質問に時間をかける必要はありません)。ぜひ聞きたいです。

2
マップでの空間的および時間的相関の表示
私は全米の気象観測所のネットワークのデータを持っています。これにより、日付、緯度、経度、測定値を含むデータフレームが表示されます。データは1日に1回収集され、地域規模の天候によって駆動されると仮定します(いいえ、その議論に入るつもりはありません)。 同時に測定された値が時間と空間にわたってどのように相関するかをグラフィカルに示したいと思います。私の目標は、調査されている価値の地域的な均質性(またはその欠如)を示すことです。 データセット まず、マサチューセッツ州とメイン州の地域にあるステーションのグループに参加しました。NOAAのFTPサイトで利用可能なインデックスファイルから緯度と経度でサイトを選択しました。 すぐに1つの問題が表示されます。同じような識別子を持つサイトや非常に近いサイトがたくさんあります。FWIW、私はUSAFとWBANコードの両方を使用してそれらを識別します。メタデータを詳しく見ると、座標と標高が異なり、データはあるサイトで停止してから別のサイトで開始することがわかりました。それで、私はそれ以上良く分からないので、それらを別々のステーションとして扱わなければなりません。これは、データが互いに非常に近いステーションのペアを含むことを意味します。 予備分析 暦月ごとにデータをグループ化して、異なるデータのペア間の通常の最小二乗回帰を計算してみました。次に、すべてのペア間の相関を、ステーションを結ぶ線としてプロットします(下図)。線の色は、OLS近似からのR2の値を示しています。図は、1月、2月などからの30以上のデータポイントが、対象エリアの異なるステーション間でどのように相関しているかを示しています。 6時間ごとにデータポイントがある場合にのみ1日の平均が計算されるように基礎となるコードを記述したため、データはサイト間で比較可能である必要があります。 問題点 残念ながら、1つのプロットで意味をなさないデータが多すぎます。行のサイズを小さくしても修正できません。 領域内の最近傍間の相関をプロットしようとしましたが、それはすぐに混乱に変わります。以下のファセットは、ステーションのサブセットから最近傍を使用して、相関値のないネットワークを示しています。この図は、概念をテストするためのものです。 kkk ネットワークは複雑すぎるように見えるので、複雑さを軽減する方法、または何らかの空間カーネルを適用する方法を見つける必要があると思います。 また、相関を示すのに最も適切なメトリックが何であるかはわかりませんが、意図した(非技術的な)対象者にとっては、OLSからの相関係数が最も簡単に説明できるかもしれません。勾配や標準誤差などの他の情報も提示する必要がある場合があります。 ご質問 私はこの分野とRへの道を同時に学んでいます。 私がやろうとしていることの正式な名前は何ですか?より多くの文献を見つけることができる役立つ用語はありますか?私の検索は、一般的なアプリケーションでなければならないもののために空白を描いています。 スペースで区切られた複数のデータセット間の相関を示すより適切な方法はありますか? ...特に、視覚的に結果を簡単に表示できる方法はありますか? これらのいずれかがRに実装されていますか? これらのアプローチのいずれかが自動化に役立ちますか?

2
Rを使用して「並列セット」プロットを作成することはできますか?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Tormodの質問(ここに投稿)のおかげで、Parallel Setsプロットに出会いました。 これは、どのように見えるかの例です:( タイタニックデータセットの視覚化です。たとえば、生き残っていない女性のほとんどが3番目のクラスに属していたことを示しています...) Rでそのようなプロットを再現できるようになりたいです。それは可能ですか? ありがとう、タル

3
Rのバープロットのバーに値を配置する方法[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 6年前に閉鎖されました。 この質問は私の前の質問に関連しています。barplotのバーに値を置きたいです。私はRでのプロットの初心者です。

2
ロジスティック回帰は、従来の関数ではない曲線をどのように生成できますか?
ロジスティック回帰の機能がどのように機能するのか(または単に全体として機能するのか)について、根本的な混乱があると思います。 関数h(x)が画像の左側に見られる曲線を生成するのはどうですか? これは2つの変数のプロットですが、これら2つの変数(x1およびx2)も関数自体の引数です。1つの変数の標準関数が1つの出力にマッピングされることは知っていますが、この関数は明らかにそれを行っていません。 私の直感では、青/ピンクの曲線は実際にこのグラフにプロットされるのではなく、グラフの次の次元(3番目)の値にマップされる表現(円とX)です。これは推論に誤りがあり、何かが欠けているだけですか?洞察/直感に感謝します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.