タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

2
ベイジアンモデル平均化(BMA)の利点を示す簡単な例
私はベイジアンモデルアベレージング(BMA)アプローチを研究に組み込んでおり、同僚に私の仕事についてのプレゼンテーションをすぐに行います。しかし、BMAは私の分野ではそれほど有名ではありません。そのため、すべての理論を提示し、実際に問題に適用する前に、BMAが機能する理由について、簡単でありながら有益な例を紹介します。 2つのモデルから選択できる簡単な例を考えていましたが、真のデータ生成モデル(DGM)はその中間にあり、証拠はそれらのいずれかを実際に支持していません。そのため、いずれかを選択して続行すると、モデルの不確実性を無視してエラーが発生しますが、BMAでは、真のモデルはモデルセットの一部ではありませんが、少なくとも対象のパラメーターの正しい事後密度が得られます。たとえば、毎日2つの天気予報(AとB)があり、1つは天気を最もよく予測したいので、古典的な統計では、最初に2つの天気予報を見つけようとしますが、真実がその中間にある場合はどうでしょうか。 (つまり、Aが正しいこともあれば、Bが正しいこともあります)。しかし、私はそれを形式化することができませんでした。そのようなものですが、私はアイデアに非常にオープンです。この質問が具体的であることを願っています! 文献では、これまでに読んだものから良い例を見つけていません。 Kruschke(2011)はベイジアン統計の優れた入門書ですが、BMAにはあまり焦点を当てていません。彼が第4章で持っているコイントスの例は、ベイジアン統計の導入には最適ですが、他の研究者にBMAを使用するように説得しません。(「なぜ私は3つのモデルを持っているのですか、1つはコインが公正で、2つはどちらかの方向に偏っているということですか?」) 私が読んだ他のすべてのもの(Koop 2003、Koop / Poirier / Tobias(2007)、Hoeting et al。(1999)、その他多数)は素晴らしい参考文献ですが、簡単なおもちゃの例は見つかりませんでした。 しかし、多分私はここで良い情報源を逃しただけです。 それで、誰かがBMAを導入するために使用する良い例がありますか?多分それは非常に有益だと思うので、可能性と事後者を示すことによってさえ多分。


2
ランク付けされたデータ(スピアマン相関)の回帰直線をプロットすることは「大丈夫」ですか?
スピアマン相関を計算したデータがあり、それを出版物のために視覚化したいと思います。従属変数はランク付けされますが、独立変数はランク付けされません。視覚化したいのは、実際の勾配よりも一般的な傾向なので、独立性をランク付けし、スピアマンの相関/回帰を適用しました。しかし、自分のデータをプロットし、それを自分の原稿に挿入しようとしたとき、私は(このWebサイトで)このステートメントに出くわしました。 スピアマンの順位相関を行う場合、説明や予測に回帰直線を使用することはほとんどないため、回帰直線に相当する値を計算しないでください。 以降 線形回帰または相関の場合と同じ方法で、スピアマンの順位相関データをグラフ化できます。ただし、グラフに回帰直線を置かないでください。ランク相関で分析した場合、グラフに線形回帰直線を配置すると誤解を招く恐れがあります。 問題は、回帰直線は、独立をランク付けしてピアソン相関を計算しない場合とそれほど変わらないということです。傾向は同じですが、ジャーナルのカラーグラフィックの法外な料金のために、モノクロ表現で行ったので、実際のデータポイントがあまりにも重なりすぎて認識できません。 もちろん、これを回避するには、2つの異なるプロットを作成します。1つはデータポイント(ランク付け)、もう1つは回帰直線(ランク付けなし)ですが、引用したソースが間違っているか問題であることが判明した場合私の場合はそれほど問題ではありませんが、それは私の人生を楽にします。(私もこの質問を見ましたが、それは私を助けませんでした。) 追加情報を編集: x軸の独立変数はフィーチャの数を表し、y軸の従属変数は分類アルゴリズムがパフォーマンスで比較された場合のランクを表します。これで、平均的に比較できるアルゴリズムがいくつかありますが、プロットで言いたいのは、「分類子Aはより多くの特徴が存在するほど良くなり、分類子Bはより少ない特徴が存在するときに良くなる」のようなものです。 2を編集してプロットを含めます。 プロットされたアルゴリズムのランクと特徴の数 プロットされたアルゴリズムのランクとランク付けされた機能の数 したがって、タイトルから質問を繰り返すには: スピアマンの相関/回帰のランク付けされたデータの回帰直線をプロットしても問題ありませんか?

1
ACFグラフは私のデータについて何を教えてくれますか?
2つのデータセットがあります。 私の最初のデータセットは、時間に対する投資の価値(数十億ドル単位)であり、各単位時間は1947年の第1四半期から四半期です。時間は2002年の第3四半期まで延長されます。 私の2番目のデータセットは、「[最初のデータセット]への投資の値をほぼ定常的なプロセスに変換した結果」です。 最初のデータセットと2番目のデータセット それぞれのACFプロット: プロットが正しいことを知っているので、「コメントする」ように求められます。自己相関関数は比較的新しいので、自分のデータについて何がわかるのかは完全にはわかりません。 誰かが時間をかけて簡単に説明できるとしたら、非常にありがたいです。

2
カテゴリーの影響とロジスティック回帰におけるそれらの有病率を視覚化する最良の方法は何ですか?
世論調査データを使用して、候補者の投票の主要な予測因子に関する情報を提示する必要があります。気になるすべての変数を使用してロジスティック回帰を実行しましたが、この情報を提示するための良い方法が見つかりません。 私のクライアントは、効果のサイズだけを気にするのではなく、効果のサイズとそのような属性を持つ母集団のサイズとの間の相互作用について気にします。 グラフでそれをどのように処理できますか?助言がありますか? 次に例を示します。 従属変数が候補に投票/否定である場合の変数SEX(男性= 1)のは2.3です。これは、指数化され、オッズ比または確率として扱われた後の大きな数です。ただし、この調査が実施された社会では30%の男性しかいませんでした。したがって、男性はこの候補者をかなり支持しましたが、それらの数は、多数派選挙に勝とうとする候補者にとって重要ではありません。ββ\beta

3
ニューマンのネットワークモジュール性は、署名された重み付きグラフで機能しますか?
グラフのモジュール性は、ウィキペディアのページで定義されています。異なるポスト、誰かが隣接行列ので、そのモジュールを容易に重み付けネットワークについて計算(および最大化)することができる説明同様に価値の関係を含むことができます。ただし、これが、たとえば-10〜+10の範囲の符号付きの値付きエッジでも機能するかどうかを知りたいのですが。この問題について、直感、証明、または参照を提供できますか?AijAijA_{ij}

2
現実のネットワーク/グラフのすべてのエッジが統計的に偶然に発生する可能性が高いとはどういう意味ですか?
このホワイトペーパーで概説されているバックボーンネットワーク抽出方法を使用しています。http://www.pnas.org/content/106/16/6483.abstract 基本的に、著者は、グラフの各エッジに対して、エッジが偶然に起こった可能性がある確率を生成する統計に基づく方法を提案します。典型的な統計的有意性カットオフ0.05を使用しています。 私はこの方法をいくつかの現実のネットワークに適用してきましたが、興味深いことに、一部のネットワークはエッジがそれほど重要ではなくなります。これがネットワークに何を伴うかを理解しようとしています。この方法をネットワークに適用したがエッジがまったくなかったのは、生成したランダムなネットワークにこの方法を適用したときだけでした。これはまさに期待通りの結果でした。 実社会のネットワークの例として、エコノミストが過去25年間に米国上院の二極化を示した最近のネットワークの視覚化を見たことがあります:http : //www.economist.com/news/united-states/21591190 -united-states-amoeba。これらのネットワークにバックボーンネットワーク抽出方法を適用しましたが、重要なエッジはありませんでした。生のエッジは明らかに優先的な接続とクラスタリングを示していますが、これは偶然ですか?上院の投票ネットワークは本質的にランダムですか?


8
高次元データの視覚化
高次元空間のベクトルである2つのクラスのサンプルがあり、それらを2Dまたは3Dでプロットしたい。 次元削減の手法については知っていますが、本当にシンプルで使いやすいツール(MATLAB、Python、またはビルド済みの.exe)が必要です。 また、2Dでの表現は「意味のある」ものになるのでしょうか。(たとえば、2つのクラスがどのように交差するか、または分離可能か)。

2
ポアソン回帰の優れた視覚化は何ですか?
コードの欠陥を、近接性などのコードの複雑さの指標と関連付けたいのですが。一般的なモデルの1つは、これをポアソンプロセスと見なすことです。ここで、継続時間はコーディングに費やされた時間であり、密度はコードの複雑さの関数です。回帰を行って有意値などを取得できます。 ただし、結果を視覚化することは困難です(数学にあまり興味がない同僚にとってはさらに困難です)。これが線形傾向である場合など、異常値などを確認するためにこれを表示する良い方法はありますか?(Rパッケージへのリンクは大歓迎です。) たとえば、単にプロットすることもできますDefects / Time ~ Complexityが、これはかなりノイズDefectsが多く、離散化されているため非常に小さいため、傾向を確認することは困難です。私が考えていたのは、データを分位点にスライスしてから、分位点ごとに回帰を行い、結果の密度をプロットできることです。ただし、これがどれほど有効であるかはわかりません。分位とは何かについて人々を誤解させる。

2
QQプロットの解釈
次のコードと出力を検討してください。 par(mfrow=c(3,2)) # generate random data from weibull distribution x = rweibull(20, 8, 2) # Quantile-Quantile Plot for different distributions qqPlot(x, "log-normal") qqPlot(x, "normal") qqPlot(x, "exponential", DB = TRUE) qqPlot(x, "cauchy") qqPlot(x, "weibull") qqPlot(x, "logistic") 対数正規のQQプロットは、ワイブルのQQプロットとほとんど同じであるようです。それらをどのように区別できますか?また、ポイントが2つの外側の黒い線で定義された領域内にある場合、それらは指定された分布に従うことを示していますか?

3
データを使用した実用的なPCAチュートリアル
PCAチュートリアルをインターネットで検索すると、何千もの結果が得られます(ビデオも)。チュートリアルの多くは非常に優れています。しかし、デモに使用できるいくつかのデータセットを使用してPCAが説明される実際的な例を見つけることができません。PCA分析の前後に、簡単にプロットできる小さなデータセット(数千行のデータの10000行ではない)を提供するチュートリアルが必要です。その違い/結果を明確に示すことができます。(約100行と3次元のデータを使用した段階的な実践例はすばらしいと思います)。 何か提案はありますか?

1
Rのタイムラインでのイベントのプロット
開始時間と終了時間のデータフレームを次のようなタイムラインプロットに変換できるRのプロットライブラリはありますか? Y軸のみの意味は、並行性でスタックすることですが、必ずしも並行性を表すとは限りません(中央のギャップを参照)。灰色の各ボックスはイベント、つまりデータフレームの行です。データフレームには、開始時間と停止時間の2つの列があります。

3
Rでワッフルチャートを作成する方法
ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 Rで円グラフを使用する代わりにワッフルチャートをプロットするにはどうすればよいですか? help.search("waffle") No help files found with alias or concept or title matching ‘waffle’ using fuzzy matching. 私がグーグルで見つけた最も近いものはmosaicplotsです。

1
Pythonで画面プロットを描画する方法は?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 昨年休業。 行列で特異ベクトル分解を使用して、U、S、およびVt行列を取得しています。この時点で、保持する次元数のしきい値を選択しようとしています。スクリープロットを見るよう提案されましたが、それを乱暴にプロットする方法について疑問に思っています。現在、私はpythonでnumpyおよびscipyライブラリを使用して以下を実行しています。 U, S, Vt = svd(A) 助言がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.