タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

9
データベースのデータを視覚化するための優れたオープンソースソフトウェアを知っている人はいますか?
最近、Tableauに出会い、データベースとcsvファイルからデータを視覚化しようとしました。ユーザーインターフェイスを使用すると、ユーザーは時間と空間のデータを視覚化し、瞬時にプロットを作成できます。このようなツールは、コードを記述せずにデータをグラフィカルに観察できるため、非常に便利です。 データを取得して視覚化する必要があるデータソースは多数あるため、軸上の列をドラッグするだけでグラフを生成できるツールがあり、さらに列名をドラッグして視覚化を変更すると非常に便利です。 そのようなフリーまたはオープンソースのソフトウェアを知っている人はいますか?

17
お気に入りのデータ視覚化ブログは何ですか?
データの視覚化に関する最高のブログは何ですか? この質問は非常に主観的であるため、コミュニティWikiにしています。各回答を1つのリンクに制限してください。 提案された回答については、次の基準に注意してください。 [A]このような質問に対する受け入れられる答え...適切な説明と理由付けを提供する必要があります。単なるハイパーリンクではできません。... [A]将来の返信は... [これら]の基準を満たす必要があります。そうでない場合、コメントなしで削除されます。

5
R-QQPlot:データが正規分布しているかどうかを確認する方法
Shapiro-Wilk正規性テストを行った後、これをプロットしました。テストでは、人口が正規分布している可能性が高いことが示されました。ただし、このプロットでこの「動作」を確認するにはどうすればよいですか? 更新 データの単純なヒストグラム: 更新 Shapiro-Wilkテストは次のように述べています。


7
2つの順序変数間の関係のグラフ
2つの順序変数間の関係を示す適切なグラフは何ですか? 私が考えることができるいくつかのオプション: ランダムジッタを追加した散布図で、ポイントが互いに隠れないようにします。どうやら標準グラフィック-Minitabではこれを「個別値プロット」と呼んでいます。私の意見では、データがインターバルスケールからのものであるかのように、順序レベル間の一種の線形補間を視覚的に促進するため、誤解を招く可能性があります。 散布図は、サンプリング単位ごとに1つのポイントを描画するのではなく、ポイントのサイズ(面積)がそのレベルの組み合わせの頻度を表すように適合されています。実際にそのようなプロットを見たことがあります。読みづらい場合もありますが、ポイントは規則的に間隔を空けた格子上にあり、データを視覚的に「間引く」というジッター散布図の批判をある程度克服します。 特に、変数の1つが従属変数として扱われる場合、独立変数のレベルでグループ化されたボックスプロット。従属変数のレベルの数が十分に高くない場合はひどいように見える可能性があります(ウィスカが欠けているか、さらに中央値の視覚的な識別が不可能なさらに悪化した四分位で非常に「フラット」)が、少なくとも中央値と四分位数に注意を引きます順序変数の関連する記述統計。 頻度を示すヒートマップを含むセルの値の表または空白のグリッド。視覚的には異なりますが、散布図と概念的には類似しており、ポイントエリアに周波数が表示されます。 他のアイデア、またはどのプロットが望ましいかについての考えはありますか?特定の序数対序数プロットが標準とみなされる研究分野はありますか?(私は、周波数ヒートマップがゲノミクスで広まっていることを思い出すようですが、名目対名義の方が多いと思われます。)良い標準参照の提案も大歓迎です。Agrestiから何かを推測しています。 プロットで説明したい場合は、偽のサンプルデータのRコードが続きます。 「運動はあなたにとってどれほど重要ですか?」1 =まったく重要ではない、2 =やや重要でない、3 =重要でも重要でもない、4 =やや重要、5 =非常に重要。 「10分以上のランニングをどのくらい定期的に受けますか?」1 =しない、2 = 2週間に1回未満、3 = 1週間または2週間に1回、4 =週に2回または3回、5 =週に4回以上。 「頻繁に」を従属変数として扱い、「重要性」を独立変数として扱うことが自然な場合、プロットが2つを区別する場合。 importance <- rep(1:5, times = c(30, 42, 75, 93, 60)) often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1 rep(1:5, times = c(10, …

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
グラフのy軸をゼロから開始するかどうかを決定する方法は?
「データに横たわる」1つの一般的な方法は、y軸のスケールを使用して、実際よりも重要な変更のように見せることです。 科学出版物や学生の研究室レポートを確認するとき、私はしばしばこの「データの可視化の罪」にイライラします(著者は意図せずコミットしますが、それでも誤解を招くプレゼンテーションになります)。 ただし、「y軸を常にゼロで開始する」ことは、難しいルールではありません。例えば、エドワード・タフトは指摘時系列的に、ベースラインが必ずしもゼロではないこと。 一般に、時系列では、ゼロ点ではなくデータを示すベースラインを使用します。データのプロットでゼロ点が合理的に発生する場合は、問題ありません。しかし、データライン自体で何が起こっているかを隠すことを犠牲にして、ゼロ点に到達しようとして多くの空の垂直スペースを費やさないでください。(この点については、本「統計と嘘をつく方法」は間違っています。) 例として、時系列にゼロ点が存在しない場合、あらゆる主要な科学研究出版物をご覧ください。科学者たちは、ゼロではなく自分のデータを表示したいと考えています。 データをコンテキスト化する衝動は良いものですが、コンテキストは空の垂直スペースがゼロに達することはありません。ゼロは、多くのデータセットでは発生しません。代わりに、コンテキストのために、より多くのデータを水平に表示してください! 私がレビューする論文で誤解を招くプレゼンテーションを指摘したいのですが、ゼロ軸の純粋主義者にはなりたくありません。 y軸をゼロから開始するタイミング、およびこれが不要または不適切な場合に対処するガイドラインはありますか?(特に学術研究の文脈で。)

10
傾向を適切にプロットする方法
さまざまな国の死亡率の傾向(1000人あたり)を示すグラフを作成していますが、このプロットから得られるストーリーは、1932年以降に傾向が増加しているのはドイツ(水色の線)だけです。私の最初の(基本的な)トライ 私の意見では、このグラフはすでに伝えたいことを示していますが、非常に直感的ではありません。トレンド間の区別を明確にするための提案はありますか?成長率をプロットすることを考えていましたが、試してみましたが、それほど良くはありません。 データは次のとおりです year de fr be nl den ch aut cz pl 1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3 1928 11.2 16.4 12.8 9.6 11 12 14.5 15.1 16.4 1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7 1930 10.4 15.6 12.8 9.1 10.8 11.6 …

6
お気に入りの統計グラフは何ですか?
これは私のお気に入りです この例はユーモラスなものです(クレジットは私の前教授であるSteven Gortmakerに帰属します)が、統計的洞察や方法を美しくキャプチャし、それについてのアイデアを伝えるグラフにも興味があります。 回答ごとに1つのエントリ。もちろん、この質問は、あなたの好きな「データ分析」漫画とは何ですか? 提供する画像には適切なクレジット/引用を提供してください。

6
Rプロットでラベルが重複しないようにするにはどうすればよいですか?[閉まっている]
私はRで非常に簡単な散布図にラベルを付けようとしています。これは私が使用するものです: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) ご覧のとおり、結果は平凡です(クリックして拡大)。 textxy関数を使用してこれを補正しようとしましたが、それは良くありません。画像自体を大きくしても、密集したクラスターでは機能しません。 これを補正し、R が重ならないラベルをプロットできるようにする機能や簡単な方法はありますか? ここに私が持っているデータの小さなサブセットがあります: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

3
適合した重回帰モデルを視覚化する方法は?
現在、いくつかの重回帰分析を含む論文を書いています。散布図を使用して単変量線形回帰を視覚化するのは簡単ですが、複数の線形回帰を視覚化する良い方法があるかどうか疑問に思っていましたか? 私は現在、従属変数と第1独立変数、次に第2独立変数などの散布図をプロットしています。

8
重み付けされたソーシャルネットワーク/グラフでコミュニティを検出する方法
重みのある無向のエッジを持つグラフでコミュニティ検出/グラフ分割/クラスタリングを実行することに関して、誰かが良い出発点を提案できるかどうか疑問に思っています。問題のグラフには約300万のエッジがあり、各エッジは接続する2つの頂点間の類似度を表します。特に、このデータセットでは、エッジは個人であり、頂点は観測された動作の類似性の尺度です。 過去に私はstats.stackexchange.comでここに着いた提案に従い、Newmanのモジュール性クラスタリングのigraphの実装を使用し、結果に満足しましたが、それは重みのないデータセットにありました。 私が見るべき特定のアルゴリズムはありますか?




弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.