タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

3
多項式回帰から信頼帯を理解する
以下のグラフに表示される結果を理解しようとしています。通常、Excelを使用して線形回帰線を取得する傾向がありますが、以下の場合はRを使用しており、コマンドで多項式回帰を取得します: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() だから私の質問はこれに要約されます: 青い回帰線の周りの灰色の領域(矢印#1)は何ですか?これは多項式回帰の標準偏差ですか? 灰色の領域の外側(矢印#2)が「外れ値」であり、灰色の領域の内側(矢印#3)が標準偏差内にあると言えますか?

1
多重線形モデルからの関係を視覚的に提示する最良の方法
約6つの予測変数を含む線形モデルがあり、推定値、F値、p値などを表示します。しかし、単一の予測変数の個々の効果を表すのに最適な視覚的プロットは何かと思いまして応答変数?散布図?条件付きプロット?効果プロット?等?そのプロットをどのように解釈しますか? Rでこれを行うので、可能であれば例を自由に提供してください。 編集:私は主に、特定の予測変数と応答変数との関係を提示することに関心があります。

5
QQプロットの中心付近の無関係な点を削除する
Rで約120万ポイントの2つのデータセットを使用してQQプロットをプロットしようとしています(qqplotを使用し、データをggplot2に送ります)。計算は簡単ですが、結果のグラフは非常に多くのポイントがあるため、読み込みが非常に遅くなります。ポイント数を10000に減らすために線形近似を試みました(これは、データセットの1つが他のデータセットよりも大きい場合、qqplot関数がとにかく行います)が、その後、テールの詳細の多くを失います。 中心に向かうデータポイントのほとんどは基本的に役に立たない-それらは非常に重なるので、おそらくピクセルあたり約100です。よりスパースなデータを末尾に向かって失うことなく、近すぎるデータを削除する簡単な方法はありますか?

3
比較のためにバイオリンのプロットを拡大縮小する方法は?
私はバイオリンのプロットを描画しようとしており、グループ間でそれらをスケーリングするための承認されたベストプラクティスがあるかどうか疑問に思っています。R mtcarsデータセットを使用して試した3つのオプションを次に示します(1973年のMotor Trend Cars、こちらをご覧ください)。 等しい幅 どのように思わ原紙は *行い、何Rはvioplotない(例)。形状の比較に適しています。 等しい面積 各プロットは確率プロットであるため、それぞれの面積はある座標空間で1.0に等しくなければなりません。各グループ内の密度を比較するのに適していますが、プロットがオーバーレイされている場合はより適切であると思われます。 加重エリア 等しい面積に似ていますが、観測数で重み付けされています。これらの車の数が少ないため、6気筒は比較的薄くなります。グループ間で密度を比較するのに適しています。 *バイオリンプロット:ボックスプロット-密度トレースSynergis(DOI:10.2307 / 2685478)

3
2つのヒストグラムを同じスケールで配置する最良の方法は?
詳細に比較したい2つの分布があるとしましょう。つまり、形状、スケール、シフトを簡単に見えるようにします。これを行う1つの良い方法は、各分布のヒストグラムをプロットし、それらを同じXスケールに配置し、一方を他方の下に積み重ねることです。 これを行うとき、ビニングはどのように行われるべきですか?下の画像1のように、1つの分布が他の分布よりもはるかに分散している場合でも、両方のヒストグラムで同じビン境界を使用する必要がありますか?下の画像2のように、ズームする前にヒストグラムごとにビニングを個別に行う必要がありますか?これについての経験則もありますか?

4
使用法を学習するためのリソース(/作成)動的(/インタラクティブ)統計視覚化
インタラクティブなデータの視覚化(ズーム、ポインティング、ブラッシング、ポイントマッピングなど)についてもう少し学びたいと思います。私は歓迎します: 統計調査のためにそのような方法を使用する方法に関するチュートリアル/ガイド/ブック(?)/ビデオ。 良い/興味深いインタラクティブなデータ-vizパッケージへのポインタ(Rおよびその外部) ボールの転がしを開始するだけで、Rには、rggobi、新しいgoogleViz Rパッケージ、アニメーションパッケージなど、インタラクティブな視覚化を実現するさまざまな方法があることを知っています。しかし、探索する価値のある他のパッケージ(Rが提供していないものを提供している)がある場合、それらについて知って喜んでいます(jmp、mathlab、spss、sas、excelなど)。 ps:これは、タグ「interactive-visualization」を使用する最初の質問です

1
Rのプロットのような年齢ピラミッドを作る方法は?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 年齢ピラミッドは次のようになります。似たような もの、つまり、同じカテゴリの2つの棒グラフ(ヒストグラムではない)を作成します。 Rでこれを行う簡単な方法ですか? また、各バーの色を制御するとよいでしょう。

9
クラスタリング用の視覚化ソフトウェア
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 〜22000ポイントをクラスター化します。多くのクラスタリングアルゴリズムは、高品質の初期推測でより適切に機能します。データの大まかな形状を把握できるツールは何ですか? 自分の距離メトリックを選択できるようにしたいので、ペアワイズ距離のリストをフィードできるプログラムは問題ありません。ディスプレイ上の領域またはクラスターをハイライトし、その領域にあるデータポイントのリストを取得するようなことをしたいと思います。 フリーソフトウェアが望ましいですが、SASとMATLABを既に持っています。

4
フォローアップ:混合ANOVA間ANOVAプロットでは、推定SEまたは実際のSEですか?
私は現在論文を書き終えており、昨日からこの質問につまずいたので、自分に同じ質問を投げかけることになりました。データからの実際の標準誤差または私のANOVAから推定された標準誤差をグラフに提供する方が良いでしょうか? 昨日からの質問はかなり具体的ではなく、私の質問はかなり具体的であるため、このフォローアップの質問を提示することが適切だと思いました。 詳細: 認知心理学の領域(条件付き推論)で実験を実行し、2つのグループ(帰納的および演 ductive的指示、つまり被験者間操作)を2つの被験者内操作(問題のタイプと問題の内容、それぞれ2つの因子レベル)。 結果は次のようになります(ANOVA出力からのSE推定値の左パネル、データから推定されたSEの右パネル): 異なる線は2つの異なるグループ(つまり、被験者間操作)と、被験者の操作はx軸(つまり、2x2因子レベル)にプロットされます。 本文では、ANOVAのそれぞれの結果と、中央の重要なクロスオーバー相互作用の計画的な比較を提供します。SEは、データの変動性に関するヒントを読者に提供するためにあります。SDをプロットすることは一般的ではなく、被験者内および被験者間CIを比較する際に深刻な問題があるため、標準偏差および信頼区間よりもSEの方が好きです(同じことがSEにも当てはまるため、有意差を誤って推測することはそれほど一般的ではありません)それらから)。 私の質問を繰り返します:ANOVAから推定されたSEをプロットする方が良いのですか、それとも生データから推定されたSEをプロットすべきですか? 更新: 推定SEが何であるかをもう少し明確にすべきだと思います。SPSSのANOVA出力はestimated marginal means、対応するSEとCIを提供します。これが左のグラフにプロットされています。これを理解している限り、それらは残差のSDである必要があります。ただし、残差を保存する場合、SDは推定SEに多少なりとも近くありません。したがって、2番目の(潜在的にSPSS固有の)質問は次のとおり です。これらのSEとは何ですか? 更新2:最終的に気に入ったのでプロットを作成できるR関数を作成することができました(受け入れられた回答を参照)。誰かに時間があれば、あなたがそれを見ることができれば本当に感謝します。ここにあります。

4
構造方程式モデリングで使用されるグラフィカルなテクニックは何ですか?
構造方程式モデリングに特定の、またはより適用可能なグラフィカル手法があるかどうか興味があります。これは、共分散分析用の探索ツールやSEMモデル評価用のグラフィカルな診断のカテゴリに分類されると思います。(私はここでパス/グラフ図を本当に考えていません。)

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

1
GAM vs LOESS vsスプライン
コンテキスト:パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。 次の認識は正しいですか? レスは、特定の値で応答を推定します。 スプラインは、データ(一般化された加法モデルを構成する)に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。 最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか?


4
ヒストグラムが提供しないボックスプロットはどのような情報を提供しますか?
ヒストグラムは、変数の分布をよく理解します。ただし、ボックスプロットは同じことをしようとしますが、この変数の分布を十分に描写していません。 なぜ人々が箱ひげ図を使うのか分かりません。ヒストグラムはあらゆる点で優れています。両方を使用する理由はありますか? ボックスプロットが提供する唯一のことは、外れ値です!どの観測が外れ値である可能性があるかがわかります。

4
小さなサンプルのグラフ化
タスクを完了するために、14回の個別の小さなデータセットがあります。しかし、データをグラフ化するために使用する適切なグラフを見つけることが困難です。サンプルが大きかった場合、ボックスプロットまたはヒストグラムを使用しますが、サンプルが非常に小さいときにこの場合に使用するのが適切かどうかはわかりません。 更新:時間は5.2、3.9、5.6、4.2、3.8、4.1、6.0、5.6、4.4、4.5、4.9、4.5、4.9、4.2です

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.