タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

4
独立した2つのサンプルのt検定を視覚化する方法は?
独立した2つのサンプルのt検定の結果を視覚化する最も一般的な方法は何ですか?数値表はより頻繁に使用されますか、それとも何らかのプロットですか?目標は、何気ない観察者がこの図を見て、おそらく2つの異なる集団からのものであることをすぐに確認することです。

6
系列のデータポイントの数を減らすにはどうすればよいですか?
私は10年以上統計を勉強していません(それから基本コースだけです)ので、私の質問は少し理解しにくいかもしれません。 とにかく、私がしたいことは、シリーズのデータ​​ポイントの数を減らすことです。X軸は測定開始からのミリ秒数で、Y軸はそのポイントの読み取り値です。 多くの場合、数千のデータポイントがありますが、必要なのは数百だけです。だから私の質問は:データポイントの数を正確に減らすにはどうすればよいですか? 呼ばれるプロセスは何ですか?(だから私はそれをググることができます)優先アルゴリズムはありますか(C#で実装します) あなたがいくつかの手がかりを得たことを願っています。適切な用語が欠けて申し訳ありません。 編集:詳細はこちら: 取得した生データは心拍数データであり、最後のビートからのミリ秒数の形式です。データをプロットする前に、最初のサンプルからのミリ秒数と、各データポイント(60000 / timesincelastbeat)でのbpm(1分あたりの拍数)を計算します。 データを視覚化したい、つまり折れ線グラフにプロットしたい。グラフのポイント数を数千から数百に減らしたい。 1つのオプションは、シリーズの1秒ごと、またはおそらく5秒ごとの平均bpmを計算することです。これらの期間(5秒間隔の秒)ごとに少なくとも1つのサンプルがあることがわかっていれば、それは非常に簡単でした。

2
シンプソンのパラドックスは、隠し変数からの反転のすべてのインスタンスをカバーしていますか?
以下は、シンプソンのパラドックスの存在の「証明」として提供されている多くの視覚化についての質問であり、用語についての質問かもしれません。 シンプソンのパラドックスは説明すると、(理由の数値例を与えるためにかなり単純な現象であり、なぜこの現象が発生することができますが深いと面白いですが)。パラドックスは、2x2x2の分割表(Agresti、Categorical Data Analysis)が存在し、マージナルアソシエーションが各条件付きアソシエーションとは異なる方向にあることです。 つまり、2つの部分母集団の比率の比較はどちらも一方向に進むことができますが、組み合わせた母集団の比較は他の方向に進みます。シンボル: 存在、B 、C 、D 、E 、F 、Gは、Hよう +のBa 、b 、c 、d、e 、f、g、ha,b,c,d,e,f,g,ha,b,c,d,e,f,g,ha + bc + d&gt; e + fg+ ha+bc+d&gt;e+fg+h \frac{a+b}{c+d} > \frac{e+f}{g+h} しかし とac&lt; egac&lt;eg \frac{a}{c} < \frac{e}{g} bd&lt; fhbd&lt;fh \frac{b}{d} < \frac{f}{h} これは、次の視覚化で正確に表現されています(Wikipediaから): 分数は単に対応するベクトルの勾配であり、短いBベクトルは対応するLベクトルよりも大きい勾配を持っていますが、結合されたBベクトルは結合されたLベクトルよりも小さい勾配を持っていることが例でわかります。 多くの形式で非常に一般的な視覚化があり、特にSimpson'sに関するWikipediaのリファレンスの前に1つあります。 これは交絡の良い例であり、(2つのサブ母集団を分離する)非表示変数が異なるパターンを示す方法です。 ただし、数学的には、そのような画像は、シンプソンのパラドックスとして知られている現象の基礎となっている分割表の表示にまったく対応していません。まず、回帰直線は実数値のポイントセットデータ上にあり、分割表のカウントデータではありません。 また、回帰直線で勾配の任意の関係を持つデータセットを作成することもできますが、分割表では、勾配の違いに制限があります。つまり、母集団の回帰直線は、指定された部分母集団のすべての回帰に直交する可能性があります。しかし、シンプソンズのパラドックスでは、サブグループの比率は、回帰勾配ではありませんが、逆の方向にあったとしても、融合した母集団から遠く離れることはできません(ここでも、ウィキペディアの比率比較画像を参照してください)。 私にとっては、シンプソンのパラドックスの視覚化として後者の画像を見るたびに驚かされるのに十分です。しかし、私はどこでも(私が間違っていると思う)例を目にしているので、知りたいと思っています。 オリジナルのシンプソン/ユールの分割表の例から、回帰直線の視覚化を正当化する実際の値への微妙な変換が欠けていますか? 確かにシンプソンズは交絡エラーの特定のインスタンスです。「シンプソンのパラドックス」という用語は交絡エラーと同等になりました。そのため、どのような計算でも、隠し変数を介した方向の変化はシンプソンのパラドックスと呼ばれますか? 補遺:これは、2xmxn(または連続で2 x m)テーブルへの一般化の例です。 …

1
ボックスプロットノッチ対Tukey-Kramer間隔
'R'のボックスプロットからの「ノッチ」ヘルプドキュメント(または元のテキスト)は、次のようになります。 2つのプロットのノッチが重ならない場合、これは2つの中央値が異なることを示す「強力な証拠」です(Chambers et al、1983、p。62)。使用される計算については、boxplot.statsを参照してください。 そして ' boxplot.stats 'は以下を与えます: ノッチ(要求された場合)は+/- 1.58 IQR / sqrt(n)まで拡張されます。これは、McGill et al(1978、p。16)で与えられたChambers et al(1983、p。62)の1.57の式と同じ計算に基づいているようです。それらは、中央値の漸近的正規性と、比較される2つの中央値のサンプルサイズがほぼ等しいことに基づいており、サンプルの基になる分布に比較的鈍感であると言われています。考えは、2つの中央値の差に対して約95%の信頼区間を与えることであると思われます。 これで、JMPバージョンのTukey-Kramerテストを使用して列の平均を比較することに慣れました。 JMPのドキュメントはこれを提供します: 平均間のすべての違いに対応するサイズのテストを表示します。これは、TukeyまたはTukey-Kramer HSD(正直有意差)テストです。(Tukey 1953、Kramer 1956)。このテストは、サンプルサイズが同じ場合は正確なアルファレベルのテストであり、サンプルサイズが異なる場合は控えめです(Hayter 1984)。 質問:2つのアプローチ間の接続の性質は何ですか?一方を他方に変換する方法はありますか? 中央値のおよそ95%のCIを探しており、重複があるかどうかを判断しているようです。もう1つは、2セットのサンプルの中央値が互いに妥当な範囲内にあるかどうかを判断するための「正確なアルファテスト」です(私のサンプルは同じサイズです)。 パッケージを参照していますが、ロジックの背後にある数学に興味があります。

1
RでのARIMA時系列の予測値のプロット
この質問には2つ以上の深刻な誤解がある可能性がありますが、それは計算を正しくすることを意味するのではなく、いくつかの焦点を考慮して時系列の学習を動機付けることを目的としています。 時系列の適用を理解しようとすると、データのトレンドを排除すると、将来の値を予測するのが不可能になるように見えます。たとえばgtemp、astsaパッケージの時系列は次のようになります。 過去数十年間の上昇傾向は、予測される将来の値をプロットするときに考慮に入れる必要があります。 ただし、時系列変動を評価するには、データを定常時系列に変換する必要があります。私は(私はこれが原因で途中で実行されると思い差分とARIMAプロセスとしてモデル化した場合1でorder = c(-, 1, -)のように): require(tseries); require(astsa) fit = arima(gtemp, order = c(4, 1, 1)) 次に、将来の値(年)を予測しようとすると、上昇傾向のコンポーネントが見落とされます。505050 pred = predict(fit, n.ahead = 50) ts.plot(gtemp, pred$pred, lty = c(1,3), col=c(5,2)) 特定のARIMAパラメータの実際の最適化に必ずしも触れず に、プロットの予測された部分の上昇傾向をどのように回復できますか? この非定常性を説明するOLSがどこかに「隠されている」と思われますか? 私は、パッケージdriftのArima()機能に組み込むことができるの概念にforecast出会い、もっともらしいプロットをレンダリングします。 par(mfrow = c(1,2)) fit1 = Arima(gtemp, order = c(4,1,1), include.drift = T) future = forecast(fit1, …


1
PCAが大きなペアワイズ距離のみを保持することは何を意味しますか?
私は現在t-SNE視覚化手法について読んでいますが、主成分分析(PCA)を使用して高次元データを視覚化することの欠点の1つは、ポイント間の大きなペアワイズ距離しか保持されないことです。高次元空間で遠く離れている意味の点も低次元部分空間では遠く離れて表示されますが、他のすべてのペアワイズ距離が台無しになることを除いて。 なぜ誰かがそれを理解するのを手伝ってくれませんか?

1
ノモグラムの読み取りに関する説明
以下は、式のrmsパッケージを使用してmtcarsデータセットから作成されたノモグラムです。 mpg ~ wt + am + qsec モデル自体は0.82のR2とP &lt;0.00001で良いようです &gt; mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 0.850 sigma 2.4588 d.f. 3 R2 adj 0.834 d.f. 28 Pr(&gt; …

2
エントリ数と比較したパーセンテージを視覚化する方法。
私は下のグラフを視覚化し、治療を試みた患者の数に応じて治療の有効性を強調するための最良の方法を理解しようとしています。実際のページへのリンクは次のとおりです。http://curetogether.com/cluster-headaches/treatments/ 治療を簡単に比較し、それぞれが何人の患者を評価したかを確認しながら、効果を強調するための最良の方法は何ですか?私の考えは有効性をパーセンテージで示すことでしたが、それでも簡単に比較できるようにして、それぞれを試みた患者の数を示す方法はわかりません。 ありがとう!

3
大きなN、離散データ、および多くの変数がある場合、散布図行列から情報を抽出する方法は?
私は乳がんのデータセットをいじって、すべての属性の散布図を作成して、(赤)のクラスmalignant(青)の予測に最も影響を与えるものを把握しましたbenign。 行がx軸を表し、列がy軸を表すことを理解していますが、この散布図のデータまたは属性についてどのような観測ができるかわかりません。 この散布図からのデータを解釈/観察するためのヘルプ、またはこのデータを視覚化するために他の視覚化を使用する必要があるかどうかを探しています。 使用したRコード link &lt;- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast &lt;- read.arff(link) cols &lt;- character(nrow(breast)) cols[] &lt;- "black" cols[breast$class == 2] &lt;- "red" cols[breast$class == 4] &lt;- "blue" pairs(breast, col=cols)

2
平均、sd、最小、最大で要約統計量をプロットしますか?
私は経済学の出身ですが、通常、分野では変数の要約統計量が表で報告されます。しかし、私はそれらをプロットしたいと思います。 ボックスプロットを変更して、平均値、標準偏差、最小値、最大値を表示できるようにすることもできますが、従来は中央値とQ1およびQ3を表示するためにボックスプロットが使用されているため、そうしたくありません。 すべての変数のスケールが異なります。誰かが私がこれらの要約統計量をプロットすることができる意味のある方法を提案できたら素晴らしいでしょう。RまたはStataを使用できます。

2
多くの変数の散布図行列の探索
多くのパラメーター(たとえば、50〜200)を含むデータセットを分析していて、変数間の関係(たとえば、2変数散布図または2次元ヒストグラム)に興味があります。ただし、この数のパラメーターでは、200x200の配列のプロットを描画するのは現実的ではないようです(それを印刷して壁に掛けない限り)。 一方、相関行列のみを実行しても、2変数関係に関するすべての情報が得られるわけではありません。 多くの変数の2変数関係を探索する方法(ライブラリまたはワークフロー)はありますか? 私は特に他の人に結果を示すことに興味があります(おそらくいくつかのデータ前処理の後)。たとえば、JavaScriptでインタラクティブな何か、相関行列から選択したフィールドの散布図行列を見ることができたとします。 散布図行列とは、次のようなものです。 (から取らpandasplottingブログ ;でaviable パイソン/パンダ、R、D3.js、など)。

3
ロジスティック回帰のベイズの適合度を視覚化する方法
ベイジアンロジスティック回帰問題の場合、私は事後予測分布を作成しました。私は予測分布からサンプリングし、観測ごとに(0,1)の数千のサンプルを受け取ります。適合度を視覚化することは、面白くありません。次に例を示します。 このプロットは、10,000個のサンプル+観測されたデータム点を示しています(左側の方に赤い線が表示されます:観測です)。問題は、このプロットが情報を提供することがほとんどないことであり、データポイントごとに1つずつ、計23を用意します。 23データポイントと後方サンプルを視覚化するより良い方法はありますか? 別の試み: ここの論文に基づく別の試み

1
条件付き密度プロットの解釈
条件付き密度プロットを正しく解釈する方法を教えてください。でRで作成したものを2つ挿入しましたcdplot。 たとえば、変数1が150の場合、結果が1になる確率は約80%ですか? 濃い灰色の領域は、条件付き確率がResult1に等しい確率です。 cdplotドキュメントから: cdplotは、yの周辺分布によって重み付けされたyのレベルを指定して、xの条件付き密度を計算します。密度は、yのレベルにわたって累積的に導出されます。 この累積は、これらのプロットの解釈にどのように影響しますか?

3
大規模な時系列データをインタラクティブに表示する方法は?
私は、適切なサイズの時系列データを処理することが多く、タイムスタンプが5億から2億倍になり、タイムスタンプを動的に視覚化したいと考えています。 これを効果的に行うための既存のソフトウェアはありますか?ライブラリとデータ形式はどうですか?ズームキャッシュは、大規模な時系列に焦点を当てたライブラリの一例です。ズームキャッシュでは、さまざまな解像度で見やすくするために、データがいくつかの解像度で要約されます。 編集:また、この質問をするか、答えを探す必要がある場合は、お知らせください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.