タグ付けされた質問 「data-visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

8
Rのグラフィカルデータの概要(概要)関数
Rパッケージでこのような関数に出くわしたことは確かですが、大規模なGooglingを行った後はどこにも見つからないようです。私が考えている機能は、それに与えられた変数のグラフィカルな要約を生成し、いくつかのグラフ(ヒストグラムとおそらくボックスとウィスカープロット)と平均、SDなどの詳細を示すテキストで出力を生成します この関数はベースRに含まれていなかったと確信していますが、使用したパッケージが見つからないようです。 誰もがこのような関数を知っていますか?もしそうなら、どのパッケージに含まれていますか?

4
Rでプロットする場合、ggplot2またはggvisを学習する必要がありますか?
Rでプロットする場合、ggplot2またはggvisを学習する必要がありますか?どちらかが優れているのであれば、必ずしも両方を学びたいとは思わない。Rコミュニティが機能が重複する新しいパッケージを作成し続けるのはなぜですか?紹介ブログ記事は ggvisは、洗練されたプロットパッケージggplot2がすでに存在していることを考えると作成された理由の単語を言及していません。

3
PCAはブール(バイナリ)データ型で機能しますか?
高次システムの次元数を減らし、できれば2次元または1次元のフィールドで共分散の大部分をキャプチャしたいと思います。これは主成分分析で行えることを理解しており、多くのシナリオでPCAを使用しています。ただし、ブールデータ型で使用したことがないため、このセットを使用してPCAを実行するのが意味があるかどうか疑問に思っていました。たとえば、定性的または記述的なメトリックを持っているふりをし、そのディメンションに対してそのメトリックが有効な場合は「1」を割​​り当て、そうでない場合は「0」を割り当てます(バイナリデータ)。たとえば、白雪姫の七人の小人を比較しようとしているふりをします。我々は持っています: Doc、Dopey、Bashful、Grumpy、Sneezy、Sleepy、Happy、そしてあなたはそれらを品質に基づいて整理したいのです。 ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜D o cD O P E YB a s h fU LG r u m p ySN 、E 、E 、ZySL E E p yHa p p yL a c t o S E I N T O L E R A n t1011011A HO N O R R …

5
ニューラルネットワークの動作を視覚化/理解する方法
ニューラルネットワークは、複雑な構造のため、「ブラックボックス」として扱われることがよくあります。これは理想的ではありません。多くの場合、モデルが内部でどのように機能しているかを直感的に把握することが有益だからです。トレーニングされたニューラルネットワークの動作を視覚化する方法は何ですか?または、どのようにしてネットワークの簡単に消化可能な記述を抽出できますか(たとえば、この非表示ノードは主にこれらの入力で動作します)? 私は主に2層のフィードフォワードネットワークに興味がありますが、より深いネットワークの解決策も聞きたいです。入力データは、本質的に視覚的または非視覚的のいずれかです。

2
t-SNEが誤解を招くのはいつですか?
著者の一人からの引用: t-Distributed Stochastic Neighbor Embedding(t-SNE)は、高次元データセットの視覚化に特に適した次元削減のための(受賞した)テクニックです。 とても素晴らしいように聞こえますが、それは著者が話していることです。 著者からの別の引用(再:前述の競争): このコンペティションから何を奪いましたか? データの予測子のトレーニングを開始する前に、必ず最初にデータを視覚化してください!多くの場合、私が作成したような視覚化は、どのタイプの予測モデルを試すかを決定するのに役立つデータ分布に対する洞察を提供します。 情報は 失われる必要があります1-それは結局次元削減技術です。ただし、視覚化する際に使用するのが良い手法であるため、失われた情報は強調表示された情報よりも価値がありません(2次元または3次元に縮小することで可視化/理解可能になります)。 だから私の質問は: tSNEはいつジョブの間違ったツールになりますか? どのようなデータセットが機能しないのか、 どのような質問に答えられるように見えますが、実際には答えられませんか? 上記の2番目の引用では、データセットを常に視覚化することをお勧めします。この視覚化は常にtSNEで行う必要がありますか? 私は、この質問が逆に最もよく答えられることを期待しています。すなわち、答え:tSNEはいつ仕事に適したツールですか? 下の2枚の画像のために、生成モデル、ということ、それは誤解を招くことの例だった- (差別的モデルをクラス分け)私は分類されますどのように簡単にデータを私に教えてtSNEに依存しないように警告されている2が悪化していました最初/左で視覚化されたデータ(精度53.6%)は、2番目/右で同等のデータ(精度67.2%)よりも 1 私はこれについて間違っている可能性があります、私は座って後で証明/カウンターの例を試してみるかもしれません 2 生成モデルは識別モデルと同じではありませんが、これは私が与えられた例です。

3
Tufteスタイルの視覚化をサポートする実験的証拠?
Q:ナイジェル・ホームズなどのチャートジャンク化された視覚化に対して、Tufteスタイルのミニマリストのデータを話す視覚化をサポートする実験的証拠はありますか? ここでRプロットにチャートジャンクを追加する方法を尋ねると、レスポンダーは私に大量のスナークを投げ返しました。したがって、確かにいくつかの実験的証拠がなければならないが、私はそれらの反チャートジャンクポジションをサポートする私にはよくわからない---「Tufteがそう言った」よりも多くの証拠。右? そのような証拠が存在する場合、人間、彼らの記憶の想起、およびパターンの識別に関して私たちが持っている多くの心理学的研究と矛盾します。だから、私はそれについて読むことを確かに楽しみにしています。 ちょっとした逸話:会議で、私はエドワード・タフテに、ジャンクアニメーションとビデオが人間の理解と記憶想起を改善するという実験的証拠をどのように見ているかを尋ねました[ 脳のルールで引用された研究を参照]。彼の応答:「彼らを信じないでください。」科学的方法はこれで終わりです! PSもちろん、私はここで少し人を必要としている。私はタフテの本をすべて所有しており、彼の作品は素晴らしいと思います。私は彼の支持者が彼の議論のいくつかを売り過ぎたと思う。 注:これは、StackOverflowで私が尋ねた質問の再投稿です。プログラミング固有ではないため、モデレーターはそれを閉じました。CrossValidatedはより良い家かもしれません。 更新:私の元の質問のコメントセクションに、いくつかの便利なリンクがあります。つまり、Chambers、Cleveland、およびStanfordのdatavisグループの仕事です。 更新:この質問は、同様の主題を扱っています。

4
シルエットプロットの平均解釈する方法は?
イムは、私のデータセット内のクラスタの数を決定するためにシルエットプロットを使用しようとしています。データセットを考えると電車、私は次のMATLABコードを使用しました Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` 得られたプロットは、x軸としてして以下に与えられるクラスタの数とY軸シルエット値の平均。 どのように私はこのグラフを解釈するのですか?どのように私はこのことから、クラスタの数を決定するのですか?

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
ポアソン分散データのボックスプロットバリアントはありますか?
ポアソン分布データ(またはおそらく他の分布)に適応したボックスプロットバリアントがあるかどうかを知りたいですか? ガウス分布では、ウィスカはL = Q1-1.5 IQRおよびU = Q3 + 1.5 IQRに配置されているため、箱ひげ図には、高い外れ値(Uより上の点)とほぼ同じくらい多くの低い外れ値(Lより下の点)があります)。 ただし、データがポアソン分布の場合、正の歪度によりPr(X <L)<Pr(X> U)が得られるため、これはもはや成り立ちません。ポアソン分布に「適合する」ようにひげを配置する別の方法はありますか?


2
データを視覚化した後に統計テストを実行する-データの??
例としてこの質問を提案します。 ボストンの住宅価格データセットなどのデータセットがあり、そこに連続変数とカテゴリ変数があるとします。ここには、1〜10の「品質」変数と販売価格があります。品質のカットオフを(任意に)作成することで、データを「低」、「中」、「高」の品質の家に分けることができます。次に、これらのグループを使用して、販売価格のヒストグラムを相互にプロットできます。そのようです: ここで、「低」は、および「高」である> 7「品質」スコアに。これで、3つのグループのそれぞれの販売価格の分布ができました。中品質の住宅と高品質の住宅では、場所の中心に違いがあることは明らかです。さて、これをすべて終えた後、「うーん、場所の中心に違いがあるようです!どうして平均値でt検定をしないのですか?」と思います。次に、平均に差がないという帰無仮説を正しく拒否するように見えるp値を取得します。≤ 3≤3\leq 3> 7>7>7 さて、データをプロットするまで、この仮説をテストすることを何も考えていないとします。 このデータはdrですか? 「もし、私は以前に家に住んでいた人間だから、高品質の家はもっと費用がかかるに違いない。データをプロットするつもりだ。ああ、違う!時間だ!」 t検定に!」 当然、この仮説を最初からテストするためにデータセットが収集された場合、データのredではありません。しかし、しばしば私たちに与えられたデータセットで作業しなければならず、「パターンを探す」ように言われます。このあいまいなタスクを念頭に置いて、データのdrを回避する方法を教えてください。データをテストするためのホールドアウトセットを作成しますか?視覚化は、データによって提案された仮説をテストする機会のスヌーピングとして「カウント」されますか?

5
線プロットの色と線の太さの推奨事項
一般に、マップ、ポリゴン、および陰影領域の色覚異常に優しい色の選択について多くのことが書かれています(たとえばhttp://colorbrewer2.orgを参照)。線グラフの線の色と線の太さの推奨事項を見つけることができませんでした。目標は次のとおりです。 線が絡み合っていても簡単に区別できます 線は色盲の最も一般的な形態を持つ個人によって簡単に区別できます (それほど重要ではない)行はプリンターに優しい(上記のColor Brewerを参照) 黒とグレーのスケールラインのコンテキストでは、細い黒のラインと太いグレースケールのラインを使用すると非常に効果的であることがわかりました。さまざまな色、グレースケールの程度、および線の太さを含む特定の推奨事項に感謝します。私はさまざまな線種(実線/点線/破線)が好きではありませんが、その意見から話をすることができます。 1つのグラフで最大10個の曲線を推奨することが望ましいでしょう。Color Brewerと同様に、m行の推奨がn行の推奨のサブセットではなく、n> mであり、mを1から10に変更できるようにすることをお勧めします。 注:質問の線の色付け部分のみに対処するガイダンスも歓迎します。 一部の開業医は、異なるクラスをより明確に区別するために、数センチメートルごとにシンボルを線に追加します。クラスを区別するために複数の機能(色+シンボルタイプなど)を必要とすることはあまり好きではありません。また、異なる情報を示すためにシンボルを予約することもあります。 他のガイダンスがない場合、colorbrewer2.orgのポリゴンに推奨されているのと同じ色を線に使用し、線の幅を2.5倍するために、より明るく/濃い色で描画された線を提案します。これを設定するR関数を作成しています。醸造者の色に加えて、最初の2色を黒一色(薄い)とグレースケール(太い)にすると思いますが、薄い黒一色と薄い青であると主張できます。 R関数はhttp://biostat.mc.vanderbilt.edu/wiki/pub/Main/RConfiguration/Rprofileにあります。関数を定義したら、次のようにcolBrew入力して設定の動作を確認できます showcolBrew(number of line types) # add grayscale=TRUE to use only grayscale グラフィックパラメータを新しい設定に設定する機能latticeSetも提供されlatticeます。アルゴリズムの改善を歓迎します。 調べるには:R dichromatパッケージ:http : //cran.r-project.org/web/packages/dichromat/

2
統計学習の要素からk最近傍分類器の決定境界をプロットする方法は?
Trevor Hastie&Robert Tibshirani&Jerome Friedmanの著書ElemStatLearn "The Elements of Statistics Learning:Data Mining、Inference、and Prediction。Second Edition"に記述されているプロットを生成したい。プロットは次のとおりです。 でこの正確なグラフをどのように作成できるのかR、特に境界線を示すグリッドグラフィックと計算に注意してください。

3
100万のPCAエディションを視覚化する
主成分分析の出力を、単なるサマリーテーブルよりも多くの洞察を与える方法で視覚化することは可能ですか?〜1e4など、観測数が多い場合に実行できますか?そして、R [他の環境も歓迎]でそれを行うことは可能ですか?

8
多次元データを視覚化するためのオープンソースツール?
ほかのgnuplotとggobi、どのようなオープンソースのツールは、多次元のデータを可視化するために使っている人ですか? Gnuplotは、基本的なプロットパッケージです。 Ggobiは、次のような多くの気の利いたことを実行できます。 ディメンションに沿って、または個別のコレクション間でデータをアニメーション化する 係数を変化させる線形結合をアニメーション化する 主成分と他の変換を計算する 3次元データクラスターの視覚化と回転 色を使用して異なる次元を表現する オープンソースに基づいており、したがって自由に再利用可能またはカスタマイズ可能な他の有用なアプローチは何ですか? 回答にパッケージの機能の簡単な説明を記入してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.