タグ付けされた質問 「visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)

3
パターン分析のためのデータ可視化(言語非依存、ただしRを推奨)
それらのパターンを理解するために、ディスクイメージからバイトをプロットします。このパターンがディスクテストプログラムによって作成されたと確信しているため、これは主に学術的なタスクですが、とにかくリバースエンジニアリングを行いたいと思います。 私は、パターンが256文字の周期で整列していることをすでに知っています。 この情報を視覚化する2つの方法を想像できます。各ピクセルの色が文字のASCIIコードである時間(3次元)で表示される16x16プレーン、または各ピリオド(2次元)の256ピクセルラインです。 これは、xxd(32x16)を通して見たパターン(複数表示される場合があります)のスナップショットです。 いずれにせよ、私はこの情報を視覚化する方法を見つけようとしています。これはおそらく信号解析にとって難しいことではありませんが、オープンソースソフトウェアを使用する方法を見つけることができないようです。 私はMatlabやMathematicaを避けたいのですが、最近Rで学習しているので、Rでの回答を希望しますが、それでも、どのような言語でも大歓迎です。 更新、2014年7月25日:以下のEmreの回答が与えられた場合、これはパターンの最初の30MBが256ではなく512に配置された場合のパターンです(この配置はより良く見えます)。 これ以上のアイデアは大歓迎です!
11 r  visualization 

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
一緒によく購入するアイテムを視覚化
次の構造のデータセットがCSVファイルに挿入されています。 Banana Water Rice Rice Water Bread Banana Juice 各行は、一緒に購入されたアイテムのコレクションを示しています。例えば、最初の行は、アイテムがことを示しBanana、Water、そしてRice一緒に購入しました。 次のような視覚化を作成したいと思います。 これは基本的にグリッドチャートですが、入力構造を読み取って上記のようなチャートを出力として生成できるツール(おそらくPythonまたはR)が必要です。

2
ggvis vs. ggplot2 + Shiny; インタラクティブな視覚化のためにどちらを選択しますか?
こちらのCrossValidatedにも同様の質問があり、その回答を読みました。私の質問は少し異なります。データを視覚化するだけではなく、視覚化したいものをどちらのパッケージでも視覚化するのは簡単ではありません。 プロットに2セットのポイント(座標)があります。エッジを追加して、グラフのようにします。ポイントがある場合、問題の性質に基づいて、プロットに(n / 2)^ 2エッジを追加する必要があります。x,yx,yx,ynnn(n/2)2(n/2)2(n/2)^2 次に、いくつかのインタラクティブな機能をプロットに追加します。たとえば、1つの点(頂点)をクリックすると、このクリックされた頂点に接続されていない他のすべての頂点が非表示になり、より明確で焦点の合ったプロットが表示されます。 自分のプロジェクトに適したネットワーク視覚化パッケージを見つけようとしましたが、すべてがエッジまたはノードの接続に関するデータを使用し、特定のレイアウトアルゴリズムに基づくネットワークを提供しているようです。データが違います。ノードの座標があり、それらの間にいくつかのエッジを確立したいと思います。私のデータでは、ノードには独自の固定位置があり、移動することはできません。 最後に、パッケージをggvisおよびに絞り込みましたggplot2。ggvisインタラクティブなプロットを生成するための意図的な設計に加えて、新しくて新鮮です。しかし、それggplot2+Shinyがインタラクティブなプロットを生み出すこともできることを知りました。(それは正しいですか?)さらに、私ggplot2はの機能がより多様で成熟していると考えましたggvis。たとえばggplot2、ズーム機能はあるものの、ズーム機能はありggvisません。さらに重要なのは、ggvis成長して変化しているように、1年ほどで技術的に陳腐化したりバグが発生したりする作業に多くの時間を費やしたくないということです。私がに基づいてコーディングした場合、これが事実だと思いましたggvis。 では、私の選択(ggplot2+shiny)を評価して、私がやりたいことを実行する可能性について教えてください。 言及されたパッケージのどれも知らなかったので、私はggplot2ウィッカムの本から学び始めました、そしてそれは大好きです!しかし、私は数週間を費やして、この驚くべきパッケージがの助けを借りてもやりたいことを実行できないことを知って恐れていますShiny。 PS:可能性のあるユーザーがダウンロードして実行できるように、最終的なコードをgithubに配置したいと考えています。したがって、ウェブアプリケーションを作成する必要はありません。ウェブサイトやインタラクティブマップをオンラインにする必要はありません。Rstudioの内部から実行できるインタラクティブなプロットが必要です。

1
サブセットを通常のオイラー線図にプロットできるかどうかはどうすればわかりますか?
場合によっては、オーバーラップするすべてのサブセットを正しい比率で表すために、オーバーラップする円を含むオイラー図を描くことができない場合があります。このタイプのデータでは、各セットを表すためにポリゴンまたは他の図形を使用する必要があります。重複するサブセットを説明するデータを処理する場合、単純なオイラー線図が可能かどうかをどのようにして理解できますか?

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 


3
大きな混同行列を読みやすくするにはどうすればよいですか?
私は最近、369クラスのデータセット(リンク)を公開しました。いくつかの実験を行って、分類作業がいかに難しいかを感じました。通常、発生しているエラーのタイプを確認するための混同行列がある場合、私はそれが好きです。ただし、マトリックスは実用的ではありません。369 × 369369×369369 \times 369 大きな混乱行列の重要な情報を提供する方法はありますか?たとえば、通常、あまり興味のない0がたくさんあります。完全な混同行列の一部である複数の行列を表示できるようにするために、ほとんどの非ゼロエントリが対角線の周りになるようにクラスを並べ替えることはできますか? これは大きな混同行列の例です。 野生の例 EMNISTの図6は見栄えがします。 多くのケースがどこにあるかを簡単に確認できます。ただし、これらはクラスのみです。1列だけではなくページ全体を使用した場合、これはおそらく3倍になりますが、それでもクラスのみになります。HASYの369クラスやImageNetの1000クラスにも近くありません。26日26日263 ⋅ 26 = 783⋅26日=783 \cdot 26 = 78 こちらもご覧ください CS.stackexchangeに関する私の同様の質問

4
機能の重要性に照らしてディシジョンツリーを解釈する
私は、sklearnで構築された決定木分類モデルの決定プロセスを完全に理解する方法を理解しようとしています。私が見ている2つの主な側面は、ツリーのgraphviz表現と機能の重要度のリストです。私が理解していないのは、ツリーのコンテキストで機能の重要度がどのように決定されるかです。たとえば、これは私の機能の重要性のリストです: 機能のランク:1. FeatureA(0.300237) FeatureB(0.166800) FeatureC(0.092472) FeatureD(0.075009) FeatureE(0.068310) FeatureF(0.067118) FeatureG(0.066510) FeatureH(0.043502) フィーチャーI(0.040281) FeatureJ(0.039006) FeatureK(0.032618) FeatureL(0.008136) FeatureM(0.000000) しかし、ツリーの一番上を見ると、次のようになっています。 実際、「最も重要」にランク付けされた機能の一部は、ツリーのずっと下まで表示されません。ツリーの上部は、最も低いランクの機能の1つであるFeatureJです。私の素朴な仮定は、最も重要な機能が最大の影響を与えるためにツリーの上部近くにランク付けされるということです。それが正しくない場合、機能を「重要」にするのは何ですか?

1
オートエンコーダーの再構築で、逆ではなくフォワードアクティベーションと同じアクティベーション機能を使用するのはなぜですか?
あなたは、n個のニューロンと入力層を有し、第一の中間層があるとし典型的で、ニューロンを。次に、次のにして、隠れ層の番目のニューロンの作動を計算します。m &lt; n a j jmmmm&lt;nm&lt;nm < najaja_jjjj aj=f(∑i=1..nwi,jxi+bj)aj=f(∑i=1..nwi,jxi+bj)a_j = f\left(\sum\limits_{i=1..n} w_{i,j} x_i+b_j\right)、ここではまたはような活性化関数です。tanh シグモイドffftanhtanh\tanhsigmoidsigmoid\text{sigmoid} ネットワークをトレーニングするには、で示される入力の再構成を計算し、と間の誤差を最小化します。ここで、番目の要素は通常、次のように計算されます。z x i zzzzzzzxxxiiizzz zi=f(∑j=1..mw′j,iaj+b′i)zi=f(∑j=1..mwj,i′aj+bi′) z_i = f\left ( \sum\limits_{j=1..m} w_{j,i}' a_j+b'_i \right) なぜ再構築されたは通常、逆関数を使用する代わりに同じ活性化関数を使用して計算されるのか、なぜ結合された重みとバイアスを使用する代わりに別々のとが役立つのでしょうか?次のように、逆活性化関数を使用して再構築を計算すること(たとえば、)を実行する方がはるかに直感的です。w ′ b ′ f − 1アークタンzzzw′w′w'b′b′b'f−1f−1f^{-1}arctanharctanh\text{arctanh} z′i=∑j=1..mf−1(aj)−bjwTj,izi′=∑j=1..mf−1(aj)−bjwj,iT z_i' = \sum\limits_{j=1..m} \frac{f^{-1}(a_j)-b_j}{w_{j,i}^T} ここでは、結合された重み、つまりw '= w ^ Tが使用され、入力層に追加のバイアスセットを導入する代わりに、隠れ層のw′=wTw′=wTw' = w^Tバイアスb_jが使用されることに注意してくださいbjbjb_j。 そして、非常に関連する質問:再構成を計算する代わりに、フィーチャを視覚化するために、通常、隠れ層の次元を使用して単位行列を作成します。次に、行列の各列を再活性化関数への入力として使用し、入力ニューロンに出力を誘導します。再活性化関数については、同じ活性化関数(またはziziz_i)または逆関数(それぞれz′izi′z'_i)を使用する方が良いでしょうか?

1
Python Seaborn:エラーバーはバープロットでどのように計算されますか?
Pythonで棒グラフを生成するためにseabornライブラリを使用しています。エラーバーの計算にどの統計情報が使用されているのかと思いますが、Seabornのbarplotのドキュメントでこれに関する参照を見つけることができません。 私の場合はバーの値が平均に基づいて計算されることを知っています(既定のオプション)。エラーバーは正規分布の95%信頼区間に基づいて計算されると思いますが、確認したいと思います。


2
Rで水平ボックスプロットを視覚化する
このようなデータセットがあります。データはアンケートを通じて収集されたので、いくつかの予備的なデータ分析を行います。 windows &lt;- c("yes", "no","yes","yes","no") sql &lt;- c("no","yes","no","no","no") excel &lt;- c("yes","yes","yes","no","yes") salary &lt;- c(100,200,300,400,500 ) test&lt;- as.data.frame (cbind(windows,sql,excel,salary),stringsAsFactors=TRUE) test[,"salary"] &lt;- as.numeric(as.character(test[,"salary"] )) データセットに結果変数(給与)といくつかの入力変数(ツール)があります。次のように水平ボックスプロットを視覚化するにはどうすればよいですか。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.