タグ付けされた質問 「visualization」

データの意味のある有用なグラフィック表現を構築します。(あなたの質問が特定のソフトウェアに特定の効果を生み出す方法だけに関するものであるなら、それはおそらくここでは話題になりません。)


3
パンダとの相関行列の計算と可視化
いくつかのエントリを持つパンダデータフレームがあり、あるタイプの店舗の収入間の相関関係を計算したいと思います。収入データ、活動エリアの分類(劇場、衣料品店、食品など)およびその他のデータを備えた店舗が多数あります。 新しいデータフレームを作成し、同じカテゴリに属する​​すべての種類の店舗の収入を含む列を挿入しようとしましたが、返されるデータフレームには最初の列のみが入力され、残りはNaNでいっぱいです。私が疲れたコード: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] そうしたいので、.corr()店舗のカテゴリ間の相関行列を与えるために使用できます。 その後、matplolibでマトリックス値(ピアソンの相関を使用するため、-1から1)をプロットする方法を知りたいと思います。

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

7
高次元データを視覚化する目的は?
T-SNE、isomap、PCA、教師付きPCAなど、高次元のデータセットを視覚化するための多くの手法があります。また、データを2Dまたは3D空間に投影する動作を行っているため、 「。これらの埋め込み(多様体学習)メソッドのいくつかをここで説明します。 しかし、この「きれいな絵」は実際に意味があるのでしょうか?この埋め込まれた空間を視覚化することで、誰かがどのような洞察をつかむことができますか? この埋め込まれた空間への投影は通常無意味だからです。たとえば、PCAによって生成された主成分にデータを投影する場合、それらの主成分(eiganvectors)はデータセット内のフィーチャに対応しません。それらは独自の機能スペースです。 同様に、t-SNEは、KLの発散を最小限に抑えるためにアイテムが互いに近くにあるスペースにデータを投影します。これはもはや元の機能空間ではありません。(間違っている場合は修正してください。ただし、分類を支援するためにt-SNEを使用するMLコミュニティの大きな努力はないと思います。ただし、これはデータの視覚化とは異なる問題です。) なぜこれらの視覚化のいくつかについて人々がそんなに大したことをするのか、私は非常に大きく混乱しています。

3
複雑なレーダーチャートを作成するにはどうすればよいですか?
そのため、次のようなプレイヤープロファイルレーダーチャートを作成します。 各変数のスケールが異なるだけでなく、「廃棄された」統計など、実際にはあまり意味のない統計の逆スケールも必要です。 各統計の可変スケールの1つのソリューションは、ベンチマークを設定し、100のスケールでスコアを計算することです。 しかし、実際の数字をチャートに表示するにはどうすればよいですか?また、一部の統計について逆スケールを取得するにはどうすればよいですか。 現在、Excelで作業しています。このような複雑なグラフを作成するための最も強力なツールは何ですか?

7
100万の頂点を持つグラフを視覚化する
1000000の頂点を持つグラフを視覚化(頂点とエッジを描画)するために使用する最適なツールは何ですか?グラフには約50000のエッジがあります。そして、個々の頂点とエッジの位置を計算できます。 svgを生成するプログラムを書くことを考えています。他の提案はありますか?

6
Rでダッシュボードを生成するには何を使用しますか?
定期的(毎日、毎月)のWeb分析ダッシュボードレポートを生成する必要があります。それらは静的であり、相互作用を必要としませんので、ターゲット出力としてPDFファイルを想像してください。レポートには、テーブルとチャート(主にggplot2で作成されたスパークラインとブレットグラフ)が混在します。次のようなStephen Few / Perceptual Edgeスタイルのダッシュボードを考えてください。 ただし、ウェブ分析に適用されます。 これらのダッシュボードレポートの作成に使用するパッケージに関する提案はありますか? 私の最初の直観は、Rマークダウンとknitrを使用することですが、おそらくより良い解決策を見つけたでしょう。Rから生成されたダッシュボードの豊富な例を見つけることができないようです。
17 r  visualization 

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
T-SNEの視覚化では、より近いポイントをより類似していると見なすことができますか?
ヒントンの論文から、T-SNEはローカルの類似性を維持するのに優れた仕事をしており、グローバル構造(クラスター化)を維持するのにまともな仕事をしていることがわかります。 ただし、2D t-sneビジュアライゼーションでより近くに表示されるポイントを「より類似した」データポイントと見なすことができるかどうかはわかりません。25個の機能を持つデータを使用しています。 例として、下の画像を観察すると、青色のデータポイントが緑色のデータポイント、特に最大の緑色のポイントクラスターに似ていると仮定できますか?または、別の質問として、青い点が他のクラスターの赤い点よりも、最も近いクラスターの緑の点に似ていると仮定しても大丈夫ですか?(赤みがかったクラスターの緑の点は無視) sci-kit learn Manifold learningで提示されているような他の例を観察するとき、これを仮定するのは正しいように思えますが、統計的に正しいかどうかはわかりません。 編集 元のデータセットからの距離を手動で計算し(ペアワイズ平均ユークリッド距離)、視覚化は実際にデータセットに関する比例空間距離を表します。しかし、これは単なる偶然ではなく、t-sneの元の数学的定式化から予想されることがかなり許容できるかどうかを知りたいと思います。

1
Pythonのマップ上のヒートマップ
モード分析には、優れたヒートマップ機能があります(https://community.modeanalytics.com/gallery/geographic-heat-map/)。ただし、マップの比較には役立ちません(レポートごとに1つのみ)。 許可されているのは、ラップされたpythonノートブックにデータを簡単に取り込むことです。そして、Pythonの任意の画像を簡単にレポートに追加できます。 私の質問は次のとおりです。Pythonで実際のマップにヒートマップを再作成するにはどうすればよいですか。私はfolliumとplotlyをチェックアウトしましたが、どちらも同様の機能を持っているようには見えません。

2
ディープニューラルネットワークトレーニングの視覚化
トレーニング中に重みをプロットするために、多層ネットワーク用のヒントン図に相当するものを見つけようとしています。 訓練されたネットワークは、Deep SRNに多少似ています。つまり、複数のヒントンダイアグラムの同時プロットを視覚的に混乱させる多数のウェイトマトリックスがあります。 誰もが複数のレイヤーを持つリカレントネットワークの重み更新プロセスを視覚化する良い方法を知っていますか? このトピックに関する論文はあまり見当たりません。何かが思いつかない場合は、代わりにレイヤーごとの重みに時間関連の情報を表示することを考えていました。たとえば、各レイヤーの経時的な重みの差分(すべての単一接続の使用を省略します)。PCAは別の可能性です。ただし、視覚化はトレーニング中にオンラインで行われるため、あまり多くの計算を行わないようにします。

2
航空運賃-競争力のある価格設定行動と価格の相関関係を検出するには、どのような分析を使用する必要がありますか?
航空会社の価格設定行動、特に競合他社の価格設定に対する航空会社の反応を調査したいと思います。 より複雑な分析についての私の知識はかなり限られていると言えますが、データの全体的なビューを収集するために、ほとんどすべての基本的な方法を実行しました。これには、類似のパターンを識別するのにすでに役立つ簡単なグラフが含まれます。SAS Enterprise 9.4も使用しています。 しかし、私はより多くの数値ベースのアプローチを探しています。 データセット 私が使用している(自己)収集データセットには、約54.000の運賃が含まれています。すべての運賃は、毎日(毎晩00:00)60日以内に収集されました。 したがって、その時間枠内のすべての運賃は、運賃の利用可能日および運賃の回収日までに通過するフライトの出発日を条件としてnnn回発生します。 (フライトの出発日が過去の場合、フライトの運賃を徴収することはできません) 基本的に次のように見える書式なし:(偽のデータ) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


3
ソーシャルネットワークの成長をアニメーション化する方法
新しいノード/エッジが追加されたときにソーシャルネットワークがどのように変化するかを視覚化するライブラリ/ツールを探しています。 既存のソリューションの1つは、SoNIA:Social Network Image Animatorです。このような映画を作ってみましょう。 SoNIAのドキュメントには、現時点では壊れていると記載されています。これに加えて、代わりにJavaScriptベースのソリューションを使用することをお勧めします。だから、私の質問は:あなたは任意のツールに精通していますか、またはこのタスクをできるだけ簡単にするいくつかのライブラリを私に示すことができますか? この質問を投稿したらすぐにsigma.jsを掘り下げますので、このライブラリがカバーされていると考えてください。 一般的に、私の入力データは次のようになります。 time_elapsed; node1; node2 1; A; B 2; A; C 3; B; C したがって、ここでは3つの時点(1、2、3)、3つのノード(A、B、C)、および3つのエッジがあり、これらは3つの考慮されたノード間の3つの閉合を表します。 さらに、すべてのノードには2つの属性(年齢と性別)があるため、ノードの形状/色を変更できるようにしたいと思います。 また、新しいノードを追加した後、グラフのレイアウトを調整するためのForceAtlas2または同様のアルゴリズムを用意するのが最適です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.