タグ付けされた質問 「programming」

9
RプログラミングのIDEの代替(RStudio、IntelliJ IDEA、Eclipse、Visual Studio)
RプログラミングにはRStudioを使用しています。Visual StudioやEclipseなど、他のテクノロジースタックの堅牢なIDEについて覚えています。 2つの質問があります。 RStudio以外のIDE-sが使用されています(それらについての簡単な説明を提供することを検討してください)。 それらのいずれかがRStudioよりも顕著な利点を持っていますか? 私はほとんどの場合、それ自体のコーディングに加えて、デバッグ/ビルド/デプロイ機能を意味します(したがって、テキストエディターはおそらくソリューションではありません)。
46 r  tools  rstudio  programming 

11
C(またはC ++)のデータサイエンス
私はR言語プログラマーです。私は、データサイエンティストと見なされているが、CS以外の学問分野から来た人々のグループにも所属しています。 これは、データサイエンティストとしての私の役割ではうまく機能しますが、R他のスクリプト/ Web言語の基本的な知識しか持たずにキャリアを開始することにより、2つの重要な分野でやや不十分だと感じました。 プログラミング理論の確かな知識の欠如。 競争力のあるような、より速く、より広く使われている言語のスキルのレベルの欠如C、C++およびJavaパイプラインとビッグデータの計算を高速化するだけでなく、より容易に高速に開発することができDS /データ製品を作成するために利用することができ、バックエンドスクリプトまたはスタンドアロンアプリケーション。 解決策はもちろん簡単です。プログラミングについて学びましょう。これは、いくつかのクラス(現在はCプログラミング)に登録することで行っていることです。 しかし、今私はアドレスの問題#1、#2上記に始めていることを、私は「自分自身を求めて左てるだけのような言語どのように生きているCとC++、データ・サイエンスのため?」。 たとえば、データを非常にすばやく移動し、ユーザーとうまくやり取りできますが、高度な回帰、機械学習、テキストマイニング、その他の高度な統計操作についてはどうでしょうか。 そう。C仕事をすることができます-高度な統計、ML、AI、およびデータサイエンスの他の分野で利用できるツールは何ですか?またはC、Rスクリプトや他の言語を呼び出すことでプログラミングすることで得られる効率のほとんどを失う必要がありますか? 私はこれまでCで見つけた最高のリソースが呼び出されるライブラリであるシャーク与え、C/ C++サポートベクターマシン、線形回帰(ない非線形および多項プロビットのような他の先進回帰、など)、およびその他の最終候補リストを使用する能力を(素晴らしいが)統計関数。

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

6
Excelはデータサイエンスに十分ですか?
私は、Rプログラミング言語を使用して、データサイエンスの入門コースを教える準備を進めています。私の聴衆は、ビジネス科目を専攻する学部生です。典型的なビジネスの学部生は、コンピュータープログラミングの経験はありませんが、Excelを使用するいくつかのクラスを受講しています。 個人的には、コンピューターサイエンスを専攻したため、R(または他のプログラミング言語)に非常に満足しています。しかし、生徒の多くはプログラミング言語を学ぶのが難しいように見えるかもしれないので慎重になると感じています。 私はExcelにある程度精通しています。Excelは単純なデータサイエンスには役立ちますが、学生はデータサイエンス用の本格的なプログラミング言語(RやPythonなど)を学ぶ必要があると考えています。Excelはデータサイエンスを勉強している真面目なビジネス学生には不十分であり、プログラミングを学ぶ必要があると自分自身や学生にどのように説得しますか? コメントに応じて編集 ここで取り上げるトピックの一部を次に示します。 データ処理とデータクリーニング データテーブルの操作方法。たとえば、行のサブセットの選択(フィルター)、新しい変数の追加(変更)、列ごとの行の並べ替え dplyrパッケージを使用したSQL結合 ggplot2パッケージを使用してプロット(散布図、棒グラフ、ヒストグラムなど)を描画する方法 線形回帰、ロジスティック回帰、分類木、k最近傍などの統計モデルを推定および解釈する方法 私はExcelをあまりよく知らないので、これらのタスクのすべてをExcelで簡単に実行できるかどうかはわかりません。

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.