タグ付けされた質問 「r」

Rは無料のオープンソースのプログラミング言語であり、統計計算、バイオインフォマティクス、グラフィックスのためのソフトウェア環境です。

15
機械学習のためのPython vs R
学術目的で機械学習アプリケーションを開発し始めたところです。私は現在Rを使用しており、Rで自分を訓練しています。しかし、多くの場所で、Pythonを使用している人を見てきました。 学界や産業界で人々は何を使用していますか?また、推奨事項は何ですか?

1
2つのカテゴリ変数とカテゴリ変数と連続変数の間の相関関係を取得する方法は?
私は回帰モデルを構築していますが、以下を計算して相関を確認する必要があります 2つのマルチレベルカテゴリ変数間の相関 マルチレベルのカテゴリ変数と連続変数の相関 マルチレベルのカテゴリ変数のVIF(分散インフレーション係数) ピアソンは2つの連続変数に対してのみ機能するため、上記のシナリオにピアソン相関係数を使用するのは間違っていると思います。 以下の質問に答えてください 上記の場合に最適な相関係数はどれですか? VIF計算は連続データに対してのみ機能するので、代替手段は何ですか? 提案する相関係数を使用する前に確認する必要がある仮定は何ですか? SAS&Rでそれらを実装する方法は?

9
R言語はビッグデータに適していますか
Rには、データ分析(JAGS、BUGS、ARULESなど)を目的とした多くのライブラリがあり、J.Krusche、Doing Bayesian Data Analysisなどの一般的な教科書で言及されています。B.ランツ、「Rによる機械学習」。 データセットをビッグデータと見なすための5TBのガイドラインを見てきました。 私の質問は次のとおりです。Rはビッグデータの問題で一般的に見られるデータ量に適していますか?このサイズのデータ​​セットでRを使用するときに使用する戦略はありますか?
48 bigdata  r 

9
RプログラミングのIDEの代替(RStudio、IntelliJ IDEA、Eclipse、Visual Studio)
RプログラミングにはRStudioを使用しています。Visual StudioやEclipseなど、他のテクノロジースタックの堅牢なIDEについて覚えています。 2つの質問があります。 RStudio以外のIDE-sが使用されています(それらについての簡単な説明を提供することを検討してください)。 それらのいずれかがRStudioよりも顕著な利点を持っていますか? 私はほとんどの場合、それ自体のコーディングに加えて、デバッグ/ビルド/デプロイ機能を意味します(したがって、テキストエディターはおそらくソリューションではありません)。
46 r  tools  rstudio  programming 

7
データを整理するための組織化されたプロセス
Rを使用したデータサイエンスの限られた時間から、不良データのクリーニングは分析用データの準備の非常に重要な部分であることに気付きました。 データを処理する前にクリーニングするためのベストプラクティスやプロセスはありますか?その場合、これらのベストプラクティスの一部を実装する自動化ツールまたは半自動化ツールはありますか?
34 r  data-cleaning 

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
XGBoostパラメーターのハイパーチューニング
XGBoostは、カテゴリー依存変数と連続従属変数の両方の処理に関して、素晴らしい仕事をしてきました。しかし、XGBoostの問題に対して最適化されたパラメーターを選択するにはどうすればよいですか? これは、最近のKaggleの問題に対するパラメーターの適用方法です。 param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed from default of 8 subsample = 0.5, # 0.7 colsample_bytree = 0.7, # 0.7 num_parallel_tree = 5 # alpha = 0.0001, # lambda = 1 ) clf <- xgb.train( …
27 r  python  xgboost 

5
データサイエンスプロジェクトのVMイメージ
データサイエンスのタスクに使用できるツールは多数あり、すべてをインストールして完璧なシステムを構築するのは面倒です。 Python、R、その他のオープンソースのデータサイエンスツールがインストールされ、すぐに使用できるLinux / Mac OSイメージはありますか?最新バージョンのPython、R(IDEを含む)、およびその他のオープンソースデータ視覚化ツールがインストールされたUbuntuまたは軽量OSが理想的です。私はグーグルでのクイック検索でこれに遭遇していません。 何かあるのか、それともあなたの誰かが自分で作ったのか教えてください。一部の大学には独自のVMイメージがあるかもしれません。そのようなリンクを共有してください。
24 python  r  tools 



6
Rでダッシュボードを生成するには何を使用しますか?
定期的(毎日、毎月)のWeb分析ダッシュボードレポートを生成する必要があります。それらは静的であり、相互作用を必要としませんので、ターゲット出力としてPDFファイルを想像してください。レポートには、テーブルとチャート(主にggplot2で作成されたスパークラインとブレットグラフ)が混在します。次のようなStephen Few / Perceptual Edgeスタイルのダッシュボードを考えてください。 ただし、ウェブ分析に適用されます。 これらのダッシュボードレポートの作成に使用するパッケージに関する提案はありますか? 私の最初の直観は、Rマークダウンとknitrを使用することですが、おそらくより良い解決策を見つけたでしょう。Rから生成されたダッシュボードの豊富な例を見つけることができないようです。
17 r  visualization 

2
共同フィルタリングを使用した追加機能を備えた映画の推奨
協調フィルタリングを使用して推奨システムを構築しようとしています。私はいつもの[user, movie, rating]情報を持っています。「言語」や「映画の長さ」などの追加機能を組み込みたいです。このような問題にどのようなテクニックを使用できるかはわかりません。 python / Rの参照またはパッケージを提案してください。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
xgboostの確率を予測する方法は?
以下の予測関数は-ve値も提供しているため、確率にはなりません。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) グーグルで試しましたpred_s <- predict(bst, x_mat_s2,type="response") が、うまくいきませんでした。 質問 代わりに確率を予測する方法は?

4
R:GPUでの機械学習
GPUを利用してトレーニング速度を改善できるR向けの機械学習パッケージはありますか(Pythonの世界のtheanoのようなもの)? gpuでコードを実行できるgputoolsと呼ばれるパッケージがありますが、機械学習のためのより完全なライブラリを探しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.