データサイエンス r

15

学術目的で機械学習アプリケーションを開発し始めたところです。私は現在Rを使用しており、Rで自分を訓練しています。しかし、多くの場所で、Pythonを使用している人を見てきました。学界や産業界で人々は何を使用していますか？また、推奨事項は何ですか？

101 machine-learning r python

1

2つのカテゴリ変数とカテゴリ変数と連続変数の間の相関関係を取得する方法は？

私は回帰モデルを構築していますが、以下を計算して相関を確認する必要があります 2つのマルチレベルカテゴリ変数間の相関マルチレベルのカテゴリ変数と連続変数の相関マルチレベルのカテゴリ変数のVIF（分散インフレーション係数）ピアソンは2つの連続変数に対してのみ機能するため、上記のシナリオにピアソン相関係数を使用するのは間違っていると思います。以下の質問に答えてください上記の場合に最適な相関係数はどれですか？ VIF計算は連続データに対してのみ機能するので、代替手段は何ですか？提案する相関係数を使用する前に確認する必要がある仮定は何ですか？ SAS＆Rでそれらを実装する方法は？

63 r statistics correlation

9

R言語はビッグデータに適していますか

Rには、データ分析（JAGS、BUGS、ARULESなど）を目的とした多くのライブラリがあり、J.Krusche、Doing Bayesian Data Analysisなどの一般的な教科書で言及されています。B.ランツ、「Rによる機械学習」。データセットをビッグデータと見なすための5TBのガイドラインを見てきました。私の質問は次のとおりです。Rはビッグデータの問題で一般的に見られるデータ量に適していますか？このサイズのデータセットでRを使用するときに使用する戦略はありますか？

48 bigdata r

9

RプログラミングのIDEの代替（RStudio、IntelliJ IDEA、Eclipse、Visual Studio）

RプログラミングにはRStudioを使用しています。Visual StudioやEclipseなど、他のテクノロジースタックの堅牢なIDEについて覚えています。 2つの質問があります。 RStudio以外のIDE-sが使用されています（それらについての簡単な説明を提供することを検討してください）。それらのいずれかがRStudioよりも顕著な利点を持っていますか？私はほとんどの場合、それ自体のコーディングに加えて、デバッグ/ビルド/デプロイ機能を意味します（したがって、テキストエディターはおそらくソリューションではありません）。

46 r tools rstudio programming

7

データを整理するための組織化されたプロセス

Rを使用したデータサイエンスの限られた時間から、不良データのクリーニングは分析用データの準備の非常に重要な部分であることに気付きました。データを処理する前にクリーニングするためのベストプラクティスやプロセスはありますか？その場合、これらのベストプラクティスの一部を実装する自動化ツールまたは半自動化ツールはありますか？

34 r data-cleaning

1

xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか？

私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木（！）1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、下記参照。 XGBoostがこれほど速くなったのはなぜですか？sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか？それとも、「角を切り」、より浅い木を育てるのですか？ PS私はこの議論を知っています：https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

XGBoostパラメーターのハイパーチューニング

XGBoostは、カテゴリー依存変数と連続従属変数の両方の処理に関して、素晴らしい仕事をしてきました。しかし、XGBoostの問題に対して最適化されたパラメーターを選択するにはどうすればよいですか？これは、最近のKaggleの問題に対するパラメーターの適用方法です。 param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed from default of 8 subsample = 0.5, # 0.7 colsample_bytree = 0.7, # 0.7 num_parallel_tree = 5 # alpha = 0.0001, # lambda = 1 ) clf <- xgb.train( …

27 r python xgboost

5

データサイエンスプロジェクトのVMイメージ

データサイエンスのタスクに使用できるツールは多数あり、すべてをインストールして完璧なシステムを構築するのは面倒です。 Python、R、その他のオープンソースのデータサイエンスツールがインストールされ、すぐに使用できるLinux / Mac OSイメージはありますか？最新バージョンのPython、R（IDEを含む）、およびその他のオープンソースデータ視覚化ツールがインストールされたUbuntuまたは軽量OSが理想的です。私はグーグルでのクイック検索でこれに遭遇していません。何かあるのか、それともあなたの誰かが自分で作ったのか教えてください。一部の大学には独自のVMイメージがあるかもしれません。そのようなリンクを共有してください。

24 python r tools

9

オンラインRコンソールはありますか？

言語Rのオンラインコンソールを探しています。コードを記述すると、サーバーが実行され、出力が提供されます。 WebサイトDatacampに似ています。

24 r statistics

3

R tidyrツールに似たpython / pandas用のデータ整理ツールはありますか？

一部の変数が列ではなく行で表されるKaggleチャレンジに取り組んでいます（Telstra Network Disruption）。R tidyrツールにあるcollect（）、separate（）、spread（）に相当するものを現在探しています。

18 r python dataset data-cleaning pandas

6

Rでダッシュボードを生成するには何を使用しますか？

定期的（毎日、毎月）のWeb分析ダッシュボードレポートを生成する必要があります。それらは静的であり、相互作用を必要としませんので、ターゲット出力としてPDFファイルを想像してください。レポートには、テーブルとチャート（主にggplot2で作成されたスパークラインとブレットグラフ）が混在します。次のようなStephen Few / Perceptual Edgeスタイルのダッシュボードを考えてください。ただし、ウェブ分析に適用されます。これらのダッシュボードレポートの作成に使用するパッケージに関する提案はありますか？私の最初の直観は、Rマークダウンとknitrを使用することですが、おそらくより良い解決策を見つけたでしょう。Rから生成されたダッシュボードの豊富な例を見つけることができないようです。

17 r visualization

2

共同フィルタリングを使用した追加機能を備えた映画の推奨

協調フィルタリングを使用して推奨システムを構築しようとしています。私はいつもの[user, movie, rating]情報を持っています。「言語」や「映画の長さ」などの追加機能を組み込みたいです。このような問題にどのようなテクニックを使用できるかはわかりません。 python / Rの参照またはパッケージを提案してください。

16 python r recommender-system

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

xgboostの確率を予測する方法は？

以下の予測関数は-ve値も提供しているため、確率にはなりません。 param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) グーグルで試しましたpred_s <- predict(bst, x_mat_s2,type="response") が、うまくいきませんでした。質問代わりに確率を予測する方法は？

16 machine-learning r predictive-modeling decision-trees

4

R：GPUでの機械学習

GPUを利用してトレーニング速度を改善できるR向けの機械学習パッケージはありますか（Pythonの世界のtheanoのようなもの）？ gpuでコードを実行できるgputoolsと呼ばれるパッケージがありますが、機械学習のためのより完全なライブラリを探しています。

15 machine-learning r gpu

タグ付けされた質問 「r」

タグ付けされた質問「r」