データサイエンス data

1

xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか？

私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木（！）1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、下記参照。 XGBoostがこれほど速くなったのはなぜですか？sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか？それとも、「角を切り」、より浅い木を育てるのですか？ PS私はこの議論を知っています：https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

1

Kerasのfit関数のvalidation_splitパラメーターはどのように機能しますか？

Kerasシーケンシャルモデルフィット関数の検証分割は、https：//keras.io/models/sequential/に次のように文書化されています。 validation_split：0から1の間で浮動します。検証データとして使用されるトレーニングデータの割合。モデルは、トレーニングデータのこの部分を分離し、トレーニングを行わず、各エポックの終わりにこのデータの損失とモデルメトリックを評価します。検証データは、シャッフルする前に、提供されたxおよびyデータの最後のサンプルから選択されます。最後の行に注意してください：検証データは、シャッフルする前に、提供されたxおよびyデータの最後のサンプルから選択されます。検証データは常に固定され、メインデータセットの下部から取得されるということですか？メインデータセットから特定の割合のデータをランダムに選択する方法はありますか？

17 keras data cross-validation

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

パンダは現在data.tableよりも高速ですか？

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping data.tableベンチマークは2014年以降更新されていません。それがどこPandasよりも速いと聞いたことがありdata.tableます。これは本当ですか？誰もベンチマークをしましたか？Pythonを使ったことがありませんpandasが、勝てるなら切り替えを検討しdata.tableますか？

15 python r pandas data data.table

1

決定木の連続変数の分割点はどのように選択されますか？

デシジョンツリーに関連する2つの質問があります。連続属性がある場合、分割値をどのように選択しますか？例：Age =（20,29,50,40 ....）値を持つ連続属性があると想像してください。をで分割するときに最小ゲインを得るために、分割点を見つけるアルゴリズムを作成するにはどうすればよいですか？R v f v f > vfffRRRvvvfffvvvf> vf>vf>v

14 classification data decision-trees

5

最新のRおよび/またはPythonライブラリはSQLを廃止しますか？

私は、SQL Serverがデータ処理からクリーニング、変更まで、私たちが行うすべてのバックボーンであるオフィスで働いています。私の同僚は、着信データを標準化してレポート、視覚化、および分析プロジェクトで使用できるように、複雑な関数とストアドプロシージャの作成を専門にしています。ここから始める前は、最も基本的なクエリを書くことは別として、SQLの経験はほとんどありませんでした。私の分析準備作業の大部分はすべてRで行われました。上司は、Rを使用してより効率的かつはるかに少ないコード行では実行できない割り当てが非常に少ないように思えても、SQLスキルを向上させると主張していますdplyr、data.table、tidyrなどのパッケージ（いくつか例を挙げると）。私の質問は、これは理にかなっていますか？数週間前、特定の条件を満たすテーブル内の各行の列名のリストを取得し、それらを文字列のベクトルに連結するタスクに直面しました。厳しい締め切りがあり、その時、私はいくつかの閉塞を経験していたので、問題を完全に解決することができませんでした。上司に尋ねたところ、上司は同僚に問題を解決するためのスクリプトTSQLを書くように頼みました。彼がそれに取り組んでいる間に、私はRでそれを行う方法を見つけて、かなり単純な関数を作成し、それをデータフレームに適用しました。私の同僚は、約2時間後にスクリプトで戻ってきました。ネストされた2つのforループを含む少なくとも75行でした。私は彼に、実行が終了したときに通知するように頼み、数時間かかると言いました。一方、私のRスクリプトは、約30秒で〜45,000レコードをループできました。データのクリーニングと変更には、Rのほうがはるかに良い選択だと思いますか？おそらく私のオフィスのSQL開発者は不適当でしょうか？RとSQLの両方（またはPythonとSQLの両方）を扱った人がこれについて何か考えを持っている場合、私は興味があります。

14 python r data-cleaning data sql

3

Python用のすぐに使える優れた言語モデルはありますか？

私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。すぐに使用できるPythonのトレーニング済み言語モデルはありますか？のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン（ニュースだけでなく）の結果を実際に信頼できるもの

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

機械学習モデルをトレーニングするのに十分な量のデータはありますか？

私はしばらくの間機械学習とバイオインフォマティクスに取り組んできましたが、今日、データマイニングの主な一般的な問題について同僚と会話しました。私の同僚（機械学習のエキスパート）は、彼の意見では、機械学習の間違いなく最も重要な実用的な側面は、機械学習モデルをトレーニングするのに十分なデータを収集したかどうかを理解する方法だと述べました。私はこの側面をそれほど重視していなかったので、この発言は私を驚かせました... その後、インターネットで詳細情報を探したところ、FastML.comのレポートで、この投稿は経験則として、機能の約10倍のデータインスタンスが必要であることがわかりました。 2つの質問： 1-この問題は機械学習に特に関連していますか？ 2 - 10倍の作業を支配ですか？このテーマに関連する他のソースはありますか？

11 machine-learning data-mining dataset data-cleaning data

2

多数の機能を備えたロジスティック回帰を実行するにはどうすればよいですか？

330のサンプルと各サンプルに27の特徴を持つデータセットがあり、ロジスティック回帰のバイナリクラスの問題があります。「10の場合のルール」によると、各機能を含めるには少なくとも10のイベントが必要です。しかし、私は20％の陽性クラスと80％の陰性クラスの不均衡なデータセットを持っています。その結果、イベントは70件になり、ロジスティックモデルに含めることができる機能は約7/8だけになります。すべての機能を予測変数として評価したいのですが、機能を手動で選択したくありません。それであなたは何を提案しますか？7つの機能をすべて組み合わせる必要がありますか？アソシエーションモデルで各機能を単独で評価し、最終的なモデルに最適な機能のみを選択する必要がありますか？カテゴリカルな機能と継続的な機能の扱いについても知りたいのですが、混在させることはできますか？カテゴリー[0-1]と連続[0-100]がある場合、正規化する必要がありますか？私は現在Pythonを使用しています。あなたの助けをありがとう！

10 machine-learning python predictive-modeling logistic-regression data

3

数学の畳み込みとCNNの関係

畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか？gウェイトをかけるフィルターのような機能ですか？

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

4

機能の重要性に照らしてディシジョンツリーを解釈する

私は、sklearnで構築された決定木分類モデルの決定プロセスを完全に理解する方法を理解しようとしています。私が見ている2つの主な側面は、ツリーのgraphviz表現と機能の重要度のリストです。私が理解していないのは、ツリーのコンテキストで機能の重要度がどのように決定されるかです。たとえば、これは私の機能の重要性のリストです：機能のランク：1. FeatureA（0.300237） FeatureB（0.166800） FeatureC（0.092472） FeatureD（0.075009） FeatureE（0.068310） FeatureF（0.067118） FeatureG（0.066510） FeatureH（0.043502）フィーチャーI（0.040281） FeatureJ（0.039006） FeatureK（0.032618） FeatureL（0.008136） FeatureM（0.000000）しかし、ツリーの一番上を見ると、次のようになっています。実際、「最も重要」にランク付けされた機能の一部は、ツリーのずっと下まで表示されません。ツリーの上部は、最も低いランクの機能の1つであるFeatureJです。私の素朴な仮定は、最も重要な機能が最大の影響を与えるためにツリーの上部近くにランク付けされるということです。それが正しくない場合、機能を「重要」にするのは何ですか？

9 machine-learning visualization scikit-learn data decision-trees

2

列の値がNaNの場合に行全体を削除する方法[終了]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、 Data Science Stack Exchangeのトピックとなるようにします。 2年前休業。列に関連するNaN値を含むすべての行を削除します。次のようなデータセットがあるとしましょう： Age Height Weight Gender 12 5'7 NaN M NaN 5'8 160 M 32 5'5 165 NaN 21 NaN 155 F 55 5'10 170 NaN 「Gender」にNaN値があるすべての行を削除したい。私が望む出力： Age Height Weight Gender 12 5'7 NaN M NaN 5'8 160 M 21 NaN 155 F …

8 machine-learning python data-cleaning data

3

データサイエンス向けDocker

最近、Dockerに関する記事を読み始めました。私にとって、データサイエンスでは、Dockerは次の理由で役立ちます。 1）まったく異なる環境があり、ライブラリーと依存関係の問題から保護されている。 2）たとえば、アプリケーションが会社のデータベースを変更する場合、まずコードが正常に機能し、データベースに悪影響を及ぼさないことを確認する必要があります。したがって、最初にDockerを使用してコードをテストします。私の質問： 2つ目の理由はサンドボクシングについてだけだと言ってもよろしいですか。最初の理由は、サンドボクシングとは関係ありませんよね？ Dockerがデータサイエンスで役立つ他の理由はありますか？データサイエンスのためのDockerに関する興味深い研究論文はあまり見つかりません。有名なものを知っていますか？

7 data

6

2つのデータセットを結合することをお勧めしますか？

2つの異なる場所（正確には2つの異なる大陸）で記録された被験者の心拍数に関する2つのデータセットがあります。2つの研究実験は、時間の経過に伴う心拍数の変化に基づいて被験者の感情を見つけることを目的としています。被験者の感情を予測するために機械学習を使用していて、各データセットで個別にテストすると、許容できる結果が得られます。ただし、2つのデータセットをマージすると、さらに良い結果が得られます。ただし、2つのデータセットの組み合わせが許容できるかどうかはわかりません。どういうわけか2つの異なるデータセットを組み合わせているので、統計的バイアスが発生しますか？調査結果をジャーナルペーパーでどのように報告すればよいですか？

7 data machine-learning-model

タグ付けされた質問 「data」

タグ付けされた質問「data」