タグ付けされた質問 「software-recommendation」


1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
チーム内でJupyterノートブックを共有する
次の方法でデータサイエンスチームをサポートできるサーバーをセットアップしたいと思います。Jupyterノートブックの保存、バージョニング、共有、および実行の中心点になります。 いくつかの望ましいプロパティ: さまざまなユーザーがサーバーにアクセスし、自分または他のチームメンバーによって保存されたノートブックを開いて実行できます。ここで興味深い質問は、ユーザーXがユーザーYによって作成されたノートブックのセルを実行した場合の動作はどうなるかということです。ノートブックは変更すべきではないと思います。 ソリューションは自己ホスト型である必要があります。 ノートブックは、サーバー、Googleドライブ、またはself-hostedのowncloudインスタンスに保存する必要があります。 (ボーナス)ノートブックはgitバージョン管理下にあります(gitは自己ホストされる場合があります。GitHubまたはそのようなものにバインドすることはできません)。 JupyterHubとBinderを調べました。前者では、クロスユーザーアクセスを許可する方法がわかりませんでした。後者は、ノートブックのストレージとしてGitHubのみをサポートしているようです。 いずれかのソリューションの経験がありますか?


3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 





2
カラーマップから数値データを取得できますか?
私のクラスでは、カラーマップ画像を扱う必要がよくあります。私は画像を表示して、さまざまな主題について推論/観察を試みます。多くの場合、実際にいくつかの側面を定量化する必要がありますが、画像は「現状のまま」提供され、必ずしもアプリオリにその内容を知っているとは限らないため、常に非常に概算であり、どういうわけか曖昧です。 2つの画像(*)で作業しているとしましょう。コンピューターにカラースケールバーを「学習」させて、マップ内の任意のポイントをクリックしてそのポイントの高度の値を取得できるようにすることは可能ですか?画像1は離散的なカラースケールバーで、画像2は連続的なカラーマッピングです。これを行う方法のアプローチに違いがある可能性があるため、両方の例を含めました。 それで、これを行うためのソフトウェア/方法はありますか?できればオープンソース。ImageJを試してみましたが、適切な解決策を思い付くことができませんでした。 画像1: 画像2: ご覧のとおり、すべての場合でカラースケールは画像の一部です。 (*)私はこれらの画像を所有していません。私のポイントを説明するためにオンラインで見つけた例のみを所有しています。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.