データサイエンス supervised-learning

1

xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか？

私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木（！）1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、下記参照。 XGBoostがこれほど速くなったのはなぜですか？sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか？それとも、「角を切り」、より浅い木を育てるのですか？ PS私はこの議論を知っています：https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

5

機械学習で疎データと密データを結合してパフォーマンスを改善する

予測可能なスパースな特徴があり、また予測的ないくつかの濃い特徴があります。これらの機能を組み合わせて、分類器の全体的なパフォーマンスを改善する必要があります。今、これらを一緒にしようとすると、密な特徴が疎な特徴よりも支配する傾向があるため、密な特徴のみのモデルと比較してAUCが1％しか改善されません。誰かが同様の問題に遭遇しましたか？入力を本当に感謝します。私はすでに多くの異なる分類器、分類器の組み合わせ、特徴変換、異なるアルゴリズムでの処理を試しました。助けてくれてありがとう。編集：私はすでにコメントに記載されている提案を試しました。私が観察したのは、データのほぼ45％でスパースフィーチャが非常によく機能し、スパースフィーチャのみで約0.9のAUCが得られることですが、残りのものでは約0.75のAUCで密なフィーチャが良好に機能します。これらのデータセットを分離しようとしましたが、AUCが0.6になるため、モデルを単純にトレーニングして使用する機能を決定することはできません。コードスニペットに関して、私は非常に多くのことを試しましたので、何を正確に共有すべきかわかりません:(

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

2

サポートベクターマシンにはどのような学習問題が適していますか？

サポートベクターマシンを使用して特定の学習問題に取り組むことができることを示す特徴または特性は何ですか？言い換えれば、学習の問題を見ると、ニューラルネットワークやデシジョンツリーなどではなく、「これには間違いなくSVMを使用する必要があります」ということになります。

16 machine-learning svm supervised-learning unsupervised-learning

1

単純な自己運転RCカーの教師あり学習と強化学習

私は楽しみのために遠隔操作の自動運転車を作っています。オンボードコンピューターとしてRaspberry Piを使用しています。また、車の周囲のフィードバックのために、Raspberry Piカメラや距離センサーなどのさまざまなプラグインを使用しています。OpenCVを使用してビデオフレームをテンソルに変換し、GoogleのTensorFlowを使用して複雑なニューラルネットワークを構築し、道路の境界と障害物を学習しています。私の主な質問は、教師付き学習を使用して車に運転を教えるべきですか、または目標と罰則を提供し、強化学習を行う必要がありますか？以下は、私が思いついた長所と短所のリストです。教師付き学習プロ：学習アルゴリズムへの入力は非常に簡単です。車は、ビデオフレームテンソルとセンサー距離の読み取り値を前方、後方、および角度のホイール変位に関連付けることを学習します私は多かれ少なかれ自分の思い通りに運転するように車を教えることができます（もちろん、オーバーフィッティングなしで）私はこれまでに多くの教師付き学習問題を行ってきましたが、このアプローチは既存のスキルセットに快適に適合するようです教師付き学習の短所：速度をどのように教えるかは明確ではありません。正しい速度は、車があまり速く進まないので、道を逸れる限り、かなりarbitrary意的です。トレーニング中は速く走れると思いますが、これは粗雑なアプローチのようです。トレーニング中にそのトレーニングセッションの速度に対応する定数変数を手動で追加し、学習アルゴリズムを展開するときに、必要な速度に応じてこの変数を設定できますか？強化学習のプロ：他の人の自動運転車をレースするという特定の目的で車を構築する場合、強化学習は私の車に「できるだけ早くそこに着く」ように言う自然な方法のようです私はRLが自律型ドローンに時々使用されることを読んだことがあるので、理論的には車の方が簡単だと思います。強化学習の短所：強化学習には多くの追加センサーが必要だと感じており、率直に言って、足の長い車にはバッテリー、Raspberry Pi、ブレッドボードを取り付ける必要があることを考えると、それほどスペースがありません車は最初は非常に不規則に振る舞うため、それ自体が破壊される可能性があります。また、学習に不当に長い時間がかかる場合があります（たとえば、数か月または数年）たとえば、おもちゃの赤信号に立ち寄るなど、明示的なルールを組み込むことはできません。教師あり学習により、多数のSLアルゴリズム（ストップライトを識別するHaar Cascade分類器など）を、各ビデオフレーム間で評価される構成可能なルールエンジンに組み込むことができました。したがって、ルールエンジンは、ストップライトがドライビングアルゴリズムのトレーニングの一部ではない場合でも、赤いストップライトが表示された場合、ドライビングSLアルゴリズムをオーバーライドできます。RLはこれを行うには連続しすぎているようです（つまり、最終状態でのみ停止します）適用された強化学習の経験はあまりありませんが、関係なくそれを学びたいです

12 reinforcement-learning supervised-learning

2

scikitのmax_depthは、決定木の枝刈りと同等ですか？

決定木を使って作成した分類器を分析していました。scikitのディシジョンツリーには、max_depthというチューニングパラメータがあります。これは決定木の枝刈りに相当しますか？そうでない場合、scikitを使用してディシジョンツリーをプルーニングするにはどうすればよいですか？ dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

10 machine-learning python scikit-learn decision-trees supervised-learning

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

見込み客の採点モデルのアイデア

クライアントに転向する可能性が高い見込み顧客（企業）を特定するためのモデルについて考えなければならないのですが、どのようなモデルが有用かについてのアドバイスを探しています。私は私の知る限り、ある必要がありますデータベースは、（私はそれらをまだ持っていない）list of current clients（換言すれば、converted prospectsその機能（）とsize、revenue、age、location、および、そのようなもの）list of prospects私はスコアに持っている（ということ）とその機能。ただし、以前は見込み客でしたが、クライアントへの変換に失敗した企業のリストはありません（もしそうだった場合は、ランダムフォレストを選択できたと思います。もちろん、ランダムフォレストを使用しますが、2つのデータベースの結合でランダムフォレストを実行し、クライアントをconverted見込み顧客として扱うことは悪い考えだと思いますnon-converted...）ですから、見込み客のリストから、既存のクライアントのように見える人を見つける必要があります。それにはどのようなモデルを使用できますか？（「クライアントの価値を評価し、これを同様の見込み客に適用する」、「各見込み客が廃業する可能性を評価する」などの点についても検討して、スコアリングの価値をさらに絞り込みますが、それはちょっと私の質問の範囲外です）。ありがとう

8 machine-learning predictive-modeling supervised-learning unsupervised-learning

1

入力数が柔軟なニューラルネットワーク？

入力が異なる長さのベクトルである場合、一貫した出力を提供するニューラルネットワークを作成することは可能ですか？私は現在、さまざまな長さのオーディオファイルを多数サンプリングし、ニューラルネットワークをトレーニングして、特定の入力で必要な出力が得られる状況にあります。異なる番号の入力を行う、長さが異なるオーディオファイルのサンプルを指定して、MFCC機能を生成できる回帰ネットワークを作成しようとしています。

7 neural-network regression tensorflow supervised-learning audio-recognition

2

マッチングに利用できる教師あり学習アルゴリズムはどれですか？

私は非営利団体に取り組んでいます。そこでは、経験/知恵を共有したい卒業生と彼らをマッチングすることによって、潜在的な大学の応募者を支援しようとしています。現時点では、それは手動で行われています。そのため、2つのテーブルを用意します。1つは学生用で、もう1つは卒業生用です（いくつかの機能は共通しているかもしれませんが、必ずしもすべてではない場合があります）。 NameKathyTommyRuth...GenderFMF...Height165182163...NameGenderHeightKathyF165TommyM182RuthF163.........\begin{array}{|l|c|c|} \text{Name} & \text{Gender} & \text{Height} \\ \hline \text{Kathy} & F & 165 \\ \hline \text{Tommy} & M & 182 \\ \hline \text{Ruth} & F & 163 \\ \hline ... & ... & ... \\ \end{array} NameMiss LucyMiss GeraldineMiss Emily...GenderFFF...Weight657060...NameGenderWeightMiss LucyF65Miss GeraldineF70Miss EmilyF60.........\begin{array}{|l|c|c|} \text{Name} & \text{Gender} & \text{Weight} \\ …

7 machine-learning beginner similarity supervised-learning recommender-system

タグ付けされた質問 「supervised-learning」

タグ付けされた質問「supervised-learning」