タグ付けされた質問 「supervised-learning」

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
機械学習で疎データと密データを結合してパフォーマンスを改善する
予測可能なスパースな特徴があり、また予測的ないくつかの濃い特徴があります。これらの機能を組み合わせて、分類器の全体的なパフォーマンスを改善する必要があります。 今、これらを一緒にしようとすると、密な特徴が疎な特徴よりも支配する傾向があるため、密な特徴のみのモデルと比較してAUCが1%しか改善されません。 誰かが同様の問題に遭遇しましたか?入力を本当に感謝します。私はすでに多くの異なる分類器、分類器の組み合わせ、特徴変換、異なるアルゴリズムでの処理を試しました。 助けてくれてありがとう。 編集: 私はすでにコメントに記載されている提案を試しました。私が観察したのは、データのほぼ45%でスパースフィーチャが非常によく機能し、スパースフィーチャのみで約0.9のAUCが得られることですが、残りのものでは約0.75のAUCで密なフィーチャが良好に機能します。これらのデータセットを分離しようとしましたが、AUCが0.6になるため、モデルを単純にトレーニングして使用する機能を決定することはできません。 コードスニペットに関して、私は非常に多くのことを試しましたので、何を正確に共有すべきかわかりません:(

2
サポートベクターマシンにはどのような学習問題が適していますか?
サポートベクターマシンを使用して特定の学習問題に取り組むことができることを示す特徴または特性は何ですか? 言い換えれば、学習の問題を見ると、ニューラルネットワークやデシジョンツリーなどではなく、「これには間違いなくSVMを使用する必要があります」ということになります。

1
単純な自己運転RCカーの教師あり学習と強化学習
私は楽しみのために遠隔操作の自動運転車を作っています。オンボードコンピューターとしてRaspberry Piを使用しています。また、車の周囲のフィードバックのために、Raspberry Piカメラや距離センサーなどのさまざまなプラグインを使用しています。OpenCVを使用してビデオフレームをテンソルに変換し、GoogleのTensorFlowを使用して複雑なニューラルネットワークを構築し、道路の境界と障害物を学習しています。私の主な質問は、教師付き学習を使用して車に運転を教えるべきですか、または目標と罰則を提供し、強化学習を行う必要がありますか?以下は、私が思いついた長所と短所のリストです。 教師付き学習プロ: 学習アルゴリズムへの入力は非常に簡単です。車は、ビデオフレームテンソルとセンサー距離の読み取り値を前方、後方、および角度のホイール変位に関連付けることを学習します 私は多かれ少なかれ自分の思い通りに運転するように車を教えることができます(もちろん、オーバーフィッティングなしで) 私はこれまでに多くの教師付き学習問題を行ってきましたが、このアプローチは既存のスキルセットに快適に適合するようです 教師付き学習の短所: 速度をどのように教えるかは明確ではありません。正しい速度は、車があまり速く進まないので、道を逸れる限り、かなりarbitrary意的です。トレーニング中は速く走れると思いますが、これは粗雑なアプローチのようです。トレーニング中にそのトレーニングセッションの速度に対応する定数変数を手動で追加し、学習アルゴリズムを展開するときに、必要な速度に応じてこの変数を設定できますか? 強化学習のプロ: 他の人の自動運転車をレースするという特定の目的で車を構築する場合、強化学習は私の車に「できるだけ早くそこに着く」ように言う自然な方法のようです 私はRLが自律型ドローンに時々使用されることを読んだことがあるので、理論的には車の方が簡単だと思います。 強化学習の短所: 強化学習には多くの追加センサーが必要だと感じており、率直に言って、足の長い車にはバッテリー、Raspberry Pi、ブレッドボードを取り付ける必要があることを考えると、それほどスペースがありません 車は最初は非常に不規則に振る舞うため、それ自体が破壊される可能性があります。また、学習に不当に長い時間がかかる場合があります(たとえば、数か月または数年) たとえば、おもちゃの赤信号に立ち寄るなど、明示的なルールを組み込むことはできません。教師あり学習により、多数のSLアルゴリズム(ストップライトを識別するHaar Cascade分類器など)を、各ビデオフレーム間で評価される構成可能なルールエンジンに組み込むことができました。したがって、ルールエンジンは、ストップライトがドライビングアルゴリズムのトレーニングの一部ではない場合でも、赤いストップライトが表示された場合、ドライビングSLアルゴリズムをオーバーライドできます。RLはこれを行うには連続しすぎているようです(つまり、最終状態でのみ停止します) 適用された強化学習の経験はあまりありませんが、関係なくそれを学びたいです

2
scikitのmax_depthは、決定木の枝刈りと同等ですか?
決定木を使って作成した分類器を分析していました。scikitのディシジョンツリーには、max_depthというチューニングパラメータがあります。これは決定木の枝刈りに相当しますか?そうでない場合、scikitを使用してディシジョンツリーをプルーニングするにはどうすればよいですか? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

1
見込み客の採点モデルのアイデア
クライアントに転向する可能性が高い見込み顧客(企業)を特定するためのモデルについて考えなければならないのですが、どのようなモデルが有用かについてのアドバイスを探しています。 私は私の知る限り、ある必要がありますデータベースは、(私はそれらをまだ持っていない)list of current clients(換言すれば、converted prospectsその機能()とsize、revenue、age、location、および、そのようなもの)list of prospects私はスコアに持っている(ということ)とその機能。ただし、以前は見込み客でしたが、クライアントへの変換に失敗した企業のリストはありません(もしそうだった場合は、ランダムフォレストを選択できたと思います。もちろん、ランダムフォレストを使用しますが、2つのデータベースの結合でランダムフォレストを実行し、クライアントをconverted見込み顧客として扱うことは悪い考えだと思いますnon-converted...) ですから、見込み客のリストから、既存のクライアントのように見える人を見つける必要があります。それにはどのようなモデルを使用できますか? (「クライアントの価値を評価し、これを同様の見込み客に適用する」、「各見込み客が廃業する可能性を評価する」などの点についても検討して、スコアリングの価値をさらに絞り込みますが、それはちょっと私の質問の範囲外です)。 ありがとう

1
入力数が柔軟なニューラルネットワーク?
入力が異なる長さのベクトルである場合、一貫した出力を提供するニューラルネットワークを作成することは可能ですか? 私は現在、さまざまな長さのオーディオファイルを多数サンプリングし、ニューラルネットワークをトレーニングして、特定の入力で必要な出力が得られる状況にあります。異なる番号の入力を行う、長さが異なるオーディオファイルのサンプルを指定して、MFCC機能を生成できる回帰ネットワークを作成しようとしています。

2
マッチングに利用できる教師あり学習アルゴリズムはどれですか?
私は非営利団体に取り組んでいます。そこでは、経験/知恵を共有したい卒業生と彼らをマッチングすることによって、潜在的な大学の応募者を支援しようとしています。現時点では、それは手動で行われています。そのため、2つのテーブルを用意します。1つは学生用で、もう1つは卒業生用です(いくつかの機能は共通しているかもしれませんが、必ずしもすべてではない場合があります)。 NameKathyTommyRuth...GenderFMF...Height165182163...NameGenderHeightKathyF165TommyM182RuthF163.........\begin{array}{|l|c|c|} \text{Name} & \text{Gender} & \text{Height} \\ \hline \text{Kathy} & F & 165 \\ \hline \text{Tommy} & M & 182 \\ \hline \text{Ruth} & F & 163 \\ \hline ... & ... & ... \\ \end{array} NameMiss LucyMiss GeraldineMiss Emily...GenderFFF...Weight657060...NameGenderWeightMiss LucyF65Miss GeraldineF70Miss EmilyF60.........\begin{array}{|l|c|c|} \text{Name} & \text{Gender} & \text{Weight} \\ …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.