タグ付けされた質問 「classification」

データセットの新しいインスタンスが属する1つまたは複数のカテゴリを識別する教師あり学習のインスタンス。


6
距離メトリックとしてのコサイン類似度とドット積
2つの特徴のコサインの類似性は、大きさの積でスケーリングされたドット積にすぎないようです。コサインの類似性は、内積よりも優れた距離メトリックを作成するのはいつですか?すなわち、ドット積とコサインの類似性は、異なる状況で異なる長所または短所を持っていますか?

1
マルチクラス分類に最適なKerasモデルは何ですか?
私はどこの必要性3つのイベントWINNER =(の分類1に、研究に取り組んでいますwin、draw、lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 私の現在のモデルは: def build_model(input_dim, output_classes): model = Sequential() model.add(Dense(input_dim=input_dim, output_dim=12, activation=relu)) model.add(Dropout(0.5)) model.add(Dense(output_dim=output_classes, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer='adadelta') return model それがマルチクラス分類に適しているかどうかわかりません バイナリ分類の最適な設定は何ですか? 編集:#2-そのような? model.add(Dense(input_dim=input_dim, …

5
ディープラーニングと勾配ブースティング:いつ使用するか
大きなデータセットに大きなデータの問題があります(たとえば、5,000万行と200列)。データセットは、約100の数値列と100のカテゴリ列、およびバイナリクラス問題を表す応答列で構成されます。各カテゴリ列のカーディナリティは50未満です。 ディープラーニングメソッドまたはアンサンブルツリーベースのメソッド(勾配ブースティング、アダブースト、またはランダムフォレストなど)のどちらを使用すべきかをアプリオリに知りたい。ある方法を他の方法よりも判断するのに役立つ探索的データ分析や他の手法はありますか?

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
非常に不均衡なデータセットのトレーニングのクイックガイド
トレーニングセットに約1000個の陽性サンプルと10000個の陰性サンプルがある分類問題があります。したがって、このデータセットは非常に不均衡です。プレーンランダムフォレストは、すべてのテストサンプルを多数派クラスとしてマークしようとしています。 ここでは、サブサンプリングと重み付きランダムフォレストに関するいくつかの良い答えを示します。高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか? RF以外のどの分類方法が問題を最善の方法で処理できますか?

4
SVMでランダムフォレストを使用する場合とその逆の場合
いつRandom Forest、SVMまたはその逆を使用しますか? cross-validationモデルの比較はモデル選択の重要な側面であることを理解していますが、ここでは、2つの方法の経験則と経験則について詳しく学びたいと思います。 分類器の微妙さ、長所、短所、およびそれぞれに最適な問題を誰かが説明できますか?

4
履歴書データに基づいてジョブ分類を実行するには、どのアルゴリズムを使用する必要がありますか?
Rですべてを行っていることに注意してください。 問題は次のようになります。 基本的に、履歴書(CV)のリストがあります。一部の候補者は以前に実務経験があり、いくつかはそうではありません。ここでの目標は、CVのテキストに基づいて、それらを異なる職種に分類することです。私は、候補者が経験を持たない/学生である場合に特に興味があり、卒業後にこの候補者がどの職種に属する可能性が高いかを予測する必要があります。 質問1:機械学習アルゴリズムを知っています。ただし、NLPを実行したことはありません。インターネットでLatent Dirichletの割り当てに出会いました。しかし、これが私の問題に取り組むための最良のアプローチであるかどうかはわかりません。 私の元のアイデア: これを教師付き学習問題にします。ラベル付けされたデータがすでに大量にあると仮定します。つまり、候補者のリストのジョブセクターに正しくラベル付けされています。MLアルゴリズム(つまり、最近傍...)を使用してモデルをトレーニングし、これらのラベルのないデータを入力します。これらのデータは、実務経験がない/学生である候補であり、所属するジョブセクターを予測しようとします。 質問2の更新:履歴書のすべてを抽出してテキストファイルを作成し、各履歴書が非構造化文字列を含むテキストファイルに関連付けられるようにテキストファイルを作成することをお勧めします。テキストマイニング手法をテキストファイルに適用し、データを構造化するか、テキストファイルから使用される用語の頻度マトリックスを作成しますか?たとえば、テキストファイルは次のようになります。 I deployed ML algorithm in this project and... Skills: Java, Python, c++ ... これは私が「非構造化」、つまりすべてを1行の文字列に折りたたむことによって意味したものです。 このアプローチは間違っていますか?私のアプローチが間違っていると思われる場合は私を修正してください。 質問3:難しい部分は、キーワードを識別して抽出する方法です。tmRでパッケージを使用しますか?tm パッケージはどのアルゴリズムに基づいていますか?NLPアルゴリズムを使用する必要がありますか?はいの場合、どのアルゴリズムを調べる必要がありますか?ご覧になる良いリソースをいくつか教えてください。 どんなアイデアでも素晴らしいでしょう。

5
決定木アルゴリズムは線形または非線形ですか
最近、私の友人に、ディシジョンツリーアルゴリズムが線形アルゴリズムであるか非線形アルゴリズムであるかがインタビューで尋ねられました。この質問への回答を探しましたが、満足のいく説明が見つかりませんでした。誰でもこの質問の解決策に答えて説明できますか?また、非線形機械学習アルゴリズムの他の例は何ですか?

3
テキスト分類とトピックモデルの違いは何ですか?
機械学習におけるクラスタリングと分類の違いは知っていますが、ドキュメントのテキスト分類とトピックモデリングの違いはわかりません。ドキュメントに対してトピックモデリングを使用してトピックを特定できますか?分類方法を使用して、これらのドキュメント内のテキストを分類できますか?

4
ケラスモデルの精度、F1、精度、再現率を取得する方法は?
バイナリKerasClassifierモデルの精度、再現率、F1スコアを計算したいのですが、解決策が見つかりません。 これが私の実際のコードです: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # Compile model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) tensorboard = TensorBoard(log_dir="logs/{}".format(time.time())) time_callback = TimeHistory() # Fit the model history …

2
テキストの分類:異なる種類の機能の組み合わせ
私が取り組んでいる問題は、短いテキストを複数のクラスに分類することです。私の現在のアプローチは、tf-idf加重項頻度を使用し、単純な線形分類器(ロジスティック回帰)を学習することです。これはかなりうまく機能します(テストセットで約90%のマクロF-1、トレーニングセットで約100%)。大きな問題は、目に見えない単語/ n-gramです。 私は、他の機能、たとえば分布類似性(word2vecで計算)を使用して計算された固定サイズのベクトル、または例の他のカテゴリ機能を追加して、分類器を改善しようとしています。私の考えは、単語の袋からスパース入力フィーチャにフィーチャを追加するだけでした。ただし、これにより、テストおよびトレーニングセットのパフォーマンスが低下します。追加の機能自体は、テストセットで約80%のF-1を提供するため、不要ではありません。機能のスケーリングも役に立たなかった。私の現在の考えでは、この種の機能は(スパース)ワードオブワード機能とうまく混同されません。 質問は次のとおりです。追加機能が追加情報を提供すると仮定して、それらを組み込む最良の方法は何ですか?別々の分類子をトレーニングし、それらをある種のアンサンブル作業で組み合わせることができますか(これには、おそらく、異なる分類子の機能間の相互作用をキャプチャできないという欠点があります)。他に考慮すべき複雑なモデルはありますか?

4
XGBoostを使用した不均衡なマルチクラスデータ
このディストリビューションには3つのクラスがあります。 Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 そして、私はxgboost分類に使用しています。というパラメータがあることを知っていますscale_pos_weight。 しかし、「マルチクラス」の場合はどのように処理され、どのように適切に設定できますか?

4
ユークリッド距離と逆のマンハッタン距離を使用するのはいつですか?
機械学習でユークリッド距離よりもマンハッタン距離を使用する理由について、適切な議論を探しています。 私がこれまで良い議論に見つけた最も近いものはこのMIT講義にあります。 36:15に、スライドで次のステートメントを確認できます。 「通常、ユークリッドメトリックを使用します。異なる次元が比較可能でない場合は、マンハッタンが適切な場合があります。」 教授が、爬虫類の足の数が0から4まで変化するので(他の機能はバイナリで、0から1までしか変化しないため)、「足の数」機能の方がずっと多くなると言った直後ユークリッド距離が使用される場合の重み。案の定、それは確かに正しいです。しかし、マンハッタン距離を使用する場合、その問題が発生します(ユークリッド距離のように差を2乗しないため、問題がわずかに軽減されるだけです)。 上記の問題を解決するより良い方法は、「脚の数」機能を正規化して、その値が常に0〜1になるようにすることです。 したがって、問題を解決するためのより良い方法があるため、この場合のマンハッタン距離を使用するという議論には、少なくとも私の意見では、より強力なポイントが欠けているように感じました。 ユークリッド上でマンハッタン距離を使用する理由と時期を誰かが実際に知っていますか?マンハッタン距離を使用するとより良い結果が得られる例を教えてもらえますか?

5
機械学習で疎データと密データを結合してパフォーマンスを改善する
予測可能なスパースな特徴があり、また予測的ないくつかの濃い特徴があります。これらの機能を組み合わせて、分類器の全体的なパフォーマンスを改善する必要があります。 今、これらを一緒にしようとすると、密な特徴が疎な特徴よりも支配する傾向があるため、密な特徴のみのモデルと比較してAUCが1%しか改善されません。 誰かが同様の問題に遭遇しましたか?入力を本当に感謝します。私はすでに多くの異なる分類器、分類器の組み合わせ、特徴変換、異なるアルゴリズムでの処理を試しました。 助けてくれてありがとう。 編集: 私はすでにコメントに記載されている提案を試しました。私が観察したのは、データのほぼ45%でスパースフィーチャが非常によく機能し、スパースフィーチャのみで約0.9のAUCが得られることですが、残りのものでは約0.75のAUCで密なフィーチャが良好に機能します。これらのデータセットを分離しようとしましたが、AUCが0.6になるため、モデルを単純にトレーニングして使用する機能を決定することはできません。 コードスニペットに関して、私は非常に多くのことを試しましたので、何を正確に共有すべきかわかりません:(

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.