タグ付けされた質問 「classification」

データセットの新しいインスタンスが属する1つまたは複数のカテゴリを識別する教師あり学習のインスタンス。

2
分類器の精度を上げる方法は?
OpenCV letter_recog.cppの例を使用して、ランダムツリーやその他の分類子を実験しています。この例には、ランダムツリー、ブースティング、MLP、kNN、単純ベイズ、SVMの6つの分類子が実装されています。20000のインスタンスと16の機能を備えたUCI文字認識データセットが使用されます。これをトレーニングとテストのために半分に分割しました。SVMの経験があるため、その認識エラーをすばやく3.3%に設定しました。いくつかの実験の後、私が得たのは: UCI文字認識: RTrees-5.3% ブースト-13% MLP-7.9% kNN(k = 3)-6.5% ベイズ-11.5% SVM-3.3% 使用されるパラメーター: RTrees-max_num_of_trees_in_the_forrest = 200、max_depth = 20、min_sample_count = 1 ブースト-boost_type = REAL、weak_count = 200、weight_trim_rate = 0.95、max_depth = 7 MLP-method = BACKPROP、param = 0.001、max_iter = 300(デフォルト値-実験するには遅すぎる) kNN(k = 3)-k = 3 ベイズ-なし SVM-RBFカーネル、C = 10、ガンマ= 0.01 その後、同じパラメーターを使用し、最初に勾配フィーチャ(ベクトルサイズ200要素)を抽出して、DigitsおよびMNISTデータセットでテストしました。 数字: RTrees-5.1% ブースト-23.4% MLP-4.3% …

5
バイナリ分類アルゴリズムを選択
バイナリ分類の問題があります: トレーニングセットの約1000サンプル バイナリ、数値、カテゴリを含む10の属性 このタイプの問題に最適なアルゴリズムはどれですか? デフォルトでは、比較的クリーンでノイズのないデータに最適であると考えられているため、SVM(名目上の属性値がバイナリフィーチャに変換された予備)から開始します。

3
不均衡で不均一な負のバックグラウンドを持つ1クラスの差別的分類?
{protein}シーケンスを特定のクラス(ニューロペプチドホルモン前駆体)に属するかどうかに分類するために、既存の教師付き分類子の改善に取り組んでいます。 約1,300万のタンパク質配列のバックグラウンド(「不明/不十分な注釈付きのバックグラウンド」)に対して約1,150の既知の「陽性」、またはさまざまな特性で注釈付けされた約100,000のレビューされた関連タンパク質があります(ただし、 「ネガティブ」な方法)。 私の以前の実装では、これをバイナリ分類問題と見なしていました。ポジティブセット=ニューロペプチドとしてマークされたタンパク質。ネガティブセット:ほぼ同様の長さ方向の分布の残りのタンパク質の中から1,300サンプル(合計)のランダムサンプリング。 それはうまくいきましたが、マシンの識別能力を大幅に改善したいです(現在、ランダムにサンプリングされた複数のネガティブセットで、精度、AUC、F1、CVで測定すると約83〜86%です)。 私の考えは次のとおりでした:1)これをマルチクラスの問題にし、プロパティ/機能クラスによって、(おそらく)ランダムにサンプリングされた別のセットとともに、明確にネガティブになる2-3種類のタンパク質を選択します。(ここでの優先順位は、特性/特徴がポジティブセットに似ているネガティブセットですが、定義する特性があります)。2)1つのクラスの学習-素晴らしいと思いますが、私が理解するように、それは異常検出のためだけのものであり、差別的なアプローチよりもパフォーマンスが劣ります。 *)きれいに聞こえるPU学習について聞いたことがありますが、私はプログラミングN00bであり、そのための既存の実装については知りません。(Python / sci-kitで学習)。 それでは、アプローチ1は理論上のPOVで意味がありますか?複数のネガセットを作成する最良の方法はありますか?(「ネガティブ」タンパク質の大規模な[50K]ピックを使用することもできますが、それらはすべて非常に大きく異なるため、分類器がそれらを1つの大きなアンバランスミックスとしてどれだけうまく処理できるかわかりません。 )。ありがとう!

6
少数の連続変数の対数変換を行う理由は何ですか?
私は分類の問題をやっており、多くの人々のコードとチュートリアルを読んでいます。私が気づいたことの1つは、多くの人がnp.log、またはなどのlogような連続変数を取得していることですloan_amountapplicant_income その理由を理解したいだけです。モデルの予測精度を向上させるのに役立ちますか。必須ですか?またはその背後にあるロジックはありますか? 可能であれば、いくつかの説明を提供してください。ありがとうございました。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
XGBoost出力は極端になる傾向があります
私は現在リスク予測にXGBoostを使用していますが、バイナリ分類部門ではうまく機能しているようですが、確率出力はかなりずれています。つまり、観測値の特徴の値を少しだけ変更すると、確率が高くなります。 0.5から0.99への出力ジャンプ。 0.6〜0.8の範囲の出力はほとんど見えません。すべての場合において、確率は0.99または1未満です。 Platt ScalingやLogistic Correctionなどのトレーニング後のキャリブレーション方法は知っていますが、XGBoostトレーニングプロセスで調整できることがあるかどうか疑問に思っていました。 私はFFIを使用してさまざまな言語からXGBoostを呼び出します。そのため、他のキャリブレーションライブラリを導入せずにこの問題を修正できると便利です。たとえば、評価メトリックをAUCからログ損失に変更します。

4
決定木またはロジスティック回帰?
私は分類の問題に取り組んでいます。同じ数のカテゴリ変数と連続変数を含むデータセットがあります。使用するテクニックを知るにはどうすればよいですか?決定木とロジスティック回帰の間で ロジスティック回帰が連続変数により適し、決定木が連続+カテゴリー変数により適していると仮定するのは正しいでしょうか?

2
属性を使用してユーザープロファイルを分類/クラスター化する
Webサイトから製品を購入するユーザーのデータセットがあります。 私が持っている属性は、ユーザーID、ユーザーの地域(状態)、製品のカテゴリーID、製品のキーワードID、WebサイトのキーワードID、および製品の消費額です。 目標は、製品とWebサイトの情報を使用して、「男性の若いゲーマー」や「家にいる」など、ユーザーが誰であるかを特定することです。 以下のサンプル画像を添付しました。 製品にはすべて1940の一意のカテゴリと13845の一意のキーワードがあります。Webサイトには、13063個の一意のキーワードがあります。それは毎日のログデータなので、データセット全体が巨大です。 これらは監視されていないため、クラスタリングを考えていますが、それらのIDは順序付けられた番号であり、数値の意味はありません。その場合、アルゴリズムの適用方法がわかりません。私も分類を考えています。購入した製品の販売額に基づいてクラスの列を追加した場合。クラスタリングがより好ましいと思います。キーワードidの次元は10000を超える可能性があるため、この場合にどのアルゴリズムを使用する必要があるかわかりません(各製品には多くのキーワードがあるため、Webサイトも同様です)。このプロジェクトにはSparkを使用する必要があります。 誰かがいくつかのアイデアや提案を手伝ってくれますか? どうもありがとうございます!

2
不均衡データのバイナリ分類モデル
次の仕様のデータセットがあります。 2,821陽性の193,176サンプルのトレーニングデータセット 673個の陽性の82,887個のサンプルを含むテストデータセット 10個の機能があります。 バイナリ分類(0または1)を実行したい。私が直面している問題は、データのバランスが非常に悪いことです。いくつかの機能エンジニアリングとともにデータを正規化およびスケーリングし、いくつかの異なるアルゴリズムを使用した後、これらは私が達成できる最高の結果です。 mean square error : 0.00804710026904 Confusion matrix : [[82214 667] [ 0 6]] すなわち、6つの正のヒットのみです。これはロジスティック回帰を使用しています。これを使って試したさまざまなことを次に示します。 RandomForest、DecisionTree、SVMなどのさまざまなアルゴリズム 関数を呼び出すためのパラメーター値の変更 複雑な機能を含む直感ベースの機能エンジニアリング さて、私の質問は: ポジティブヒットの数を改善するにはどうすればよいですか? そのような場合に過剰適合があるかどうかをどのように判断できますか?(私はプロットなどを試みました) 多分これが私が持っている可能性のある最良の適合である場合、どの時点で結論づけることができますか?(673のうち6ヒットのみを考えると悲しいようです) パターン認識が向上してヒットが増えるように、ポジティブサンプルインスタンスの重量を増やす方法はありますか? どのグラフィックプロットを使用すると、外れ値や、どのパターンが最適かについての直感を検出できますか? Pythonでscikit-learnライブラリを使用していますが、すべての実装はライブラリ関数です。 編集: 他のいくつかのアルゴリズムの結果は次のとおりです。 ランダムフォレスト分類子(n_estimators = 100) [[82211 667] [ 3 6]] 決定木: [[78611 635] [ 3603 38]]

1
決定木の連続変数の分割点はどのように選択されますか?
デシジョンツリーに関連する2つの質問があります。 連続属性がある場合、分割値をどのように選択しますか? 例:Age =(20,29,50,40 ....) 値を持つ連続属性があると想像してください。をで分割するときに最小ゲインを得るために、分割点を見つけるアルゴリズムを作成するにはどうすればよいですか?R v f v f > vfffRRRvvvfffvvvf> vf>vf>v

1
Naive Bayes Classifierの計算でゼロ係数を処理する方法は?
トレーニングデータセットがあり、その上でNaive Bayes Classifierをトレーニングし、確率がゼロの属性値がある場合。後で新しいデータの分類を予測する場合、これをどのように処理しますか?問題は、計算にゼロがある場合、他の解を見つける可能性のある他の値をいくつ取得しても、製品全体がゼロになることです。 例: P(x|spam=yes)=P(TimeZone=US|spam=yes)⋅P(GeoLocation=EU|spam=yes)⋅ ... =0.004P(x|spam=yes)=P(TimeZone=US|spam=yes)⋅P(GeoLocation=EU|spam=yes)⋅ ... =0.004P(x|spam=yes) = P(TimeZone = US | spam=yes) \cdot P(GeoLocation = EU | spam = yes) \cdot ~ ... ~ = 0.004 P(x | s p a m = n o )= P(Tiは、mはE Zo n e = US| spam=no)⋅ P(G e o L …


3
さまざまなタイプの属性を持つデータセットを分類する最良の方法
テキストと数値など、さまざまな種類の属性で構成されるデータセットを分類する最良の方法は何かを知りたいと思います。テキストをブール値に変換できることは知っていますが、語彙は多様であり、データがあまりにもまばらになります。また、属性のタイプを個別に分類し、メタ学習手法で結果を結合しようとしましたが、うまくいきませんでした。

2
データの不均衡を処理する必要があるのはなぜですか?
データの不均衡に対処する必要がある理由を知る必要があります。私はそれをどのように扱うか、アップサンプリングまたはダウンサンプリング、またはSmoteを使用することで問題を解決するためのさまざまな方法を知っています。 たとえば、100のうち1%のまれな疾患があり、トレーニングセットに50/50サンプルのバランスのとれたデータセットを使用することに決めたとします。疾患?比率が100分の1であっても。 データの不均衡に対処する必要があるのはなぜですか? バランスを設定するための推奨比率は何ですか

3
分類にRBMを使用する方法は?
現時点では、制限付きボルツマンマシンで遊んでいます。私はそのため、手書きの数字を分類してみようと思います。 私が作成したモデルは、今ではかなり派手な生成モデルですが、それをさらに進める方法がわかりません。 で、この記事の著者は言うが、それは良い生成モデルを作成した後、一つは「その後、差別分類器を訓練する(すなわち、線形分類器、サポートベクターマシン)RBMのトップ標識された試料の使用に関する」」とfurtherly状態をあなたが伝播するため、データベクトルをRBMモデルの非表示ユニットに追加して、非表示ユニットベクトルまたはデータの高レベル表現を取得します。問題は、それが正しいかどうかわからないということです。 つまり、入力を非表示のユニットに伝播するだけで、RBMの分類機能がありますか? 誰かがこのプロセスを説明できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.