タグ付けされた質問 「classification」

データセットの新しいインスタンスが属する1つまたは複数のカテゴリを識別する教師あり学習のインスタンス。

4
歪んだマルチクラスデータ
50クラスの約100,000サンプルを含むデータセットがあります。新しいデータをトレーニングして予測するために、RBFカーネルでSVMを使用しています。ただし、データセットが異なるクラスに偏っていることが問題です。 たとえば、クラス1-30(それぞれ〜3%)、クラス31-45(それぞれ〜0.6%)、クラス46-50(それぞれ〜0.2%) テストセットがトレーニングセットと同じクラス分布を持っている場合でも、モデルがトレーニングセットであまり頻繁に発生しないクラスを予測することはほとんどありません。 過半数のクラスをマイナークラスに縮小する「アンダーサンプリング」などの手法があることを知っています。しかし、これは非常に多くの異なるクラスがある場合にここで適用できますか?このケースを処理するのに役立つ他の方法はありますか?

1
マルチクラスデータセットで誤った分類を引き起こす不均衡なデータ
39のカテゴリ/クラスと850万件のレコードがあるテキスト分類に取り組んでいます。(将来的にはデータとカテゴリーが増えるでしょう)。 私のデータの構造またはフォーマットは次のとおりです。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …

1
クラスの1つが「他のどれでもない」によって定義されている分類問題にどのようにアプローチしますか
3つのクラスc1c1c_1、c2c2c_2、ます。しかし、私のデータセットには実際にはさらにいくつかの実際のクラスます。c3c3c_3(cj)nj=4(cj)j=4n(c_j)_{j=4}^n 明白な答えは、新しいクラスを定義することで、C 4、すべてのクラスを意味し、C J、J > 3を、私は、これは中のサンプル以来、良いアイデアではありません疑いますc^4c^4\hat c_4cjcjc_jj>3j>3j>3互いに非常に類似したまれではないだろう。c^4c^4\hat c_4 私は、私は、次の2つの変数空間を持っているとクラスとし、言うことをしようとしているものを可視化するために、C 2、C 3、C 4 = ⋃ N J = 4のC jは緑、ゴマ、赤で描かれており、それぞれ黒。これは私のデータがどのように見えるかと私が思う方法です。c1c1c_1c2c2c_2c3c3c_3c^4=⋃nj=4cjc^4=⋃j=4ncj\hat c_4= \bigcup_{j=4}^n c_j この問題に取り組むための標準的な方法はありますか?最も効率的な分類器は何ですか?なぜですか?

4
多変量時系列の分類
約40のディメンションを持つ時系列(8ポイント)で構成されるデータのセットがあります(したがって、各時系列は8 x 40です)。対応する出力(カテゴリの可能な結果)は0または1です。 複数の次元を持つ時系列の分類子を設計するための最良のアプローチは何でしょうか? 私の最初の戦略は、それらの時系列から特徴を抽出することでした:平均、標準、各次元の最大変動。RandomTreeForestのトレーニングに使用したデータセットを取得しました。これの全体的な素朴さを認識していて、悪い結果を得た後、私は今、より改善されたモデルを探しています。 私のリードは次のとおりです。各次元のシリーズを(KNNアルゴリズムとDWTを使用して)分類し、PCAで次元を減らし、多次元カテゴリに沿って最終的な分類子を使用します。MLは比較的新しいので、完全に間違っているかどうかはわかりません。

2
ベクター配列の分類
私のデータセットはベクターシーケンスで構成されています。各ベクトルには50の実数値の次元があります。シーケンス内のベクトルの数は、3〜5〜10〜15の範囲です。つまり、シーケンスの長さは固定されていません。 かなりの数のシーケンス(ベクトルではありません!)には、クラスラベルが付けられています。私の仕事は、一連のベクトルが与えられたときに、シーケンス全体のクラスラベルが計算される分類子を学ぶことです。 データの正確な性質はわかりませんが、シーケンスの性質は一時的なものではありません。それでも、ラベル()を変更せずに、ベクトルをベクトルと交換することはできません。つまり、ベクトルの順序が重要です。ベクトル自体は比較可能です。たとえば、内積を計算し、この類似値を使用することは理にかなっています。バツ私バツ私x_iバツjバツjx_j私≠ j私≠ji \neq j 私の質問は、そのようなデータを分類するのに役立つツール/アルゴリズムは何ですか? 更新:データには、1つまたは非常に少数のベクトルがクラスラベルに強く影響するという特性があります。 考えられる解決策:いくつかの調査の後、Recurrent Neural Networks(RNN)はかなり自然に法案に適合しているように見えます。包括的な考え方は、コンテキストサイズを選択し、単語ベクトルを連結し、最大プーリングを実行し、それを古典的なNNを通じてフィードすることです。文内の可能なコンテキストウィンドウの位置ごとに、特徴ベクトルが作成されます。最終的な特徴ベクトルは、たとえば最大プーリングを使用して構築されます。逆伝播は、ネットワークのパラメータを調整するために行われます。私はすでにいくつかの肯定的な結果を得ました(GPUは必須です)。kkk

2
Pythonで補完的な単純ベイズを実装しますか?
問題 犯罪データのラベルが付けられたデータセットでナイーブベイを使用してみましたが、結果は非常によくありません(7%の精度)。Naive Bayesは、これまで使用してきた他のアルゴリズムよりもはるかに高速に実行されるため、スコアが非常に低い理由を調べてみました。 研究 読んだ後、ナイーブベイは頻度の高いクラスに偏りがあるため、バランスのとれたデータセットで使用する必要があることに気付きました。私のデータは不均衡なので、データスキューを処理するために特別に作成されているので、補完的な単純ベイズを使用してみました。プロセスを説明する論文では、アプリケーションはテキスト分類用ですが、この手法が他の状況で機能しない理由はわかりません。ここで私が言及している論文を見つけることができます。つまり、クラスが表示されない発生に基づいて重みを使用するという考え方です。 いくつかの調査を行った後、Javaでの実装を見つけることができましたが、残念ながらJavaを知りませんし、自分で実装するためのアルゴリズムを十分に理解していません。 質問 Pythonでの実装はどこにありますか?それが存在しない場合、自分で実装するにはどうすればよいですか?

1
ILPを使用しないリレーショナルデータマイニング
分類モデルを作成する必要があるリレーショナルデータベースの巨大なデータセットを持っています。通常、この状況では、帰納論理プログラミング(ILP)を使用しますが、特殊な状況により、それはできません。 これに取り組むもう1つの方法は、外国との関係があるときに値を集計しようとすることです。しかし、私はいくつかの名目上の属性について何千もの重要で異なる行を持っています(例:いくつかの異なる薬の処方に関連する患者)。そのため、名目属性の個別の行ごとに新しい属性を作成せずにそれを行うことはできません。さらに、これを行うと、ほとんどの新しい列にNULL値が含まれます。 何千もの新しい列を作成するピボットなどの手法に頼らずにリレーショナルデータベースをデータマイニングできる非ILPアルゴリズムはありますか?

4
テキスト分類子トレーニングデータセットを提案する
テキスト分類子のトレーニングに使用できる自由に利用できるデータセットはどれですか? 私たちは、ユーザーに最も関連するコンテンツを推奨することでユーザーエンゲージメントを強化しようとしているため、事前定義された単語のバッグに基づいてコンテンツを分類した場合、すでに分類されたランダムな数の投稿に関するフィードバックを得ることで、ユーザーに魅力的なコンテンツを推奨できると考えました前。 この情報を使用して、これらのクラスでラベル付けされたパルスを彼に推奨できます。しかし、コンテンツに関連しない定義済みの単語のバッグを使用した場合、特徴ベクトルはゼロでいっぱいになることもわかりました。また、カテゴリはコンテンツに関連していない可能性があります。これらの理由により、コンテンツを分類せずにクラスタリングする別のソリューションを試しました。 ありがとう:)


1
トレーニングラベルの信頼度を使用して予測精度を向上させることはできますか?
バイナリ値でラベル付けされたトレーニングデータがあります。また、これらの各ラベルの信頼度を収集しました。つまり、0.8の信頼度は、人間のラベラーの80%がそのラベルに同意することを意味します。 この信頼性データを使用して分類子の精度を向上させることはできますか? 以下はうまくいくでしょうか? 1a)ラベルが0で、そのラベルの信頼度データが0.8の場合、トレーニングデータに0.2の新しいラベルを付けます。 1b)ラベルが1で、そのラベルの信頼性データが0.8の場合、トレーニングデータに0.8の新しいラベルを付けます。 2)トレーニングセットのすべてのエントリに対して、この方法を使用して新しいラベルを計算します 3)問題を回帰問題として扱います(ラベルの範囲は0〜1)。 4)新しいラベルが特定の値の上か下かに基づいて、ラベルのないデータを分類します。つまり、すべての予測ラベルにX未満の場合はクラス0を、Xを超える場合はクラス1を指定します。 現在、モデルにRBFカーネルを備えたSVMを使用しています。 前もって感謝します!


5
役立つ注釈ツール(ある場合)
私と私のチームがトレーニングセットに注釈を付けるのに役立つツールを探しています。大量のデータセットがある環境で作業しています。その一部は非構造化または半構造化されています。多くの場合、根拠のある真実を見つけるのに役立つ登録があります。ただし、多くの場合、評価のためだけのものであっても、キュレートされたセットが必要です。複雑な要因は、一部のデータが前提を離れることができないことです。 オブジェクト検出タスクに注釈を付けることを検討していますが、画像セグメンテーションタスク、テキスト分類タスク、および感情検出タスクが近い将来に見込まれます。 私が探しているのは、グループが注釈を作成するのを支援できるシステムです。できれば、グループの進捗状況、相対的な個人の進捗状況、そしておそらく個人の注釈者間の合意を示すことで、アノテーターに動機を与える方法です。

2
Scikit LearnのGridSearchCVの評価指標としてコーエンのカッパを使用する方法は?
私は1:15の比率、つまり非常に低いイベント率でクラスの不均衡を抱えています。したがって、scikitでGBMのチューニングパラメータを選択するには、F1スコアの代わりにカッパを使用することを学びます。カッパは、クラスの不均衡のF1スコアよりも優れた指標です。 しかし、私はここでsklearn.metricsをscikit learnのEvaluation_metricとしてkappaを見つけることができません でした。 ご質問 gridsearchcvにカッパを含めるための回避策はありますか? scikit learnでカッパの代わりに使用できる他のより良いメトリックはありますか?

1
不均衡なクラスに対処するためのアプローチの分類
不均衡クラス問題に対処するために開発されたアプローチを分類する最良の方法は何ですか? この記事では、それらを次のように分類しています。 前処理:オーバーサンプリング、アンダーサンプリング、ハイブリッド法を含みます コスト重視の学習:直接的な方法とメタ学習が含まれ、後者はさらにしきい値とサンプリングに分割されます。 アンサンブル手法:アンサンブル学習と組み合わせたコスト重視のアンサンブルとデータ前処理が含まれます。 第二の分類: データの前処理:分布の変更とデータ空間の重み付けが含まれます。1クラス学習は、分布の変化と見なされます。 特別な学習方法 予測後処理:しきい値法とコスト重視の後処理を含みます ハイブリッドメソッド: 3番目の記事: データレベルのメソッド アルゴリズムレベルの方法 ハイブリッド法 最後の分類では、出力調整を独立したアプローチと見なしています。 前もって感謝します。

2
LightGBMの結果は、データの順序によって異なります
列数、列名、値がまったく同じ2つのデータセットAとBがあります。唯一の違いは、それらの列の順序です。次に、次の手順で2つのデータセットのそれぞれでLightGBMモデルをトレーニングします 各データセットをトレーニングとテストに分割します(AとBの両方に同じランダムシードと比率を使用します) ハイパーパラメータをほぼデフォルトのままにします ランダムな状態を固定数として設定(再現用) グリッド検索を使用してlearning_rateを調整する トレーニングセットでLightGBMモデルをトレーニングし、テストセットでテストする テストセットで最高のパフォーマンスを持つ学習率が選択されます 2つのデータセットの出力モデルは非常に異なるため、列の順序はLightGBMを使用したモデルトレーニングのパフォーマンスに影響を与えると思います。 これが事実である理由を知っていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.