タグ付けされた質問 「multilabel」


3
マルチラベルデータの精度の尺度は何ですか?
KnownLabel MatrixおよびPredictedLabelマトリックスが提供されているシナリオを考えます。KnownLabelマトリックスに対するPredictedLabelマトリックスの良さを測定したいと思います。 ただし、ここでの課題は、KnownLabel Matrixに含まれる行の数が1のみであり、他の少数の行に1が多いことです(これらのインスタンスには複数のラベルが付けられます)。KnownLabel Matrixの例を以下に示します。 A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] 上記のマトリックスでは、データインスタンス1と2は単一のラベルデータ、データインスタンス3と4は2つのラベルデータ、データインスタンス5は3つのラベルデータです。 これで、アルゴリズムを使用したデータインスタンスのPredictedLabel Matrixができました。 KnownLabelマトリックスに対するPredictedLabelマトリックスの良さを測定するために使用できるさまざまな測定値を知りたいです。 私は、それらの間のフロベヌスのノルムの違いを尺度の一つと考えることができます。しかし、精度などの指標を探してい(= Correctly_predicted_instancetotal_instance)(=Correctly_predicted_instancetotal_instance)(= \frac{\text{Correctly_predicted_instance}}{\text{total_instance}}) ここで、複数のデータインスタンスに対してをどのように定義できますか?C O R 、R 、E 、C 、T 、LのY _ P R E D I C T E …

2
マルチラベル分類器でscikit-learnの相互検証関数を使用する方法
5つのクラスがあり、各インスタンスがこれらのクラスの1つ以上に属することができるデータセットでさまざまな分類子をテストしているので、特にscikit-learnのマルチラベル分類子を使用していますsklearn.multiclass.OneVsRestClassifier。次に、を使用して相互検証を実行しsklearn.cross_validation.StratifiedKFoldます。これにより、次のエラーが生成されます。 Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File "mlfromcsv.py", line 77, in main test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine') File "mlfromcsv.py", line 44, in test_classifier_multilabel scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs) File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, in cross_val_score X, y = check_arrays(X, …

2
scikitのマルチラベル分類メトリック
scikitを使用して既存のドキュメントにトピックを割り当てるために、マルチラベル分類子を構築しようとしています 私は、を介してそれらを渡す私の文書を処理していTfidfVectorizerて、ラベルMultiLabelBinarizerと作成したOneVsRestClassifierとSGDClassifier推定として。 しかし、分類子をテストするとき、私は0.29までのスコアしか得ません。これは、私が読んだものから同様の問題に対してかなり低いです。TfidfVectorizerでストップワード、ユニグラム、ステミングなどの複数のオプションを試しましたが、何もそれほど結果を変えないようです。 またGridSearchCV、推定器に最適なパラメーターを取得するために使用していましたが、現在、次に何をしようかというアイデアがありません。 同時に、私が使用できないことを理解scikit.metricsしているOneVsRestClassifierので、何が間違っているのかを理解するために、どのようにいくつかのメトリック(F1、Precision、Recallなど)を取得できますか? データコーパスに問題があるのでしょうか? 更新:とを使用CountVectorizerしHashingVectorizerてパイプライン処理も試みましたTfidfTransformerが、結果は似ています。だから私は、word-of-wordsアプローチがトークン化ドメインで最善であり、残りは分類器次第だと推測しています...

2
複数の出力を持つランダムフォレストは可能/実用的でしょうか?
ランダムフォレスト(RF)は、競合するデータモデリング/マイニング手法です。 RFモデルには、出力/予測変数という1つの出力があります。 RFを使用して複数の出力をモデル化する単純なアプローチは、各出力変数に対してRFを構築することです。したがって、N個の独立したモデルがあり、出力変数間に相関がある場合、冗長/重複モデル構造になります。これは確かに非常に無駄です。また、一般的なルールとして、より多くのモデル変数は、よりオーバーフィットモデル(一般化が少ない)を意味します。ここでこれが当てはまるかどうかはわかりませんが、おそらく当てはまります。 原則として、複数の出力を持つRFを使用できます。予測変数はベクトル(nタプル)になりました。各決定木の決定ノードは、しきい値ベクトルに基づいてターゲット/予測ベクトルのセットを分割しています。このしきい値はn次元空間の平面であると考えられるため、しきい値のどちら側を決定できるかそれぞれのターゲットベクトルがオンになっています。 決定分割の各側の最適な予測値は、各側のベクトルに対して計算された平均(重心)です。 単一変数を操作するときに最適な分割点を見つけるのは簡単で、計算が高速/効率的です。nタプルの場合、最適な分割を見つけることはできません(または、少なくともNが増加すると計算上実行不可能になります)が、モンテカルロタイプの方法(またはモンテカルロとローカルのハイブリッドを使用して、ほぼ最適な分割を見つけることができます。勾配トラバーサル)。 これは実際に機能しますか?つまり、一般化せずにトレーニングペアをマッピングするだけですか?この手法はすでに別の名前で存在していますか? また、これが制限付きボルツマンマシン(RBM)やDeep Belief Networksなどのニューラルネットにどのように関連するかを検討することもできます。

2
マルチラベル分類問題にニューラルネットワークを適用する方法は?
説明: 問題ドメインを、それぞれが1つ以上のクラスに属する特徴ベクトルのセットが存在するドキュメント分類とします。たとえば、ドキュメントdoc_1はカテゴリSportsとEnglishカテゴリに属します。 質問: 分類にニューラルネットワークを使用すると、特徴ベクトルのラベルはどうなりますか?それは、0の値が関連のないクラスに、1が関連のクラスに与えられるように、すべてのクラスを構成するベクトルでしょうか?クラスのラベルのリストがの[Sports, News, Action, English, Japanese]場合、ドキュメントdoc_1のラベルは次のようになり[1, 0, 0, 1, 0]ますか?

3
マルチラベルロジスティック回帰
ロジスティック回帰を使用してマルチラベルデータを分類する方法はありますか?マルチラベルとは、複数のカテゴリに同時に属することができるデータを意味します。 このアプローチを使用して、いくつかの生物学的データを分類したいと思います。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.