データサイエンス classification

1

私はこのようなデータセットを持っています： postID Sentence drugYesOrNo 1 He went out with his friends 2 He behaved nicely while talking with me 3 He stopped using drugs after a while 1 4 He did not meet any friend during last week 1 He slowly cut usage of drugs 1 2 He smiled like …

7 machine-learning deep-learning classification text-mining

3

特定の分類子wrt機能の出力を説明する

バイナリ分類子が与えられた場合、なぜそれが何らかの入力を陽性クラスとして分類したのかを説明することは常に可能ですか？そして、つまり、大きな機能セットがある場合、次のようなツールがあります。よろしくお願いします！

7 machine-learning classification feature-extraction

1

メールスレッドから個別のメールを抽出する

ほとんどのオープンソースデータセットは適切にフォーマットされています。つまり、各電子メールメッセージは、エンロンの電子メールデータセットのようによく分離されています。しかし、現実の世界では、上位の電子メールメッセージを一連の電子メールから分離することは非常に困難です。たとえば、次のメッセージについて考えてみます。 Hi, Can you offer me a better discount. Thanks, Mr.X Customer Relations. ---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------ Hello Mr.X, Does the below work out. Do let us know your thoughts. Thanks, Mr.Y Sales Manager. メールを分割したいのは、感情分析を行いたいからです。メールの分割に失敗すると、結果は正しくありません。私は周りを検索し、この非常に包括的な研究論文を見つけました。メールガンtalonと呼ばれるメールガンによる実装も見つかりました。しかし、残念ながら、特定の種類のパターンではうまく機能しません。たとえば、メールスレッドの2番目のメッセージが次のように中断した場合 ---------- Forwarded message ---------- 上記の代わりに …

7 classification scikit-learn apache-spark preprocessing sentiment-analysis

1

音素認識のためのCNN

私は現在、このドキュメントを研究しています。CNNは、ログメルフィルターバンクの視覚的表現を使用した音素認識、および制限された重み共有スキームに適用されます。ログメルフィルターバンクの視覚化は、データを表現および正規化する方法です。彼らは私が使用してそれをプロットすることであろうと出てくる可能性が最も近いRGBの色とスペクトログラムとして可視化することをお勧めmatplotlibsカラーマップをcm.jet。それらは（紙であるため）、各フレームを[静的デルタdelta_delta]フィルターバンクエネルギーでスタックする必要があることも示唆しています。これは次のようになります。 15フレームセットの画像パッチで構成される[静的デルタdelta_detlta]入力形状は、（40,45,3）になります。制限された重みの共有は、重みの共有を特定のフィルターバンク領域に制限することで構成されます。これは、音声が異なる周波数領域で異なって解釈されるため、通常の畳み込みが適用されるため、完全な重みの共有は機能しません。制限された重み共有の実装は、各畳み込み層に関連付けられた重み行列の重みを制御することで構成されます。したがって、完全な入力に畳み込みを適用します。複数を使用すると、たたみ込み層から抽出された特徴マップの局所性が破壊されるため、紙はたった1つのたたみ込み層のみを適用します。それらが通常のMFCC係数ではなくフィルターバンクエネルギーを使用する理由は、DCTがフィルターバンクエネルギーの局所性を破壊するためです。畳み込み層に関連付けられた重み行列を制御する代わりに、複数の入力を使用してCNNを実装することを選択します。したがって、各入力は（小さなフィルターバンク範囲、total_frames_with_deltas、3）で構成されます。したがって、たとえば、用紙サイズは8のフィルターサイズが適切であると述べたため、フィルターバンクの範囲を8に決定しました。したがって、各小さな画像パッチのサイズは（8、45、3）です。小さな画像パッチのそれぞれは、ストライドが1のスライディングウィンドウで抽出されます。そのため、各入力間に多くのオーバーラップがあり、各入力には独自の畳み込み層があります。（input_3、input_3、input3、input_1、input_2、input_3 ...である必要があります）この方法を使用すると、複数の畳み込み層を使用できるようになります。これは、局所性が問題にならないためです。フィルターバンク領域内に適用されるため、これは私の理論です。紙はそれを明示的に述べていませんが、彼らが複数のフレームで音素認識を行う理由は、いくつかの左コンテキストと右コンテキストがあるため、中央のフレームのみが予測/トレーニングされているためです。したがって、私の場合、最初の7フレームは左のコンテキストウィンドウに設定されています。中央のフレームはトレーニングされており、最後の7フレームは右のコンテキストウィンドウに設定されています。したがって、複数のフレームが与えられた場合、1つの音素だけが中央であると認識されます。私のニューラルネットワークは現在、次のようになっています。 def model3(): #stride = 1 #dim = 40 #window_height = 8 #splits = ((40-8)+1)/1 = 33 next(test_generator()) next(train_generator(batch_size)) kernel_number = 200#int(math.ceil(splits)) list_of_input = [Input(shape = (window_height,total_frames_with_deltas,3)) for i in range(splits)] list_of_conv_output = [] list_of_conv_output_2 = [] list_of_conv_output_3 = [] …

7 classification keras convnet training audio-recognition

1

OCRのトレーニングデータを生成する方法

ライセンスプレート（インドネシアのライセンスプレート）を認識するための光学式文字認識システムを構築しようとしていますが、残念ながら利用可能なトレーニングセットはありませんが、フォントを見つけました。（ガウスぼかし、ボックスぼかしなど）Pythonを使用しますが、実際のデータとは異なります。フォントは次のようになります。そして、私はこのように見える個々の手紙を生成したいです：上の画像のようなトレーニングデータを生成する方法はありますか？ありがとうございました

7 machine-learning python classification data

2

精度とNPVではなく、精度と再現率がF1スコアで使用されるのはなぜですか？

バイナリ分類の問題では、F1スコアがパフォーマンスの指標としてよく使用されるようです。私が理解している限り、アイデアは精度と再現率の間の最良のトレードオフを見つけることです。F1スコアの式は、精度と再現率が対称的です。しかし、（そして、それが私を悩ませていることですが）精度と再現率の間には非対称性があります。再現率は事前確率に依存しない分類子のプロパティですが、精度は事前確率に依存する量です。精度と再現率の組み合わせの何がそんなに特別なのか誰にも教えてもらえますか？精度（ポジティブ予測値）とネガティブ予測値を使用しないのはなぜですか？

7 classification binary scoring

2

SPARK Mllib：マルチクラスロジスティック回帰、上位クラスではなくすべてのクラスの確率を取得する方法は？

LogisticRegressionWithLBFGSマルチクラス分類器のトレーニングに使用しています。新しい目に見えないサンプルでモデルをテストするときに、すべてのクラス（最上位の候補クラスだけでなく）の確率を取得する方法はありますか？ PS私は必ずしもLBFGS分類子を使用する義務があるわけではありませんが、私の問題ではロジスティック回帰を使用したいと思います。したがって、別のLR分類子タイプを使用した解決策がある場合は、それを採用します。

7 classification apache-spark multiclass-classification

3

多数の値に対する1つのホットエンコーディング

カテゴリ変数が取り得る値の数が多い場合、1つのホットエンコーディングをどのように使用しますか？私の場合は56の値です。そのため、通常の方法のように、トレーニングデータセットに56列（56バイナリフィーチャ）を追加する必要があります。これにより、複雑さが大幅に増加し、トレーニング時間が増加します。それでは、このような場合にどのように対処しますか？

7 machine-learning data-mining classification dataset categorical-data

5

「分類」と「表示」に違いはありますか？

最近まで「ラベリング」と「分類」は同義語だと思っていました。しかし、コンピュータービジョンの用語について別の質問を始めたとき、それについて考えました。「ラベル付け」と「分類」の間に違いはありますか？「クラス」はあなたが検出したい概念であり、「ラベル」はあなたがデータに割り当てるものだと思いました。したがって、「クラス」はデータにつながる概念であり、「ラベル」は名前だけです。したがって、「ラベル付け」は「分類」と同じになります。どちらも、データにつながる基になるクラスに関するステートメントを作成したいからです。記事 Google Scholarで簡単に検索すると、一部の記事でタイトルに両方の用語が使用されていることがわかりました。 Markus Eich、Malgorzata Dabrowska、Frank Kirchner：「セマンティックラベリング：空間特徴記述子に基づく3Dエンティティの分類」 Chunlin Li、Dmitry B. Goldgof、およびLawrence 0. Hall：「人間の脳のMR画像の知識ベースの分類と組織のラベル付け」レイブランチャード：「非同性愛の性別違和の分類とラベル付け」-別の研究分野ですが、おそらく2つの単語の違いは同じですか？したがって、「ラベル付け」と「分類」には違いがあると思います。違いはなんですか？ Google N-Gram 分類ははるかに境界の用語のようです。

7 classification terminology

5

共変量シフト検出

トレーニングデータとテストデータ間の共変量シフトを検出するための標準的なアプローチはありますか？これは、数百の画像を含むデータベースに共変量シフトが存在するという仮定を検証するのに役立ちます。

7 machine-learning classification dataset image-classification

2

トレーニングデータとテストデータの分布の違い

機械学習の基本的な前提は、トレーニングデータとテストデータが同じ母集団から抽出され、したがって同じ分布に従うことです。しかし、実際には、これはほとんどありません。共変量シフトはこの問題に対処します。誰かがこれに関する以下の疑問をクリアできますか？ 2つの分布が統計的に異なるかどうかをどのように確認しますか？カーネル密度推定（KDE）を使用して、確率分布を推定して違いを伝えることはできますか？特定のカテゴリの画像が100枚あるとします。テスト画像の数は50で、トレーニング画像の数を5から50に5のステップで変更しています。KDEで推定した後、5つのトレーニング画像と50のテスト画像を使用すると、確率分布が異なると言えますか？

7 machine-learning classification dataset image-classification

4

低確率分類のためのAdaBoostのトレーニングとテスト

不正/不正ではないと分類したいデータセットがあり、弱者がたくさんいます。私の懸念は、詐欺よりも詐欺の方がはるかに多いことです。そのため、私の弱い学習者は平均よりも優れたパフォーマンスを発揮しますが、完全なセットでは50％を超える精度を実行するものはありません。私の質問は、詐欺の半分で詐欺ではないテストおよびトレーニングセットをセットアップする必要があるのか、それとも代表的なサンプルを使用するだけなのかです。

7 classification unbalanced-classes

1

機能を抽出し、監視ツールからのアラートメールを適切なカテゴリに分類する方法

私の会社は多くのクライアントにマネージドサービスを提供しています。お客様は通常、次の監視ツールを使用してサーバー/ウェブアプリを監視します。 OpsView ナギオス Pingdom カスタムシェルスクリプト問題が見つかると、Opsチームにアラートメールが送信され、問題を修正するためのアクションが行われます。何千ものサーバーを管理しているため、運用チームの受信トレイは常に電子メールアラートで溢れています。カスケード効果がある単一の問題でも、20〜30通の電子メールをトリガーできます。今、私がやりたいのは、サーバーのIPアドレス、問題のタイプ、問題の重大度などのアラート電子メールから重要な機能を抽出し、電子メールを適切なカテゴリに分類できるシステムを実装することです。CPU-Load-Customer1-Server2, MySQL-Replication-Customer2-DBServer3その後、運用チームが問題をより迅速に修正できるように、各カテゴリに対して事前に定義された一連のデバッグ手順を用意します。また、機能エクストラクタは、問題の入力データをチームに提供します。これまでのところ、教師付き学習手法、つまりラベル付きトレーニングデータ（クラスターデータ）でNaiveBayesClassifierをトレーニングし、新しい未確認のメールを適切なクラスター/カテゴリに分類できました。電子メールは特定のテンプレートに基づいているため、分類子の精度は非常に高くなります。ただし、カスタムスクリプトからアラートメールを受信することもあるので、テンプレートに従っていない可能性があります。そこで、教師あり学習ではなく、教師なし学習を試したいと思います。KMeansクラスタリングを調べています。しかし、やはり問題は、事前にクラスターの数がわからないことです。では、この使用例に最適なアルゴリズムはどれですか？現在、分類にはPythonのTextBlobライブラリを使用しています。また、アラートメールから機能を抽出するために、NLTK（http://www.nltk.org/book/ch07.html）ライブラリを調べています。試してみましたが、適切な英語のパラグラフ/テキストでうまく機能するようですが、アラートメールの場合は、多くの不要な機能が抽出されました。同じための既存のソリューションはすでにありますか？そうでない場合、同じものを実装するための最良の方法は何ですか？どのライブラリ、どのアルゴリズムですか？ PS：私はデータサイエンティストではありません。メールの例： PROBLEM: CRITICAL - Customer1_PROD - Customer1_PROD_SLAVE_DB_01 - CPU Load Avg Service: CPU Load Avg Host: Customer1_PROD_SLAVE_DB_01 Alias: Customer1_PROD_SLAVE_DB_01 Address: 10.10.0.100 Host Group Hierarchy: Opsview > Customer1 - BIG C > Customer1_PROD State: CRITICAL Date & Time: Sat …

7 machine-learning classification clustering feature-extraction

1

単純ベイズ分類器はトレーニングで欠落データをどのように処理しますか？

Naive Bayesは、トレーニングまたはテスト/分類インスタンスに存在するかどうかに応じて、欠落データを異なる方法で処理します。インスタンスを分類するとき、欠損値のある属性は確率計算に含まれません（http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf）トレーニングでは、「[値が不足している]インスタンスは、属性値とクラスの組み合わせの頻度カウントに含まれていません。」（http://www.csee.wvu.edu/~timm/cs591o/old/BasicMethods.html）これは、特定のトレーニングレコードがトレーニングフェーズに含まれていないことを意味しますか？それとも別の意味ですか？

7 machine-learning data-mining classification naive-bayes-classifier

6

バイナリ分類問題に最適な交差検証タイプ

データセットは次のようになります。 25000観測最大15の異なるタイプの予測子：数値、マルチクラスカテゴリカル、バイナリターゲット変数はバイナリですこのタイプの問題に典型的な相互検証方法はどれですか。デフォルトではK-Foldを使用しています。この場合、いくつの折り目で十分ですか？（私が使用するモデルの1つはランダムフォレストであり、時間がかかります...）

7 classification cross-validation

タグ付けされた質問 「classification」

タグ付けされた質問「classification」