タグ付けされた質問 「classification」

データセットの新しいインスタンスが属する1つまたは複数のカテゴリを識別する教師あり学習のインスタンス。

1
2つの機能と時系列のイベントに基づいて顧客を分類する
私が設計しているアルゴリズムの次のステップに何をすべきかについての助けが必要です。 NDAのせいで、あまり開示することはできませんが、一般的でわかりやすいものにしようと思います。 基本的に、アルゴリズムのいくつかのステップの後、私はこれを持っています: 私が持っている各顧客と、彼らが1か月間に行うイベントについて、最初のステップでイベントをいくつかのカテゴリにクラスター化しました(各顧客は、1からxが1から25までのカテゴリに分けられたイベントを持ち、通常、最初のカテゴリは他のカテゴリよりもイベントの密度が高くなります)。 各カテゴリと顧客について、1時間あたりの月のイベントを集約する時系列を作成しました(これらのイベントがいつ行われるかのパターンを取得します)。また、私は、男が少なくとも1つのイベントを実行する1か月(30日間)の日数と、少なくとも1つのイベントの合計に対する少なくとも1つのイベントの日数に基づいて、いくつかの正規化変数を使用していますイベント(すべてのクラスターを集約)。1つ目は、その月の顧客の活動度の比率を示し、2つ目は、他のカテゴリに対してカテゴリを重み付けします。 ファイナルテーブルは次のようになります |*Identifier*| *firstCat* | *feature1* | *feature2* | { *(TIME SERIES)* } CustomerID | ClusterID | DaysOver30 | DaysOverTotal | Events9AM Events10AM ... xx | 1 | 0,69 | 0,72 | 0,2 0,13 ... xx | 2 | 0,11 | 0,28 | 0,1 0,45 ... …

3
非構造化テキスト分類
非構造化テキスト文書、つまり構造が不明なWebサイトを分類します。私が分類しているクラスの数は限られています(この時点で、3つ以上はないと考えています)。誰が私がどのように始めることができるかについて提案していますか? 「言葉の袋」アプローチはここで実行可能ですか?後で、文書構造(おそらく決定木)に基づいて別の分類段階を追加できます。 私はMahoutとHadoopにある程度精通しているため、Javaベースのソリューションを好みます。必要に応じて、ScalaやSparkエンジン(MLライブラリ)に切り替えることができます。

2
絵文字の感情データ
実験では、多くのツイートに埋め込まれた絵文字を、単純な定量的衛生分析のグラウンドトゥルース/トレーニングデータとして使用したいと思います。通常、ツイートは構造化されていないため、NLPがうまく機能しません。 とにかく、Unicode 6.0には722個の絵文字があり、Unicode 7.0にはおそらく250個の絵文字が追加されるでしょう。 センチメントアノテーションを含むデータベース(SentiWordNetなど)はありますか? (SentiWordNetは曖昧な意味も許容していることに注意してください。例えば、面白いだけでなく、「これは面白い味」はおそらくプラスではありません;-)。通常の単語よりも絵文字の方が...) また、感情分析にそれらを使用した経験がある場合、私は聞いてみたいと思います。

3
サンプルサイズが異なるさまざまな分類器のパフォーマンスの測定
現在、テキストから抽出されたさまざまなエンティティでいくつかの異なる分類子を使用しており、特定のデータセット全体でそれぞれの分類子がどれだけうまく機能しているかの要約として精度/リコールを使用しています。 これらの分類器のパフォーマンスを同様の方法で比較する有意義な方法があるかどうか疑問に思っていますが、分類されているテストデータの各エンティティの総数も考慮しますか? 現在、パフォーマンスの尺度として精度/リコールを使用しているため、次のようなものがあります。 Precision Recall Person classifier 65% 40% Company classifier 98% 90% Cheese classifier 10% 50% Egg classifier 100% 100% ただし、これらを実行しているデータセットには、10万人、5万社、500チーズ、1卵が含まれている可能性があります。 では、上記の表に追加できる要約統計量はありますが、これは各アイテムの合計数も考慮に入れていますか?または、たとえば、卵分類器の100%prec / recが1つのデータ項目だけでは意味がないかもしれないという事実を測定する方法はありますか? このような分類子が何百もあったとしましょう。「どの分類子がパフォーマンスが低いのか、どの分類子がパフォーマンスが低いかどうかを判断するのに十分なテストデータがない」などの質問に答える良い方法を探していると思います。

1
グローバル圧縮方式とユニバーサル圧縮方式の違いは何ですか?
圧縮方法は主に2つのセットに分けられることを理解しています。 グローバル 地元 最初のセットは、処理されるデータに関係なく機能します。つまり、データの特性に依存しないため、データセットのどの部分でも(圧縮自体の前に)前処理を実行する必要はありません。一方、ローカルメソッドはデータを分析し、通常は圧縮率を向上させる情報を抽出します。 これらの方法のいくつかについて読んでいると、単項法は普遍的ではないことに気づきました。「グローバル性」と「普遍性」は同じものを指すと思っていたので驚きました。単項メソッドは、エンコードを生成するためにデータの特性に依存しません(つまり、グローバルメソッドです)。したがって、グローバル/ユニバーサルである必要があります。 私の主な質問: ユニバーサルメソッドとグローバルメソッドの違いは何ですか? これらの分類は同義語ではありませんか?

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
VCディメンションの計算方法は?
機械学習を勉強しています。VCディメンションの計算方法を教えてください。 例えば: h (x )= { 10もし ≤X≤Bそうしないと h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} (、B )∈ R 2、パラメータ。(、B )∈ R2(a,b)∈R2(a,b) ∈ R^2 それのVC次元は何ですか?

4
OccamのRazor原理は機械学習でどのように機能しますか
画像に表示されている次の質問は、最近の試験中に行われたものです。OccamのRazorの原理を正しく理解しているかどうかはわかりません。質問で与えられた分布と決定境界によれば、Occamのかみそりに従って、どちらの場合も決定境界Bが答えになるはずです。OccamのRazorによると、複雑な分類器ではなく、まともな仕事をする単純な分類器を選択するからです。 誰かが私の理解が正しく、選択した答えが適切かどうかを証言できますか?私は機械学習の初心者なので、助けてください

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
事前トレーニング済みのCNN分類器を使用して、別の画像データセットに適用する
どのように考え、最適化前の訓練を受けた neural network別の問題に適用することを?事前トレーニング済みのモデルにさらにレイヤーを追加して、データセットでテストしますか? たとえば、タスクがCNNを使用して壁紙グループを分類することであった場合、猫と犬の画像でトレーニングされた事前トレーニング済みネットワークを直接分類することはできませんが、どちらも画像分類子です。

2
データセットは分類可能ではないと私たちはいつ言いますか?
何も分類できないデータセットを何度も分析しました。分類子を取得できるかどうかを確認するには、通常、次の手順を使用しました。 数値に対するラベルの箱ひげ図を生成します。 次元数を2または3に減らして、クラスが分離可能かどうかを確認します。LDAも試してみました。 SVMとランダムフォレストを強制的に適合させ、機能の重要性を調べて、機能に意味があるかどうかを確認します。 クラスの不均衡が問題であるかどうかを確認するために、アンダーサンプリングやオーバーサンプリングなどのクラスと手法のバランスを変更してみてください。 私が考えることができる他の多くのアプローチがありますが、試していません。これらの機能が良くなく、予測しようとしているラベルにまったく関連していないことを時々知っています。次に、その直感を使用して演習を終了し、より優れた機能またはまったく異なるラベルが必要であると結論付けます。 私の質問は、これらの機能では分類できないとデータサイエンティストがどのように報告するかです。これを報告したり、最初に異なるアルゴリズムでデータをフィッティングしたりするための統計的方法はありますか?

2
畳み込みニューラルネットワークを使用したドキュメント分類
CNN(畳み込みニューラルネットワーク)を使用してドキュメントを分類しようとしています。短いテキスト/文のCNNは多くの論文で研究されています。ただし、長いテキストやドキュメントにCNNを使用した論文はないようです。 私の問題は、ドキュメントの機能が多すぎることです。私のデータセットでは、各ドキュメントに1000を超えるトークン/単語があります。各例をCNNに送るために、word2vecまたはgloveを使用して各ドキュメントをマトリックスに変換し、大きなマトリックスを作成します。各行列の高さはドキュメントの長さで、幅は単語埋め込みベクトルのサイズです。私のデータセットには9000を超える例があり、ネットワークのトレーニングに長い時間がかかり(1週間)、パラメーターの微調整が難しくなっています。 別の特徴抽出方法は、単語ごとにワンホットベクトルを使用することですが、これにより非常にスパース行列が作成されます。そしてもちろん、この方法では、以前の方法よりもトレーニングに時間がかかります。 それで、大きな入力行列を作成せずに特徴を抽出するためのより良い方法はありますか? また、可変長のドキュメントをどのように処理する必要がありますか?現在、ドキュメントを同じ長さにするために特別な文字列を追加していますが、これは良い解決策ではないと思います。

3
不均衡なクラス—偽陰性を最小限に抑える方法は?
バイナリクラス属性を持つデータセットがあります。クラス+1(癌陽性)のインスタンスは623個、クラス-1(癌陰性)のインスタンスは101,671個あります。 私はさまざまなアルゴリズム(ナイーブベイズ、ランダムフォレスト、AODE、C4.5)を試してみましたが、それらはすべて許容できない偽陰性率を持っています。ランダムフォレストは、全体の予測精度が最も高く(99.5%)、偽陰性率が最も低くなりますが、陽性クラスの79%は見落とします(つまり、悪性腫瘍の79%を検出できません)。 この状況を改善するにはどうすればよいですか? ありがとう!

3
正のラベルなしデータのみでバイナリ分類器を作成する
2つのデータセットがあり、1つは検出したい対象のポジティブインスタンス、もう1つはラベル付けされていないインスタンスです。どのような方法を使用できますか? 例として、いくつかの構造化された電子メールの特性に基づくスパム電子メールの検出を理解したいとします。スパムメールが10000のデータセットが1つと、スパムであるかどうかがわからない10万通のデータセットが1つあります。 (ラベルのないデータを手動でラベル付けせずに)この問題にどのように取り組むことができますか? ラベルなしデータのスパムの割合に関する追加情報がある場合はどうすればよいですか(つまり、1万個のラベルなしメールの20〜40%がスパムであると推定した場合はどうなりますか?)

4
分類ルールを生成するためのアルゴリズム
したがって、分類子によって解決される従来の問題領域にかなりきちんと適合する機械学習アプリケーションの可能性があります。つまり、アイテムを記述する一連の属性と、それらが最終的に含まれる「バケット」があります。ただし、モデルを作成するのではなくNaive Bayesや同様の分類子のような確率の場合、出力をエンドユーザーが確認および変更できるほぼ人間が読めるルールのセットにする必要があります。 アソシエーションルールの学習は、この種の問題を解決するアルゴリズムのファミリーのように見えますが、これらのアルゴリズムは、機能の一般的な組み合わせを特定することに焦点を当てているようで、これらの機能が指す可能性のある最終的なバケットの概念を含みません。たとえば、データセットは次のようになります。 Item A { 4-door, small, steel } => { sedan } Item B { 2-door, big, steel } => { truck } Item C { 2-door, small, steel } => { coupe } 「大きくて2ドアの場合はトラック」というルールが必要です。「4ドアの場合も小さい」というルールは必要ありません。 私が考えることができる1つの回避策は、単純に相関ルール学習アルゴリズムを使用して、エンドバケットを含まないルールを無視することですが、それは少しハックに思えます。そこにあるアルゴリズムのファミリーを見逃したことがありますか?それとも、最初から間違って問題に取り組んでいますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.