タグ付けされた質問 「classification」

統計的分類は、サブ母集団が既知である観測を含むデータのトレーニングセットに基づいて、サブ母集団のアイデンティティが不明な場合に、新しい観測が属するサブ母集団を識別する問題です。したがって、これらの分類は、統計学によって研究することができる変数の動作を示します。

3
単純なベイジアン分類器のパフォーマンスが優れているのはなぜですか?
単純ベイズ分類器は、分類問題の一般的な選択肢です。これには、次のような多くの理由があります。 「Zeitgeist」-約10年前のスパムフィルターの成功後の広範な認識 書きやすい 分類子モデルの構築は高速です モデルを再構築することなく、新しいトレーニングデータでモデルを変更できます。 しかし、それらは「素朴」です-つまり、特徴が独立していると仮定します-これは、最大エントロピー分類器(計算が遅い)などの他の分類器とは対照的です。 独立性の仮定は通常仮定することができず、スパムフィルターの例を含む多くの(ほとんど?)場合、それは単に間違っています。 では、なぜ機能が互いに独立していない場合でも、Naive Bayes Classifierはそのようなアプリケーションで非常に優れたパフォーマンスを発揮するのでしょうか?

2
ImageNet:トップ1およびトップ5エラー率とは何ですか?
ImageNet分類論文では、トップ1とトップ5のエラー率は、いくつかのソリューションの成功を測定するための重要な単位ですが、それらのエラー率はどのくらいですか? 深い畳み込みニューラルネットワークとImageNet分類 Krizhevskyらによる。1つのCNN(7ページ)に基づくすべてのソリューションには、上位5つのエラー率がありませんが、5および7 CNNのソリューションにはあります(また、7 CNNのエラー率は5 CNNよりも優れています)。 これは、トップ1のエラー率が1つのCNNの最高のシングルエラー率であることを意味しますか? トップ5のエラー率は、単に5つのCNNの累積エラー率ですか?

3
文書全体に単語の埋め込みを適用して、特徴ベクトルを取得します
ワード埋め込みを使用して、教師あり学習での使用に適した特徴ベクトルにドキュメントをマッピングするにはどうすればよいですか? ワード埋め込みは各ワードをマップベクターにここで、一部ではない余りに多数(例えば、500)です。人気のある単語の埋め込みには、word2vecとGloveが含まれます。V ∈ Rの Dの DwwwV ∈Rdv∈Rdv \in \mathbb{R}^dddd 教師あり学習を適用してドキュメントを分類したい。現在、bag-of-words表現を使用して各ドキュメントを特徴ベクトルにマッピングし、市販の分類器を適用しています。単語の埋め込みに含まれるセマンティック知識を活用するために、単語の特徴ベクトルを既存の事前学習済みの単語の埋め込みに基づくものに置き換えたいと思います。それを行う標準的な方法はありますか? いくつかの可能性を想像できますが、最も意味のあるものがあるかどうかはわかりません。私が検討した候補アプローチ: ドキュメント内の各単語のベクトルを計算し、それらすべてを平均化することができました。ただし、これは多くの情報を失う可能性があるようです。たとえば、word-of-words表現では、分類タスクに非常に関連性のある単語がいくつかあり、ほとんどの単語が無関係である場合、分類子はそれを簡単に学習できます。文書内のすべての単語のベクトルを平均すると、分類子にはチャンスがありません。 すべての単語のベクトルを連結しても機能しません。これは、固定サイズの特徴ベクトルにならないためです。また、単語の特定の配置に過度に敏感になるため、悪い考えのように思えます。 単語の埋め込みを使用して、すべての単語の語彙をクラスタの固定セット、たとえば1000個のクラスタにクラスタ化できます。この場合、ベクトルのコサイン類似度を単語の類似度の尺度として使用します。次に、バッグオブワードの代わりに、バッグオブクラスターを使用することができます。分類器に提供する特徴ベクトルは、1000 番目のベクトルにすることができ、番目のコンポーネントはドキュメント内の単語の数をカウントしますクラスター一部です。私私私i私私i 単語与えられると、これらの単語の埋め込みにより、上位20個の最も類似した単語とそれらの類似度スコアセットを計算できます。これを使用して、単語のような特徴ベクトルを適応させることができました。私は単語を見たとき、単語に対応する要素インクリメントに加えて、により、Iはまた、単語に対応する要素増分ができによって、単語に対応する要素増分により、というように。w 1、… 、w 20 s 1、… 、s 20 w w 1 w 1 s 1 w 2 s 2wwww1、… 、w20w1、…、w20w_1,\dots,w_{20}s1、… 、s20s1、…、s20s_1,\dots,s_{20}wwwwww111w1w1w_1s1s1s_1w2w2w_2s2s2s_2 文書の分類に適した特定のアプローチはありますか? パラグラフ2vecまたはdoc2vecを探していません。それらは大規模なデータコーパスのトレーニングを必要とし、私は大規模なデータコーパスを持っていません。代わりに、既存の単語埋め込みを使用したいと思います。

6
多くのカテゴリ変数を使用して分類を改善する
私は200,000以上のサンプルとサンプルあたり約50の特徴を持つデータセットに取り組んでいます:10の連続変数と他の〜40はカテゴリ変数(国、言語、科学分野など)です。これらのカテゴリ変数には、たとえば150か国、50の言語、50の科学分野などがあります。 これまでの私のアプローチは次のとおりです。 多くの可能な値を持つカテゴリ変数ごとに、この値を取得する10000個を超えるサンプルを持つ変数のみを取得します。これにより、150ではなく5〜10のカテゴリに減少します。 カテゴリカル変数ごとにダミー変数を作成します(10か国の場合、サンプルごとにサイズ10のバイナリベクトルを追加します)。 このデータをランダムフォレスト分類器(パラメーターのクロス検証など)にフィードします。 現在、このアプローチでは、65%の精度しか得られず、さらに多くのことができるように感じています。特に、1)に満足していません。サンプルの数に応じて「最も関連性の低い値」を勝手に削除してはいけないように感じるからです。一方、RAMには、可能なすべての値を保持することで、データに500列* 200000行を追加する余裕がありません。 この多くのカテゴリ変数に対処するための提案はありますか?

3
SVM、オーバーフィット、次元の呪い
私のデータセットは小さい(120サンプル)が、特徴の数は(1000-200,000)と大きく異なる。機能のサブセットを選択するために機能の選択を行っていますが、それでも過剰に機能する可能性があります。 私の最初の質問は、SVMが過剰適合をどのように処理するかということです。 第二に、分類の場合の過剰適合についてさらに研究するにつれて、少数の特徴を持つデータセットでさえ過剰適合できるという結論に達しました。クラスラベルに関連付けられたフィーチャがない場合、とにかくオーバーフィットが行われます。クラスラベルに適した機能が見つからない場合、自動分類のポイントは何なのかと思っています。文書分類の場合、これはラベルに関連する単語のシソーラスを手動で作成することを意味し、非常に時間がかかります。私が言いたいことは、適切な機能を手で選ぶことなく、一般化モデルを構築することは非常に難しいと思いますか? また、実験結果で結果のオーバーフィッティングが低/無であることを示さない場合、意味がなくなります。それを測定する方法はありますか?

2
2クラス分類器としてのロジスティック回帰とLDA
私は、線形判別分析とロジスティック回帰の統計的な違いに頭を悩ませようとしています。2クラス分類問題の場合、LDAは交差する線形境界を作成する2つの標準密度関数(各クラスに1つ)を予測しますが、ロジスティック回帰は2つのクラス間の対数奇数関数のみを予測することを理解しています境界を作成しますが、各クラスの密度関数を想定していませんか?

3
PCAとトレイン/テストの分割
複数のバイナリラベルセットがあるデータセットがあります。ラベルのセットごとに、分類器をトレーニングし、相互検証によって評価します。主成分分析(PCA)を使用して次元を減らしたい。私の質問は: データセット全体に対して PCAを一度実行してから、上記のように相互検証に低次元の新しいデータセットを使用することは可能ですか?または、すべてのトレーニングセットに対して個別のPCAを実行する必要がありますか(つまり、すべての分類子およびすべての相互検証フォールドに対して個別のPCAを実行することを意味します)。 一方では、PCAはラベルを使用しません。一方、テストデータを使用して変換を行うため、結果に偏りが生じる可能性があります。 作業を節約することに加えて、データセット全体でPCAを1回実行すると、すべてのラベルセットのデータセットを一度に視覚化できることに注意してください。ラベルセットごとに異なるPCAがある場合、各ラベルセットを個別に視覚化する必要があります。

3
ランダムフォレストのOOBと混同マトリックスを解釈する方法は?
誰かからランダムスクリプトモデルを実行するRスクリプトを受け取りました。いくつかの従業員データを使用して変更して実行しました。自発的な分離を予測しようとしています。 いくつかの追加情報があります。これは、0 =従業員が留まる、1 =従業員が解雇される分類モデルです。現在、12個の予測変数のみを調べています。レコードセット全体の%。 さまざまなmtryおよびntreeの選択を使用してモデルを実行しましたが、以下で解決しました。OOBは6.8%で良いと思いますが、エラーマトリックスは92.79%と非常に高いため、混同マトリックスは用語を予測するための別の話をしているようです。用語を予測するための高いエラー率?または、RFを使用して用語を予測するためのエラー率を小さくするためにできることはありますか? FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100) ntree OOB 1 2 100: 6.97% 0.47% 92.79% 200: 6.87% 0.36% 92.79% 300: 6.82% 0.33% 92.55% 400: 6.80% 0.29% 92.79% 500: 6.80% 0.29% 92.79% > print(FOREST_model) Call: randomForest(formula = theFormula, data = trainset, mtry = 3, ntree …

5
非常に高次元の分類のための無料のデータセット[終了]
1000を超えるフィーチャ(または曲線を含む場合はサンプルポイント)を使用した分類のために無料で利用できるデータセットは何ですか 無料のデータセットに関するコミュニティWikiが既にあります: 自由に利用可能なデータサンプルの検索 しかし、ここでは、より便利に使用できる、より焦点の絞られたリストがあればいいと思います。また、次の規則を提案します。 データセットごとに1つの投稿 データセットのセットへのリンクはありません 各データセットはに関連付けられている必要があります 名前(それが何であるかを把握するため)およびデータセットへのリンク(Rデータセットは、パッケージ名を付けることができます) フィーチャの数(pとする)、データセットのサイズ(nとする)およびラベル/クラスの数(kとする) あなたの経験からの典型的なエラー率(使用されたアルゴリズムを言葉で表す)またはリテラチャーからのこのエラー率(この最後のケースでは論文をリンクします)

3
t-SNEがクラスタリングまたは分類の次元削減手法として使用されないのはなぜですか?
最近の割り当てでは、MNISTの数字でPCAを使用して、寸法を64(8 x 8画像)から2に減らすように言われました。その後、ガウス混合モデルを使用して数字をクラスター化する必要がありました。2つの主成分のみを使用するPCAは、明確なクラスターを生成せず、その結果、モデルは有用なグループ化を生成できません。 ただし、2つのコンポーネントを持つt-SNEを使用すると、クラスターの分離が大幅に改善されます。ガウス混合モデルは、t-SNEコンポーネントに適用すると、より明確なクラスターを生成します。 2コンポーネントのPCAと2コンポーネントのt-SNEの違いは、MNISTデータセットに変換が適用された次の画像のペアで見ることができます。 t-SNEは、この回答のように高次元データの視覚化にのみ使用されることを読んでいますが、それが生成する明確なクラスタを考えると、なぜ分類モデルに使用される次元削減手法として使用されないのですか?スタンドアロンのクラスタリング方法?

3
ランダムフォレストモデルでの精度の平均低下とGINIの平均低下の解釈方法
ランダムフォレストパッケージからの変数の重要度の出力を解釈する方法を理解するのに少し苦労しています。通常、精度の平均低下は、「各フィーチャの値を並べ替えることによるモデルの精度の低下」として説明されます。 これは、機能全体または機能内の特定の値に関する記述ですか?どちらの場合でも、平均精度の低下は、問題のフィーチャ(またはフィーチャからの値)をモデルから削除することによって誤って分類された観測の数または割合ですか? 次のモデルがあるとします。 require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of random forest: classification Number of trees: …

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
「弱い学習者」とはどういう意味ですか?
「弱い学習者」という語句の意味を教えてください。それは弱い仮説であると思われますか?弱い学習者と弱い分類器の関係について混乱しています。両方とも同じですか、それとも何らかの違いがありますか? AdaBoostのアルゴリズムでは、T=10。それはどういう意味ですか?なぜ選択するのT=10ですか?


6
テキストの統計的分類
私は統計的背景のないプログラマーであり、現在、事前に定義されたカテゴリーに分類したい多数の異なる文書について、異なる分類方法を検討しています。私はkNN、SVM、NNについて読んでいます。ただし、開始するのに苦労しています。どのリソースをお勧めしますか?私は単一変数および多変数計算を非常によく知っているので、私の数学は十分に強力でなければなりません。私は、Neural Networksに関するBishopの本も所有していますが、序論としては少々高密度であることが証明されています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.