統計とビッグデータ classification

1

信号処理手法であるMel周波数Cepstrumは、機械学習タスクで使用するために楽曲から情報を抽出するためによく使用されます。この方法は短期間のパワースペクトルを与え、係数は入力として使用されます。音楽検索システムの設計では、そのような係数は作品の特性と見なされます（明らかに一意である必要はありませんが、区別されます）。ネットワークでの学習により適した特性はありますか？エルマンネットワークのようなもので使用されている楽曲の低音進行のような時間的に変化する特性は、より効果的に機能しますか？どの特性が、分類が行われる可能性のある十分に広範なセットを形成するでしょうか？

10 machine-learning classification signal-processing mfcc

4

糖尿病のSVM分類の改善

私はSVMを使用して糖尿病を予測しています。この目的でBRFSSデータセットを使用しています。データセットの次元はであり、歪んでいます。ターゲット変数のs のパーセンテージはで、sは残りの構成します。11 ％89 ％432607×136432607×136432607 \times 136Y11%11%11\%N89%89%89\% データセットの独立変数の15うち、使用しているのは私だけです136。データセットを減らす理由の1つは、NAs を含む行が省略されたときにトレーニングサンプルを増やすことでした。これらの15変数は、ランダムツリー、ロジスティック回帰などの統計的手法を実行し、結果のモデルからどの変数が重要であるかを見つけた後に選択されました。たとえば、ロジスティック回帰を実行した後p-value、最も重要な変数を並べ替えるために使用しました。変数の選択を行う私の方法は正しいですか？への提案は大歓迎です。以下は私のR実装です。 library(e1071) # Support Vector Machines #-------------------------------------------------------------------- # read brfss file (huge 135 MB file) #-------------------------------------------------------------------- y <- read.csv("http://www.hofroe.net/stat579/brfss%2009/brfss-2009-clean.csv") indicator <- c("DIABETE2", "GENHLTH", "PERSDOC2", "SEX", "FLUSHOT3", "PNEUVAC3", "X_RFHYPE5", "X_RFCHOL", "RACE2", "X_SMOKER3", "X_AGE_G", "X_BMI4CAT", "X_INCOMG", "X_RFDRHV3", "X_RFDRHV3", "X_STATE"); target <- "DIABETE2"; …

10 r classification svm feature-selection e1071

2

分類の目的でPCAをテストデータに適用する

最近、素晴らしいPCAについて学び、scikit-learnのドキュメントで概説されている例を実行しました。分類の目的でPCAを新しいデータポイントに適用する方法を知りたいです。 PCAを2次元平面（x、y軸）で視覚化した後、データポイントを分割する線を描画して、片側が別の分類になり、もう一方が別の分類になるようにすることができます。この「境界」を描画して新しいデータポイントに適用するにはどうすればよいですか？

10 classification pca scikit-learn

1

樹状図クラスタリングのコフェネティック相関について

樹状図クラスタリングのコンテキストを検討してください。元の非類似性を個人間の距離と呼びましょう。樹状図を作成した後、2人の個人間のコフェネティック非類似性を、これらの個人が属するクラスター間の距離として定義します。一部の人々は、元の非類似性とコフェン的非類似性の間の相関（コフェン的相関と呼ばれる）は分類の「適合性指標」であると考えています。これは私にはまったく不可解に聞こえます。私の異論は、ピアソン相関の特定の選択に依存していませんが、元の非類似性とコフェン的非類似性の間のリンクは分類の適合性に関連している可能性があるという一般的な考えに依存しています。私に同意しますか、それとも樹状図分類の適合性指標としてのコフェン的相関の使用を支持する議論を提示できますか？

10 clustering classification

2

連続変数とバイナリ変数をもつK最近傍点

列a b c（3つの属性）を持つデータセットがあります。aは数値で連続的でありb、c2つのレベルを持つカテゴリカルです。K-Nearest Neighborsメソッドを使用して分類aしbていcます。したがって、距離を測定できるようにするには、bとを削除して追加することでデータセットを変換b.level1しb.level2ます。観測にカテゴリのi最初のレベルがある場合b、b.level1[i]=1およびb.level2[i]=0。これで、新しいデータセットで距離を測定できます。 a b.level1 b.level2 理論的/数学的観点から：バイナリデータと連続データの両方でK最近傍（KNN）を実行できますか？ FNNRでパッケージと関数を使用していますknn()

10 r classification k-nearest-neighbour

4

AUCは、各クラスからランダムに選択されたインスタンスを正しく分類する確率ですか？

私はこのキャプションを紙で読んで、このように記述されたAUCを他のどこでも見たことはありません。これは本当ですか？これを確認するための証明または簡単な方法はありますか？図2は、受信者操作特性曲線（AUC）の下の面積で表される二分変数の予測精度を示しています。これは、ランダムに選択された2人のユーザーを各クラス（男性と女性など）から正しく分類する確率に相当します。）。 AUC = 0.5の場合、コインフリップが2回続けて正しく予測される確率が50％であることを示唆しているため、それは真実ではないように思えますが、実際には25％の確率しかありません2つのコインフリップを続けて正しく予測する方法。少なくとも、それが私がこの発言について考えている方法です。

10 classification roc auc

3

アンバランスデータセットをたたみ込みニューラルネットワーク（CNN）で分類する方法

バイナリ分類タスクに不均衡なデータセットがあり、陽性量と陰性量は0.3％対99.7％です。ポジティブとネガティブの間のギャップは巨大です。MNIST問題で使用されている構造でCNNをトレーニングすると、テスト結果に高い偽陰性率が示されます。また、トレーニングエラーカーブは、最初はいくつかのエポックで急速に低下しますが、その後のエポックでは同じ値のままです。この問題を処理する方法を教えてください。ありがとう！

10 classification neural-networks deep-learning convolution computer-vision

2

Fメジャーは正確さと同義ですか？

fメジャー（精度と再現率に基づく）は、分類子の正確さの見積もりであることを理解しています。また、不均衡なデータセットがある場合、fメジャーは精度よりも優先されます。簡単な質問があります（これはテクノロジーよりも正しい用語を使用することについてです）。不均衡なデータセットがあり、実験でfメジャーを使用しています。機械学習/データマイニング会議用ではない論文を書こうとしています。したがって、このコンテキストでは、fメジャーを正確に同義で参照できますか。たとえば、f値が0.82の場合、分類子は82％の正確な予測を達成したと言えますか？

10 machine-learning classification data-mining unbalanced-classes accuracy

1

ガウス混合の成分の最適数

したがって、k平均法でクラスターの最適な数の「アイデア」を取得することは十分に文書化されています。ガウス混合でこれを行うことに関する記事を見つけましたが、私がそれを確信していると確信していないので、よく理解していません。これを行う...より穏やかな方法はありますか？

10 classification k-means mixture unsupervised-learning

1

複数のクラスがある場合、分類子の確率しきい値をどのように調整できますか？[重複]

この質問にはすでにここで答えがあります：混同行列を取得するためにマルチクラス確率予測をしきい値処理する方法は？（1つの答え） 3か月前に閉鎖。上記は、いくつかの確率に基づいて、バイナリクラスのケースの確率分類子出力が0または1の非常に単純な例です。さらに、しきい値を変更する方法は簡単です。しきい値を50％より高くまたは低く設定して、精度/再現率のバランスを変更し、独自の状況に合わせて最適化します。ただし、マルチクラスシナリオで同じ考え方をしようとすると、下の図に示すように3つのクラスでも（これらは確率であると想像してください）どのようにして、しきい値をシフトする方法を考え始めますか？デフォルトでは、最も確率の高いクラスを使用します（ここではクラス3）。このバランスを取りたい場合（精度/再現率に影響を与えるため）、何ができますか？最初の最も支配的なクラスをそれらを再正規化し、これらの2つの間にしきい値を設定することを検討することもできますが、これは洗練されたソリューションのようには聞こえません。従うべき確かな方法論はありますか？

10 probability classification precision-recall multi-class

1

ソフトラベルでクロスエントロピー損失関数を使用しても問題ありませんか？

ピクセルにハード0,1ラベルではなくソフトラベル（確率を示す）でラベル付けされる分類の問題があります。以前、ハード0,1ピクセルのクロスエントロピー損失関数（CaffeのsigmoidCross entropyLossLayer）にラベルを付けると、まともな結果が得られました。このソフト分類問題にシグモイドクロスエントロピー損失層（Caffeから）を使用しても大丈夫ですか？

10 classification loss-functions

3

高い再現率-不均衡なデータセットの精度が低い

現在、サポートベクターマシンでツイートデータセットを分析しているときに問題が発生しています。問題は、バランスの取れていないバイナリクラストレーニングセット（5：2）があることです。これは実際のクラス分布に比例すると予想されます。予測すると、検証セットの少数派クラスの精度が低くなります（0.47）。再現率は0.88です。実際のクラス分布を反映するために検証セットも不均衡であるため、精度を向上させなかった（トレーニングセットで実行される）いくつかのオーバーサンプリングおよびアンダーサンプリングメソッドを使用しようとしました。また、サポートベクターマシンにさまざまなコストを実装しました。もうパフォーマンスが上がらないようです。私の想起を損なうことなく精度を向上させるために私ができることについて、何かアドバイスはありますか？さらに、なぜ私が偽陰性より陽性の方がはるかに多いのか誰かに手掛かりがありますか（陽性は少数派クラスです）？

10 machine-learning classification svm unbalanced-classes precision-recall

2

順序付けられたクラスによる分類？

たとえば、人の画像を若い、中年、または古いのいずれかに割り当てる分類子をトレーニングしたいとします。簡単な方法は、クラスを独立したカテゴリとして扱い、分類子をトレーニングすることです。しかし、どうやらクラス間にいくつかの関係があります。どうすればこれを利用してより良くなることができますか？私は多分私にできることを考えてい予測の損失増加と言う、損失を変更）1を若者として古いまたは古いとして若いです。 2）それを回帰問題に変換します。若い、中年、古いは0、1、2と表現されます。

10 regression machine-learning classification discrete-data

2

転移学習用の事前トレーニング済みモデルの場所[終了]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 2年前休業。私は機械学習の分野に不慣れですが、Kerasで簡単な分類アルゴリズムを試して実装したいと思っていました。残念ながら、私はデータのセットが非常に少ないので、問題に転移学習を適用しようと考えました。しかし、オンラインでこれを見つけることができなかったので、事前トレーニング済みのニューラルネットワークを探すのに最適な場所はどれなのかを理解する必要がありました。これに関して何か提案はありますか？機械学習プロジェクトの開始方法に関するアイデアを得るのに最適なWebサイトはどれですか。

9 machine-learning classification neural-networks transfer-learning

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

タグ付けされた質問 「classification」

タグ付けされた質問「classification」