統計とビッグデータ classification

1

「ゴールドスタンダード」と「グラウンドトゥルース」の違いは何ですか？ 2つのWiki記事（つまり、ゴールドスタンダードとグラウンドトゥルース）は、モデルの精度/精度の点で両方の概念を相互に関連付けています。それは一つの可能性です。しかし、これらの概念は、ラベル付きデータセットについて話すときに交換可能に使用されることもわかりました。実際のラベル（グラウンドトゥルースまたはゴールドスタンダードとも呼ばれます）を取得できない場合もあります。（ソースpdf）

9 classification terminology

2

線形判別分析射影プロットを再現

線形判別分析（LDA）で投影点と格闘しています。多変量統計手法に関する多くの本は、LDAの考え方を下の図で示しています。問題の説明は次のとおりです。まず、決定境界を描き、垂直線を追加し、データポイントの投影をプロットする必要があります。垂線に投影点を追加する方法を知りたい。提案/ポインタはありますか？

9 r machine-learning classification discriminant-analysis

2

高度に不均衡なテストデータセットと分類におけるバランスのとれたトレーニングデータ

約3000の正のインスタンスと3000の負のインスタンスのトレーニングセットがあります。しかし、私のテストデータセットはほとんどバランスが取れていません。正のセットには50個のインスタンスしかなく、負のセットには1500個のインスタンスがあります。これにより、精度が非常に低くなります。この問題を解決する方法はありますか？SVMを使用して分類子を作成します。

9 machine-learning classification data-mining svm

2

ハイパーラインからの距離に応じたSVM信頼度

9 probability classification svm unsupervised-learning uncertainty

1

ストリームデータの分類器のインクリメンタルオンライン学習の手法

この抽象的な問題に直面するための良いテクニックはどれですか？物理的なセンサーからのデータのように、連続信号のデータストリームがあります。その信号には実際の（離散化された）値があり、属性はありません。依存性の特徴（例：パワー、自己相関、エントロピー）が抽出される場合があります。有限セットの1つのラベルを信号のウィンドウに割り当てることができます。このラベルをトレーニングラベルにします。ウィンドウの始点と終点、およびウィンドウラベルを選択する必要があります。信号が受信されたときと同じように、タスクは次のウィンドウをオンラインで分類することです。私はインクリメンタルアルゴリズムを求めています。より多くのトレーニングラベルが与えられれば、検出パフォーマンスが向上するという意味です。ただし、トレーニングラベルが1つしかない場合でも分類できる必要があります。 Windows境界の検出が原因で問題が難しすぎる場合は、小さな定数でサイズを修正できるとしましょう。したがって、アルゴリズムは信号の小さなスライスを分類し、同じラベルを持つ隣接するスライスをマージします。その簡略化されたアプローチを使用する場合は、それが合理的である理由を正当化してください。

9 machine-learning classification signal-processing online

1

カテゴリー化/セグメンテーション手法

まず、私はここでは少し深遠だと言っておきます。この質問を言い換えたり、重複としてクローズする必要がある場合は、お知らせください。質問を表現するための適切な語彙がないのかもしれません。私は、画像の特徴を特定し、形状、サイズ、暗さなどの特性に基づいてそれらを分類する画像処理タスクに取り組んでいます。これの画像処理部分についてはかなり経験がありますが、特徴の分類に使用する方法を改善できました。現在、測定した各パラメーターにしきい値を設定し、機能がどのしきい値を超えたかに基づいていくつかの単純なロジックに従って機能を分類しています。たとえば、（実際のプロパティとグループ化はより複雑ですが、この質問のためにプロジェクトの無関係な部分を簡略化しようとしています）、機能を「ビッグとダーク」、「ビッグとライト」のグループにグループ化しているとしましょう。そして「小」。次に、機能は「大小」の差分（size（A）> sizeThreshold）＆（darkness（A）> darknessThreshold）になります。AAAAAAAAA 目標は、分類が専門家レベルの人間によって行われた分類と一致するようにすることです。そのため、しきい値を設定して、人間とコンピューターが行ったグループ分けをいくつかのテストセットで最適に一致させ、分類が機能することを期待できます。新しいデータでうまく。これはすでにかなりうまく機能していますが、修正できると思われる特定の障害モードが1つあります。フィーチャーが「Big and Dark」に属することが知られているとしましょう。人間がこのように分類したのは、かろうじて十分な大きさでしたが、非常に暗く、「大きさ」の欠如をある程度補っていたためです。分類は厳密なバイナリロジックに基づいており、すべてのしきい値を超える必要があるため、私のアルゴリズムではこの機能を適切に分類できません。AAA I would like to improve this failure by making my algorithm better mimic the human guided process, in which a deficiency in one parameter can be compensated by an abundance of another. To do this, I would like to take each …

9 classification

2

one-vs-all分類器によるヒンジ損失

私は現在、1対すべての分類器の制約のない主形式を調べています ∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}) どこはインスタンスの数、 N Kはクラスの数、 N Fは特徴の数、 Xは N K × N Fのデータ行列、 yはクラスラベルのベクトル、 Wは N K × N 1つのクラスを残りのクラスから分割する超平面の重みにそれぞれが対応する行列 I、 Lは任意の損失関数です。NININ_I NKNKN_K NFNFN_F XXXNK×NFNK×NFN_K \times N_F yyy WWWNK×NINK×NIN_K \times N_I LLL 私の理解では、上記の汎関数は、関連するクラス内のサンプルと他のすべてのサンプルとの間の距離を最大化する各クラスの超平面を見つけようとします。超平面が正しく、その後に配置されている場合は常に、負でなければなりませんwがyの私 ⋅ X 私は常に正でなければなりませんし、私たちの損失関数がかなり低く戻ってくるはずです。wk⋅xiwk⋅xi\mathbf{w_k}\cdot\mathbf{x_i}wyi⋅xiwyi⋅xi\mathbf{w_{y_i}}\cdot\mathbf{x_i} 私はこの場合、結局はヒンジ損失を使用してこれを実装しようとしています max(0,1+wk⋅xi−wyi⋅ximax(0,1+wk⋅xi−wyi⋅xi\max(0,1+\mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i} ただし、上記では、超平面がすべてのサンプルをすべてのクラスに属するものとして分類する状況に陥ることはありませんでした。たとえば、1という条件で、クラス1を他のすべてのクラスから分離する超平面を見ている場合その場合、が誤ったクラスとして分類されていても、発生した損失は0になります。1+wk⋅xi<wyi⋅xi1+wk⋅xi<wyi⋅xi1+\mathbf{w_k}\cdot\mathbf{x_i}<\mathbf{w_{y_i}}\cdot\mathbf{x_i}xixi\mathbf{x_i} どこが間違っているのですか？または、がより高いスコアで終わるという条件で、が負であるか正であるかは関係ありませんか？ここで説明したヒンジ機能の使用は正しくないと感じていますが、今日のGoogleの使用は混乱を招いているだけです。wk⋅xiwk⋅xi\mathbf{w_k}\cdot\mathbf{x_i}wyi⋅xiwyi⋅xi\mathbf{w_{y_i}}\cdot\mathbf{x_i} 関連するメモで、上記の機能に1があるのはなぜですか？影響は少ないと思います。

9 classification loss-functions

1

ランダムフォレストと極端にランダム化されたツリーはどのように異なって分割されますか？

ランダムフォレストの場合、一連の機能のジニ不純物またはエントロピーによってノードを分割します。sklearnのRandomForestClassifierでは、Giniまたはエントロピー基準を使用して分割することを選択できます。ただし、Extra-Trees Classifierについて読んだところ、分割にはランダムな値が選択されています（おそらく、GiniやEntropyとは関係ありません）。sklearnのExtraTreesClassifierには、分割にGiniまたはエントロピーを選択するオプションがあります。ここでは少し混乱しています。

9 classification python random-forest scikit-learn

1

SVMコスト関数：新旧の定義

ソフトマージンSVMコスト/損失関数のさまざまな定義を主形式で調整しようとしています。理解できない「max（）」演算子があります。 SVMについては、Tan、Steinbach、およびKumarによる2006年の学部レベルの教科書「Introduction to Data Mining」で2006年に学びました。第5章のp。267-268。max（）演算子については言及されていないことに注意してください。これは、最適化問題の制約に正の値のスラック変数（）を導入することで実行できます。...修正された目的関数は次の方程式で与えられます。ξξ\xi f(w)=∥w∥22+C(∑Ni=1ξ)kf(w)=‖w‖22+C(∑i=1Nξ)k f(\mathbf{w}) = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k ここで、CCCとkkkはユーザー指定のパラメーターであり、トレーニングインスタンスの誤分類のペナルティを表します。このセクションの残りの部分では、問題を簡単にするためにkkk = 1 と仮定します。パラメータCCCは、検証セットでのモデルのパフォーマンスに基づいて選択できます。したがって、この制約付き最適化問題のラグランジアンは次のように書くことができます。 Lp=∥w∥22+C(∑Ni=1ξ)k−∑Ni=1λi(yi(w⋅xi+b)−1+ξi)−∑Ni=1μiξiLp=‖w‖22+C(∑i=1Nξ)k−∑i=1Nλi(yi(w⋅xi+b)−1+ξi)−∑i=1Nμiξi L_{p} = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k - \sum_{i=1}^{N} \lambda_i (y_i (\mathbf{w} \cdot \mathbf{x_i} + b) - 1 + \xi_i) - \sum_{i=1}^{N} \mu_i \xi_i …

9 machine-learning classification svm data-mining loss-functions

2

K = 1の場合のKNN分類器のトレーニングエラー

クイズでこの質問を受けました。K= 1の場合、KNN分類器のトレーニングエラーはどうなるのかと尋ねられました。KNN分類器にとってトレーニングは何を意味しますか？KNN分類器についての私の理解は、データセット全体を考慮し、新しい観測値に最も近いK近傍の大部分の値を割り当てることでした。トレーニングはどこにありますか？また、このために提供された正解は、データセットに関係なくトレーニングエラーがゼロになることでした。これはどのようにして可能ですか？

8 classification supervised-learning k-nearest-neighbour

4

すべての係数を0に縮小する投げ縄を解釈する方法は？

Lassoを使用して特徴選択を実行している338個の予測子と570個のインスタンス（残念ながらアップロードできません）のデータセットがあります。特に、次のcv.glmnetfrom関数を使用しglmnetています。ここmydata_matrixで、は570 x 339のバイナリマトリックスで、出力もバイナリです。 library(glmnet) x_dat <- mydata_matrix[, -ncol(mydata_matrix)] y <- mydata_matrix[, ncol(mydata_matrix)] cvfit <- cv.glmnet(x_dat, y, family='binomial') このプロットは、すべての変数がモデルから削除されたときに最小の逸脱が発生することを示しています。これは本当に、インターセプトを使用するだけで、単一の予測子を使用するよりも結果を予測しやすいのか、それともおそらくデータまたは関数呼び出しで誤りを犯したのか？これは前の質問と似ていますが、何も返答がありませんでした。 plot(cvfit)

8 r classification lasso glmnet

4

SVMで線形分離可能性が望ましいのはなぜですか？

上の画像を参照してください。明らかに、円は2つのクラスを分けることができます（左の画像）。なぜそれを関数にマップして線形分離可能にするためにそれほど苦労するのですか（右の画像）？誰か説明していただけますか？私は本当にウェブやYouTubeで講義を見つけることができませんでした

8 machine-learning classification svm separation

1

カーディナリティが大きく異なる場合の高カーディナリティ（多カテゴリ）カテゴリカルフィーチャのエンコード

カテゴリ機能のエンコードに関する質問を調べてきましたが、私の問題を説明するものは見つかりませんでした。見逃した場合はお詫びします。ほぼ同じ重要度のバイナリ変数とノミナル変数のデータセットがあるとします。ほとんどの分類子はカテゴリ型を直接処理できないため、これらを変換する必要があります。たとえば、この回答で説明されているように、ワンホットエンコーディング（ダミー変数）を使用します。 1つのカテゴリ変数のカーディナリティが高い場合、この方法で他の（たとえばバイナリ）変数を "圧倒"してエンコードしませんか？「カーディナリティー」とは、名目変数内のカテゴリーの数を意味します。分類子モデルが変数間の関係を認識している場合、同じ変数の導入されたバイナリダミー「コンポーネント」間の関係を不必要に見つけようとしないのではないでしょうか。もしそうなら、これはどのように対処できますか？私が考えることができる最良の解決策は、高カーディナリティのプロパティを論理的に「バケット」にグループ化することですが、問題となるのに十分な一意の値がある場合、手動でそれらをグループ化すると、労力もかかります。編集：これは取るに足らないことであり、部分的にのみ問題に対処しますが、私がやったことの1つは、比較的まれなすべてのカテゴリ値を新しい「その他」のカテゴリに置き換えることです。値を「まれ」と見なす場合、しきい値を最適化するのに時間がかかる可能性がありますが、少なくともこのアプローチは自動化できます。

8 classification categorical-data dimensionality-reduction feature-construction many-categories

1

回帰の定義

ウィキペディアから：統計モデリングでは、回帰分析は変数間の関係を推定するための統計プロセスです。従属変数と1つ以上の独立変数（または「予測子」）の間の関係に焦点が当てられている場合、いくつかの変数をモデル化および分析するための多くの手法が含まれます。分類は同じではありませんか？結局、それは機械学習の目的ではないでしょうか？

8 regression machine-learning classification definition

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

タグ付けされた質問 「classification」

タグ付けされた質問「classification」