タグ付けされた質問 「classification」

統計的分類は、サブ母集団が既知である観測を含むデータのトレーニングセットに基づいて、サブ母集団のアイデンティティが不明な場合に、新しい観測が属するサブ母集団を識別する問題です。したがって、これらの分類は、統計学によって研究することができる変数の動作を示します。

2
リレーショナルデータからの学習
設定 多くのアルゴリズムは単一のリレーションまたはテーブルで動作しますが、実際のデータベースの多くは情報を複数のテーブルに格納します(Domingos、2003)。 質問 どのタイプのアルゴリズムが複数の(リレーショナル)テーブルからうまく学習しますか。特に、回帰と分類のタスクに適用可能なアルゴリズムに興味があります(リンク分析などのネットワーク分析指向のアルゴリズムではありません)。 以下にリストされているいくつかのアプローチを認識しています(しかし、いくつかのアプローチが欠けていることは確かです): マルチリレーショナルデータマイニング(MRDM)(Dzeroski、2002年) 帰納論理プログラミング(ILP)(Muggleton、1992) 統計的関係学習(SRL)(Getoor、2007年) Džeroski、S.(2003)。マルチリレーショナルデータマイニング:はじめに。ACM SIGKDD Explorationsニュースレター。 Getoor、Lise、およびBen Taskar編。統計的関係学習の紹介。MITプレス、2007年。 S.マグルトンとC.フェン 論理プログラムの効率的な導入。アルゴリズム学習理論に関する最初の会議の議事録、368–381ページ。オームシャ、東京、1990年。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
1つの主要な予測子による分類
(クラス)分類問題があり、100程度の実数値予測子があり、そのうちの1つは他のどれよりもはるかに説明力があるようです。他の変数の影響についてさらに詳しく説明したいと思います。ただし、標準の機械学習手法(ランダムフォレスト、SVMなど)は、1つの強力な予測子に圧倒され、他の興味深い情報はあまり得られないようです。kkk これが回帰問題である場合、私は単純に強力な予測子に対して回帰し、残差を他のアルゴリズムの入力として使用します。しかし、このアプローチがどのように分類コンテキストに変換されるのか、実際にはわかりません。 私の本能は、この問題はかなり一般的である必要があるということです。それを処理するための標準的な手法はありますか?

2
分類のためにトレーニングセットから重複を削除する
分類問題のための行がたくさんあるとしましょう: バツ1、。。。バツN、Yバツ1、。。。バツN、YX_1, ... X_N, Y どこ機能/予測因子であると、行の機能の組み合わせが属するクラスです。バツ1、。。。、XNバツ1、。。。、バツNX_1, ..., X_NYYY 多くの特徴の組み合わせとそれらのクラスがデータセットで繰り返されています。これは、分類器を適合させるために使用しています。重複を削除することは許容できるかどうか疑問に思っていgroup by X1 ... XN Yます(基本的にSQLでa を実行します)?ありがとう。 PS: これは、クラスの事前分布がかなり歪んでいるバイナリプレゼンスのみのデータセット用です。

2
時系列のゼロ平均部分を見つけるための最新の方法
ノイズの多い時系列があり、平均がゼロの部分と平均がゼロの部分に分割する必要があります。境界をできるだけ正確に見つけることが重要です(境界が正確にどこにあるかを明らかにすることは、少し主観的です)。私はcusumバリアントをこれに適合させることができると思いますが、cusumは主に、セグメンテーション戦略全体を完全に対処しないままにする単一の変更を見つけることに関するものです。 この問題については多くの調査が行われたと思いますが、見つけることができませんでした。 PSこれらの時系列のデータ量は非常に大きく、つまり最大で数億のサンプルであり、個々のサンプルは数百の成分を持つベクトルになる可能性があるため、合理的に迅速に計算できる方法は重要な要素です。 PPSセグメンテーションタグがないため、分類タグがあります。

4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

1
データを再シャッフルする必要がありますか?
入手するのにかなり高額だった生物学的サンプルのセットがあります。これらのサンプルを一連のテストに通して、予測モデルの構築に使用されるデータを生成します。この目的のために、サンプルをトレーニングセット(70%)とテストセット(30%)に分けました。モデルを正常に作成し、テストセットに適用して、パフォーマンスが「最適ではない」ことを発見しました。実験家は、より良いモデルを作成するために生物学的試験を改善したいと考えています。新しいサンプルを入手できない場合は、サンプルを再シャッフルして新しいトレーニングと検証セットを作成するか、元の分割を使用することを提案してください。(この分割が問題のある分割だったことを示すものはありません)。

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
クラス変数に不等分布の分類問題がある場合、どの手法を使用する必要がありますか?
たとえば。2つのクラスgoodとbadのクラス変数クレジットスコアリングがある場合(#(good)= 700および#(bad)= 300)。データを短くしたくありません。どのテクニックを使うべきですか?私はSVMを使用していましたが、それはすべての予測に悪影響を与えています。

3
ランダムフォレストツリーを2進数ではなく10進数に投票する方法
私の質問は、バイナリ分類についてです。たとえば、良い顧客と悪い顧客を区別しますが、回帰や非バイナリ分類はそうではありません。このコンテキストでは、ランダムフォレストは分類木の集合です。各観測について、すべての木が「はい」または「いいえ」に投票し、すべての木の平均投票が最終的な森林確率です。 私の質問は、基になるツリーの動作を変更することです。RのrandomForestパッケージのrandomForest関数を変更して、各ツリーがバイナリのyes / noではなく10進数に投票するようにするにはどうすればよいですか。10進数の意味をよりよく理解するために、決定木がどのように機能するかを考えてみましょう。 完全に成長したディシジョンツリーのターミナルノードには、1つの良いインスタンスまたは1つの悪いインスタンスがあります。ターミナルノードのサイズを100に制限するとします。ターミナルノードは次のようになります。 Node1 = 80不良、20良好 Node2 = 51不良、49良好 Node3 = 10不良、90良好 Node1とNode2が「悪い」と投票したとしても、「悪さの強さ」は大きく異なります。それが私の狙いです。1または0(デフォルトの動作)を生成する代わりに、Rパッケージを変更して、80 / 100、51 / 100、10 / 100などに投票できますか?

2
分類器がデータを誤って分類するのはなぜですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 2年前休業。 データ自体からのものでしょうか?それとも、モデルがデータ間の類似性を効率的に検出できないためですか、それとも誤分類の原因は他にありますか?

2
ランダムフォレストは、不均衡なデータ分類に適したオプションですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 3年前休業。 データの変動性に似たアプローチやその他のアプローチの増加にもかかわらず、「アルゴリズムとしての」ランダムフォレストは、不均衡なデータ分類の優れたオプションと見なすことができますか?

4
マルチクラスのマシューズ相関係数
マシューズ相関係数()は、バイナリ分類の品質を測定する測定値です([Wikipedia] [1])。定式化は、真陽性()、偽陽性()、偽陰性()、および真陰性()の値を利用して、以下のようにバイナリ分類を行います。MCCMCC\textrm{MCC}MCCMCC\textrm{MCC} T P F P F N T NTPTPTPFPFPFPFNFNFNTNTNTN MCC = TP× TN− FP× FN(TP+ FP)(TP+ FN)(TN+ FP)(TN+ FN)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√MCC=TP×TN−FP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)\textrm {MCC} = \frac{TP\times TN - FP\times FN}{\sqrt{\left(TP+FP\right)\left(TP+FN\right)\left(TN+FP\right)\left(TN+FN\right)}} 、、 3つの異なるクラスを分類する必要がある場合があります。上記の定式化を適用して、以下に示すように各クラスの、、、および値を計算した後、マルチクラスケースのを計算できますか? あAABBBCCCMCCMCC\textrm{MCC}TPTPTPTNTNTNFPFPFPFNFNFNTP=TPA+TPB+TPC;TN=TNA+TNB+TNC;FP=FPA+FPB+FPC;FN=FNA+FNB+FNC;TP=TPA+TPB+TPC;TN=TNA+TNB+TNC;FP=FPA+FPB+FPC;FN=FNA+FNB+FNC; TP = TP_A + TP_B + TP_C;\\ TN = TN_A + TN_B + TN_C;\\ FP = FP_A + FP_B + …

3
KNN:1最近傍
私の質問は、1最近傍の分類子についてであり、Hastie、Tibshirani、およびFriedman著の優れた書籍The Elements of Statistical Learningで行われた声明についてです。ステートメントは(p。465、セクション13.3)です。 「クエリポイントに最も近いトレーニングポイントのみを使用するため、1最近傍推定値のバイアスは低くなることがよくありますが、分散は高くなります。」 この本はhttp://www-stat.stanford.edu/~tibs/ElemStatLearn/download.htmlから入手できます 。 まず、バイアスと分散とは何かを定義できます。「どのようにして、次元を増やすことができるか、分散を増やすか、バイを増やすことなく」という質問から、次のようになります。 「まず第一に、分類子のバイアスは、平均された推定関数と真の関数の間の不一致ですが、分類子の分散は、平均値からの推定予測関数の予想される発散です(つまり、分類子がランダムにどの程度依存しているかトレーニングセットで行われたサンプリング)。 したがって、バイアスの存在はモデルに基本的に何か問題があることを示しますが、分散も悪いですが、高い分散を持つモデルは少なくとも平均して十分に予測できます。」 誰かが1最近傍分類器の分散が高く、バイアスが低い理由を説明できますか?

1
線形判別分析
James、Witten、Hastie、Tibshiraniによる「統計学習入門」を勉強しています。 彼らの本の139ページで、彼らはベイズの定理紹介することから始めました。は数学定数ではありませんが、事前確率を示します。この方程式には何も奇妙なことはありません。pk(X)=P(Y=k|X=x)=πkfk(x)∑kl=1πlfl(x)pk(X)=P(Y=k|X=x)=πkfk(x)∑l=1kπlfl(x)p_k(X)=P(Y=k|X=x) = \dfrac{\pi_kf_k(x)}{\sum_{l=1}^k \pi_l f_l(x)}ππ\pi この本は、上記の方程式に組み込むことができる推定値を取得したいと主張しています。を推定するために、それが正常であると想定しています。1次元設定では、、ここでとは番目のクラスの平均と分散です。これは、想定された。(私は最後のステートメントから混乱し始めました。)fk(x)fk(x)f_k(x)fk(x)fk(x)f_k(x)fk(x)=12π−−√σexp(−12σ2(x−μk)2)fk(x)=12πσexp⁡(−12σ2(x−μk)2)f_k(x)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp(-\dfrac{1}{2\sigma^2}(x-\mu_k)^2)μkμk\mu_kσ2kσk2\sigma^2_kkkkσ21=σ22=⋯=σ2Kσ12=σ22=⋯=σK2\sigma^2_1 = \sigma^2_2 = \cdots = \sigma^2_K をにプラグ、これはかなり厄介な方程式(1)になります。fkfkf_kpxpxp_x px(k)=πk12π√σexp(−12σ2(x−μk)2)∑Kl=1πl12π√σexp(−12σ2(x−μl)2).px(k)=πk12πσexp⁡(−12σ2(x−μk)2)∑l=1Kπl12πσexp⁡(−12σ2(x−μl)2).p_x(k)=\dfrac{\pi_k \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2\sigma^2}(x-\mu_k)^2)}{\sum_{l=1}^K \pi_l \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2\sigma^2}(x-\mu_l)^2)}. 繰り返しになりますが、これは単なる置換であるため、ここでの驚きはありません。 ベイズ分類器は、方程式(1)が最大であるクラスに観測値を割り当てることを含みます。式(1)の対数を取り、項を並べ替えると、これが次の値が最大であるクラスに観測値を割り当てることと同等であることを示すことは難しくありません。 δk(x)=x⋅μkσ2−μ2k2σ2+log(πk)δk(x)=x⋅μkσ2−μk22σ2+log⁡(πk)\delta_k(x)=x \cdot \dfrac{\mu_k}{\sigma^2} - \dfrac{\mu_k^2}{2\sigma^2} + \log(\pi_k) 質問:これがどこから来たのか、そしてそれが何を意味するのかわかりません。方程式の対数を作ってみましたが、これにはなりません。これは最大の観測であるため、ここのどこかで導関数を使用していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.