統計とビッグデータ classification

2

設定多くのアルゴリズムは単一のリレーションまたはテーブルで動作しますが、実際のデータベースの多くは情報を複数のテーブルに格納します（Domingos、2003）。質問どのタイプのアルゴリズムが複数の（リレーショナル）テーブルからうまく学習しますか。特に、回帰と分類のタスクに適用可能なアルゴリズムに興味があります（リンク分析などのネットワーク分析指向のアルゴリズムではありません）。以下にリストされているいくつかのアプローチを認識しています（しかし、いくつかのアプローチが欠けていることは確かです）：マルチリレーショナルデータマイニング（MRDM）（Dzeroski、2002年）帰納論理プログラミング（ILP）（Muggleton、1992）統計的関係学習（SRL）（Getoor、2007年） Džeroski、S.（2003）。マルチリレーショナルデータマイニング：はじめに。ACM SIGKDD Explorationsニュースレター。 Getoor、Lise、およびBen Taskar編。統計的関係学習の紹介。MITプレス、2007年。 S.マグルトンとC.フェン論理プログラムの効率的な導入。アルゴリズム学習理論に関する最初の会議の議事録、368–381ページ。オームシャ、東京、1990年。

9 regression machine-learning classification dataset

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

1つの主要な予測子による分類

（クラス）分類問題があり、100程度の実数値予測子があり、そのうちの1つは他のどれよりもはるかに説明力があるようです。他の変数の影響についてさらに詳しく説明したいと思います。ただし、標準の機械学習手法（ランダムフォレスト、SVMなど）は、1つの強力な予測子に圧倒され、他の興味深い情報はあまり得られないようです。kkk これが回帰問題である場合、私は単純に強力な予測子に対して回帰し、残差を他のアルゴリズムの入力として使用します。しかし、このアプローチがどのように分類コンテキストに変換されるのか、実際にはわかりません。私の本能は、この問題はかなり一般的である必要があるということです。それを処理するための標準的な手法はありますか？

9 machine-learning classification

2

分類のためにトレーニングセットから重複を削除する

分類問題のための行がたくさんあるとしましょう：バツ1、。。。バツN、Yバツ1、。。。バツN、YX_1, ... X_N, Y どこ機能/予測因子であると、行の機能の組み合わせが属するクラスです。バツ1、。。。、XNバツ1、。。。、バツNX_1, ..., X_NYYY 多くの特徴の組み合わせとそれらのクラスがデータセットで繰り返されています。これは、分類器を適合させるために使用しています。重複を削除することは許容できるかどうか疑問に思っていgroup by X1 ... XN Yます（基本的にSQLでa を実行します）？ありがとう。 PS：これは、クラスの事前分布がかなり歪んでいるバイナリプレゼンスのみのデータセット用です。

9 machine-learning classification data-mining logistic stratification

2

時系列のゼロ平均部分を見つけるための最新の方法

ノイズの多い時系列があり、平均がゼロの部分と平均がゼロの部分に分割する必要があります。境界をできるだけ正確に見つけることが重要です（境界が正確にどこにあるかを明らかにすることは、少し主観的です）。私はcusumバリアントをこれに適合させることができると思いますが、cusumは主に、セグメンテーション戦略全体を完全に対処しないままにする単一の変更を見つけることに関するものです。この問題については多くの調査が行われたと思いますが、見つけることができませんでした。 PSこれらの時系列のデータ量は非常に大きく、つまり最大で数億のサンプルであり、個々のサンプルは数百の成分を持つベクトルになる可能性があるため、合理的に迅速に計算できる方法は重要な要素です。 PPSセグメンテーションタグがないため、分類タグがあります。

9 time-series classification mean change-point

4

2 X 3テーブルで複数の事後カイ2乗検定を実行する方法

私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100％の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか？ありがとう！

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

1

データを再シャッフルする必要がありますか？

入手するのにかなり高額だった生物学的サンプルのセットがあります。これらのサンプルを一連のテストに通して、予測モデルの構築に使用されるデータを生成します。この目的のために、サンプルをトレーニングセット（70％）とテストセット（30％）に分けました。モデルを正常に作成し、テストセットに適用して、パフォーマンスが「最適ではない」ことを発見しました。実験家は、より良いモデルを作成するために生物学的試験を改善したいと考えています。新しいサンプルを入手できない場合は、サンプルを再シャッフルして新しいトレーニングと検証セットを作成するか、元の分割を使用することを提案してください。（この分割が問題のある分割だったことを示すものはありません）。

9 classification modeling experiment-design cross-validation bootstrap

2

データのROC曲線を計算する

そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線（FPR対TPR OR FAR対FRR）を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

3

クラス変数に不等分布の分類問題がある場合、どの手法を使用する必要がありますか？

たとえば。2つのクラスgoodとbadのクラス変数クレジットスコアリングがある場合（＃（good）= 700および＃（bad）= 300）。データを短くしたくありません。どのテクニックを使うべきですか？私はSVMを使用していましたが、それはすべての予測に悪影響を与えています。

9 classification binary-data

3

ランダムフォレストツリーを2進数ではなく10進数に投票する方法

私の質問は、バイナリ分類についてです。たとえば、良い顧客と悪い顧客を区別しますが、回帰や非バイナリ分類はそうではありません。このコンテキストでは、ランダムフォレストは分類木の集合です。各観測について、すべての木が「はい」または「いいえ」に投票し、すべての木の平均投票が最終的な森林確率です。私の質問は、基になるツリーの動作を変更することです。RのrandomForestパッケージのrandomForest関数を変更して、各ツリーがバイナリのyes / noではなく10進数に投票するようにするにはどうすればよいですか。10進数の意味をよりよく理解するために、決定木がどのように機能するかを考えてみましょう。完全に成長したディシジョンツリーのターミナルノードには、1つの良いインスタンスまたは1つの悪いインスタンスがあります。ターミナルノードのサイズを100に制限するとします。ターミナルノードは次のようになります。 Node1 = 80不良、20良好 Node2 = 51不良、49良好 Node3 = 10不良、90良好 Node1とNode2が「悪い」と投票したとしても、「悪さの強さ」は大きく異なります。それが私の狙いです。1または0（デフォルトの動作）を生成する代わりに、Rパッケージを変更して、80 / 100、51 / 100、10 / 100などに投票できますか？

9 r machine-learning classification random-forest

2

分類器がデータを誤って分類するのはなぜですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 2年前休業。データ自体からのものでしょうか？それとも、モデルがデータ間の類似性を効率的に検出できないためですか、それとも誤分類の原因は他にありますか？

9 classification supervised-learning

2

ランダムフォレストは、不均衡なデータ分類に適したオプションですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 3年前休業。データの変動性に似たアプローチやその他のアプローチの増加にもかかわらず、「アルゴリズムとしての」ランダムフォレストは、不均衡なデータ分類の優れたオプションと見なすことができますか？

9 machine-learning classification data-mining supervised-learning statistical-learning

4

マルチクラスのマシューズ相関係数

マシューズ相関係数（）は、バイナリ分類の品質を測定する測定値です（[Wikipedia] [1]）。定式化は、真陽性（）、偽陽性（）、偽陰性（）、および真陰性（）の値を利用して、以下のようにバイナリ分類を行います。MCCMCC\textrm{MCC}MCCMCC\textrm{MCC} T P F P F N T NTPTPTPFPFPFPFNFNFNTNTNTN MCC = TP× TN− FP× FN（TP+ FP）（TP+ FN）（TN+ FP）（TN+ FN）−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√MCC=TP×TN−FP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)\textrm {MCC} = \frac{TP\times TN - FP\times FN}{\sqrt{\left(TP+FP\right)\left(TP+FN\right)\left(TN+FP\right)\left(TN+FN\right)}} 、、 3つの異なるクラスを分類する必要がある場合があります。上記の定式化を適用して、以下に示すように各クラスの、、、および値を計算した後、マルチクラスケースのを計算できますか？あAABBBCCCMCCMCC\textrm{MCC}TPTPTPTNTNTNFPFPFPFNFNFNTP=TPA+TPB+TPC;TN=TNA+TNB+TNC;FP=FPA+FPB+FPC;FN=FNA+FNB+FNC;TP=TPA+TPB+TPC;TN=TNA+TNB+TNC;FP=FPA+FPB+FPC;FN=FNA+FNB+FNC; TP = TP_A + TP_B + TP_C;\\ TN = TN_A + TN_B + TN_C;\\ FP = FP_A + FP_B + …

9 machine-learning classification multi-class agreement-statistics

3

KNN：1最近傍

私の質問は、1最近傍の分類子についてであり、Hastie、Tibshirani、およびFriedman著の優れた書籍The Elements of Statistical Learningで行われた声明についてです。ステートメントは（p。465、セクション13.3）です。「クエリポイントに最も近いトレーニングポイントのみを使用するため、1最近傍推定値のバイアスは低くなることがよくありますが、分散は高くなります。」この本はhttp://www-stat.stanford.edu/~tibs/ElemStatLearn/download.htmlから入手できます。まず、バイアスと分散とは何かを定義できます。「どのようにして、次元を増やすことができるか、分散を増やすか、バイを増やすことなく」という質問から、次のようになります。「まず第一に、分類子のバイアスは、平均された推定関数と真の関数の間の不一致ですが、分類子の分散は、平均値からの推定予測関数の予想される発散です（つまり、分類子がランダムにどの程度依存しているかトレーニングセットで行われたサンプリング）。したがって、バイアスの存在はモデルに基本的に何か問題があることを示しますが、分散も悪いですが、高い分散を持つモデルは少なくとも平均して十分に予測できます。」誰かが1最近傍分類器の分散が高く、バイアスが低い理由を説明できますか？

9 classification k-nearest-neighbour

1

線形判別分析

James、Witten、Hastie、Tibshiraniによる「統計学習入門」を勉強しています。彼らの本の139ページで、彼らはベイズの定理紹介することから始めました。は数学定数ではありませんが、事前確率を示します。この方程式には何も奇妙なことはありません。pk(X)=P(Y=k|X=x)=πkfk(x)∑kl=1πlfl(x)pk(X)=P(Y=k|X=x)=πkfk(x)∑l=1kπlfl(x)p_k(X)=P(Y=k|X=x) = \dfrac{\pi_kf_k(x)}{\sum_{l=1}^k \pi_l f_l(x)}ππ\pi この本は、上記の方程式に組み込むことができる推定値を取得したいと主張しています。を推定するために、それが正常であると想定しています。1次元設定では、、ここでとは番目のクラスの平均と分散です。これは、想定された。（私は最後のステートメントから混乱し始めました。）fk(x)fk(x)f_k(x)fk(x)fk(x)f_k(x)fk(x)=12π−−√σexp(−12σ2(x−μk)2)fk(x)=12πσexp⁡(−12σ2(x−μk)2)f_k(x)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp(-\dfrac{1}{2\sigma^2}(x-\mu_k)^2)μkμk\mu_kσ2kσk2\sigma^2_kkkkσ21=σ22=⋯=σ2Kσ12=σ22=⋯=σK2\sigma^2_1 = \sigma^2_2 = \cdots = \sigma^2_K をにプラグ、これはかなり厄介な方程式（1）になります。fkfkf_kpxpxp_x px(k)=πk12π√σexp(−12σ2(x−μk)2)∑Kl=1πl12π√σexp(−12σ2(x−μl)2).px(k)=πk12πσexp⁡(−12σ2(x−μk)2)∑l=1Kπl12πσexp⁡(−12σ2(x−μl)2).p_x(k)=\dfrac{\pi_k \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2\sigma^2}(x-\mu_k)^2)}{\sum_{l=1}^K \pi_l \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2\sigma^2}(x-\mu_l)^2)}. 繰り返しになりますが、これは単なる置換であるため、ここでの驚きはありません。ベイズ分類器は、方程式（1）が最大であるクラスに観測値を割り当てることを含みます。式（1）の対数を取り、項を並べ替えると、これが次の値が最大であるクラスに観測値を割り当てることと同等であることを示すことは難しくありません。 δk(x)=x⋅μkσ2−μ2k2σ2+log(πk)δk(x)=x⋅μkσ2−μk22σ2+log⁡(πk)\delta_k(x)=x \cdot \dfrac{\mu_k}{\sigma^2} - \dfrac{\mu_k^2}{2\sigma^2} + \log(\pi_k) 質問：これがどこから来たのか、そしてそれが何を意味するのかわかりません。方程式の対数を作ってみましたが、これにはなりません。これは最大の観測であるため、ここのどこかで導関数を使用していますか？

9 self-study classification

タグ付けされた質問 「classification」

タグ付けされた質問「classification」