統計とビッグデータ stratification

3

成層交差検定と交差検定の違いは何ですか？ウィキペディアによると：層状K倍クロスバリデーション、折り目は、平均応答値は、全ての折り目にほぼ等しくなるように選択されます。二分法の分類の場合、これは、各フォールドが2種類のクラスラベルのほぼ同じ割合を含むことを意味します。しかし、私はまだ混乱しています。何をしないmean response value、この文脈で意味ですか？なぜ＃1が重要なのですか？実際にどのように＃1を達成しますか？

55 cross-validation stratification

2

階層化されたクロス検証を使用する理由なぜこれが分散に関連する利益に損害を与えないのですか？

特に応答クラスのバランスが取れていない場合は、階層化されたクロス検証を使用すると有益だと言われています。交差検証の目的の1つが元のトレーニングデータサンプルのランダム性を説明することである場合、元のトレーニングセットに代表的なクラス分布があることが確実でない限り、各フォールドに同じクラス分布を持たせることはこれに対して確実に機能します。私の論理に欠陥はありますか？編集この方法がCVの利益を損なうかどうかに興味があります。フォールドにマイナークラスの単一の代表者がいないことを回避するために、小さなサンプル/非常に不均衡なクラス/両方がある場合に必要な理由がわかります。論文クロスバリデーション研究におけるApples-to-Apples：Classifier Performance Measurementの落とし穴は、層別化のケースをうまく提唱していますが、すべての議論は「層別化が保護と一貫性を提供する」に等しいようですが、十分な保護は必要ありませんデータ。答えは単に「データが十分にあることはめったにないので、不必要に使用します」です。？

29 cross-validation resampling stratification

1

分類でトレーニングデータを生成するための層別サンプリングとランダムサンプリングの利点

元のデータセットを分類用のトレーニングとテストセットに分割するときに、ランダムサンプリングではなく層別サンプリングを使用する利点があるかどうかを知りたいと思います。また、層化サンプリングは、ランダムサンプリングよりも分類器により多くのバイアスを導入しますか？データ準備に層化サンプリングを使用したいアプリケーションは、元のデータセットのでトレーニングされたRandom Forests分類器です。分類器の前に、クラスのサイズのバランスをとる合成サンプル生成（SMOTE [1]）のステップもあります。2323\frac{2}{3} [1] Chawla、Nitesh V.、他「SMOTE：合成マイノリティオーバーサンプリングテクニック。」Journal of Artificial Intelligence Research 16（2002）：321-357。

20 classification cross-validation random-forest train stratification

1

層および層と共変量の相互作用を持つCoxモデルの適合は、2つのCoxモデルの適合とは異なりますか？

回帰モデリング戦略ハレル（第2版）によってセクション（S. 20.1.7）主効果生存に対する我々は（以下の例では年齢）も推定する共変量の間の相互作用を含むコックスモデルを検討し、あります主効果を推定したくない共変量（下の例では性別）。具体的には、母集団では（未知、真）ハザードh(t)h(t)h(t)がモデルに従うと仮定します h(t)={hf(t)exp(β1age),hm(t)exp((β1+β2)age),for female patiensfor male patiensh(t)={hf(t)exp⁡(β1age),for female patienshm(t)exp⁡((β1+β2)age),for male patiensh(t) = \begin{cases} h_f(t) \exp(\beta_1 \textrm{age}), & \textrm{for female patiens} \\ h_m(t) \exp((\beta_1 + \beta_2) \textrm{age}), & \textrm{for male patiens} \end{cases} hfhfh_f、hmhmh_m未知です、真の、ベースラインハザード関数と推定されるべきではなくβ1β1\beta_1、β2β2\beta_2 未知の、データから推定される真のパラメーターです。（この例はほとんど文字通り本から取られています。）ハレルは、上記の状況を成層コックスモデルモデル1として書き直すことができると述べています。 h(t)=hgender(t)exp(β1age+β2X)h(t)=hgender(t)exp⁡(β1age+β2X)h(t) = h_{\textrm{gender}}(t) \exp(\beta_1 \textrm{age} + \beta_2 X) '対話用語'XXX男性女性、年齢はゼロに等しいです。それは我々が推定するための標準的な技術を使用できることを意味しますので、これは便利ですβ1β1\beta_1およびβ2β2\beta_2。さて、質問です。2人の研究者AとBに、上記の母集団から抽出された患者の同じサンプルが与えられたとします。研究員Aフィットモデル1、取得推定値はβ 1、β 2β^1β^1\hat{\beta}_1β^2β^2\hat{\beta}_2、真のパラメータがためにβ1,β2β1,β2\beta_1, \beta_2信頼区間と一緒に。研究者Bは、二つの通常の（すなわちunstratisfied）コックス・モデルをフィッティングのより単純なアプローチをとる：モデルA： …

13 survival cox-model stratification

2

経験的分布の代替

賞金：完全な恵みを推定言及用途または任意の発表された論文への参照を提供誰かに授与されますF~F~\tilde{F}以下を。動機：このセクションはおそらくあなたにとって重要ではなく、あなたが報奨金を得るのに役立たないと思いますが、誰かが動機について尋ねたので、ここで私が取り組んでいるものがあります。統計グラフ理論の問題に取り組んでいます。標準の密集グラフ制限オブジェクトW:[0,1]2→[0,1]W:[0,1]2→[0,1]W : [0,1]^2 \to [0,1]の意味での対称関数であるW(u,v)=W(v,u)W(u,v)=W(v,u)W(u,v) = W(v,u)。上のグラフサンプリングnnn頂点がサンプリングと考えることができるnnn（単位区間上に均一な値UiUiU_iためにi=1,…,ni=1,…,ni = 1, \dots, n）、次いで、エッジの確率(i,j)(i,j)(i,j)であるW(Ui,Uj)W(Ui,Uj)W(U_i, U_j)。結果の隣接行列をAと呼びますAAAます。我々は扱うことができWWW密度としてf=W/∬Wf=W/∬Wf = W / \iint Wと仮定∬W>0∬W>0\iint W > 0。我々は推定した場合fffに基づいてAAAへの制約を受けることなくfff、我々は一貫性の推定値を得ることができません。fが制約付きの可能な関数のセットに由来する場合、一貫して推定することに関する興味深い結果を見つけました。この推定量と∑ Aから、Wを推定できます。ffffff∑A∑A\sum AWWW 残念ながら、私が見つけた方法は、密度分布からサンプリングしたときに一貫性を示していfffます。AAA構築方法では、ポイントのグリッドをサンプリングする必要があります（元のから描画するのとは対照的fffです）。このstats.SEの質問では、実際に分布から直接サンプリングするのではなく、このようなグリッドでサンプルベルヌーイのみをサンプリングできる場合に何が起こるかという1次元（より単純な）問題を求めています。グラフの制限の参照： L.ロバスツとB.セゲディ。密なグラフシーケンスの制限（arxiv）。 C.ボルグス、J。チェイス、L。ロバスツ、V。ソス、K。ヴェステルゴンビ。密なグラフの収束シーケンスi：サブグラフの頻度、メトリックプロパティ、およびテスト。（arxiv）。表記： CDFと連続分布検討FFFおよびPDF fff区間に正サポートしている[0,1][0,1][0,1]。仮定fffないpointmassを有していない、FFFどこでも微分可能であり、また、そのsupz∈[0,1]f(z)=c<∞supz∈[0,1]f(z)=c<∞\sup_{z \in [0,1]} f(z) = c < \inftyのsupremumあるfff区間に[0,1][0,1][0,1]。ましょXX∼FX∼FX \sim F確率変数という意味XXXは、分布からサンプリングされFFFます。 UiUiU_iオンIID一様ランダム変数である[0,1][0,1][0,1]。問題のセットアップ：多くの場合、X1,…,XnX1,…,XnX_1, \dots, X_nを分布ランダム変数とFFFし、通常の経験分布関数として F N（T …

12 distributions bernoulli-distribution stratification rejection-sampling ecdf

1

ランダムフォレスト（または別の分類子）による層別分類

だから、私は約60 x 1000の行列を持っています。私はそれを1000の特徴を持つ60個のオブジェクトとして見ています。60個のオブジェクトは3つのクラス（a、b、c）にグループ化されます。各クラスには20個のオブジェクトがあり、真の分類がわかります。この60のトレーニング例のセットで教師あり学習を行いたいのですが、分類機能の精度（および関連するメトリック）と1000の機能の機能選択の両方に興味があります。まず、私の命名はどうですか？今本当の質問：ランダムフォレストを、前述のように、または他の任意の数の分類器にスローすることができます。しかし、微妙な点があります。クラスcとクラスaおよびbを区別することだけが重要です。クラスaとbをプールすることもできますが、c以外のすべてのオブジェクトが2つの異なるクラスターを形成する可能性があるという先験的な知識を使用する良い方法はありますか？私と同様のデータで効果的であることが示されているので、ランダムフォレストまたはそのバリアントを使用したいと思います。しかし、私は他のいくつかのアプローチを試すことを確信することができました。

12 machine-learning classification multilevel-analysis random-forest stratification

2

R randomForestでの置換によるサンプリング

randomForest実装では、置換でサンプリングする場合でも、観測数を超えるサンプリングは許可されません。どうしてこれなの？正常に動作します： rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) 私がしたいこと： rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency 層別サンプルなしの同様のエラー： rf <- randomForest(Species ~ …

11 r sampling random-forest stratification oversampling

3

マルチレベルモデルと各レベルの個別モデル

個別のモデルとマルチレベルモデリングを実行することの利点と欠点は何ですか？より具体的には、ある国の医師の診療所にある患者を調査したとしましょう。3レベルのネストされたモデルと比較して、国ごとに別々のモデルを実行する利点と欠点は何ですか？

10 multilevel-analysis stratification

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

分類のためにトレーニングセットから重複を削除する

分類問題のための行がたくさんあるとしましょう：バツ1、。。。バツN、Yバツ1、。。。バツN、YX_1, ... X_N, Y どこ機能/予測因子であると、行の機能の組み合わせが属するクラスです。バツ1、。。。、XNバツ1、。。。、バツNX_1, ..., X_NYYY 多くの特徴の組み合わせとそれらのクラスがデータセットで繰り返されています。これは、分類器を適合させるために使用しています。重複を削除することは許容できるかどうか疑問に思っていgroup by X1 ... XN Yます（基本的にSQLでa を実行します）？ありがとう。 PS：これは、クラスの事前分布がかなり歪んでいるバイナリプレゼンスのみのデータセット用です。

9 machine-learning classification data-mining logistic stratification

3

分布を見つけて正規分布に変換する

1時間にイベントが発生する頻度（「1時間あたりの数」、nph）とイベントが持続する時間（「1秒あたりの秒数」、dph）を説明するデータがあります。これは元のデータです： nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

タグ付けされた質問 「stratification」

タグ付けされた質問「stratification」