タグ付けされた質問 「stratification」

3
階層化された相互検証の理解
成層交差検定と交差検定の違いは何ですか? ウィキペディアによると: 層状K倍クロスバリデーション、折り目は、平均応答値は、全ての折り目にほぼ等しくなるように選択されます。二分法の分類の場合、これは、各フォールドが2種類のクラスラベルのほぼ同じ割合を含むことを意味します。 しかし、私はまだ混乱しています。 何をしないmean response value、この文脈で意味ですか? なぜ#1が重要なのですか? 実際にどのように#1を達成しますか?

2
階層化されたクロス検証を使用する理由 なぜこれが分散に関連する利益に損害を与えないのですか?
特に応答クラスのバランスが取れていない場合は、階層化されたクロス検証を使用すると有益だと言われています。交差検証の目的の1つが元のトレーニングデータサンプルのランダム性を説明することである場合、元のトレーニングセットに代表的なクラス分布があることが確実でない限り、各フォールドに同じクラス分布を持たせることはこれに対して確実に機能します。 私の論理に欠陥はありますか? 編集 この方法がCVの利益を損なうかどうかに興味があります。フォールドにマイナークラスの単一の代表者がいないことを回避するために、小さなサンプル/非常に不均衡なクラス/両方がある場合に必要な理由がわかります。 論文クロスバリデーション研究におけるApples-to-Apples:Classifier Performance Measurementの落とし穴は、層別化のケースをうまく提唱していますが、すべての議論は「層別化が保護と一貫性を提供する」に等しいようですが、十分な保護は必要ありませんデータ。 答えは単に「データが十分にあることはめったにないので、不必要に使用します」です。?

1
分類でトレーニングデータを生成するための層別サンプリングとランダムサンプリングの利点
元のデータセットを分類用のトレーニングとテストセットに分割するときに、ランダムサンプリングではなく層別サンプリングを使用する利点があるかどうかを知りたいと思います。 また、層化サンプリングは、ランダムサンプリングよりも分類器により多くのバイアスを導入しますか? データ準備に層化サンプリングを使用したいアプリケーションは、元のデータセットのでトレーニングされたRandom Forests分類器です。分類器の前に、クラスのサイズのバランスをとる合成サンプル生成(SMOTE [1])のステップもあります。2323\frac{2}{3} [1] Chawla、Nitesh V.、他 「SMOTE:合成マイノリティオーバーサンプリングテクニック。」Journal of Artificial Intelligence Research 16(2002):321-357。

1
層および層と共変量の相互作用を持つCoxモデルの適合は、2つのCoxモデルの適合とは異なりますか?
回帰モデリング戦略ハレル(第2版)によってセクション(S. 20.1.7)主効果生存に対する我々は(以下の例では年齢)も推定する共変量の間の相互作用を含むコックスモデルを検討し、あります主効果を推定したくない共変量(下の例では性別)。 具体的には、母集団では(未知、真)ハザードh(t)h(t)h(t)がモデルに従うと仮定します h(t)={hf(t)exp(β1age),hm(t)exp((β1+β2)age),for female patiensfor male patiensh(t)={hf(t)exp⁡(β1age),for female patienshm(t)exp⁡((β1+β2)age),for male patiensh(t) = \begin{cases} h_f(t) \exp(\beta_1 \textrm{age}), & \textrm{for female patiens} \\ h_m(t) \exp((\beta_1 + \beta_2) \textrm{age}), & \textrm{for male patiens} \end{cases} hfhfh_f、hmhmh_m未知です、真の、ベースラインハザード関数と推定されるべきではなくβ1β1\beta_1、β2β2\beta_2 未知の、データから推定される真のパラメーターです。 (この例はほとんど文字通り本から取られています。) ハレルは、上記の状況を成層コックスモデルモデル1として書き直すことができると述べています。 h(t)=hgender(t)exp(β1age+β2X)h(t)=hgender(t)exp⁡(β1age+β2X)h(t) = h_{\textrm{gender}}(t) \exp(\beta_1 \textrm{age} + \beta_2 X) '対話用語'XXX男性女性、年齢はゼロに等しいです。それは我々が推定するための標準的な技術を使用できることを意味しますので、これは便利ですβ1β1\beta_1およびβ2β2\beta_2。 さて、質問です。2人の研究者AとBに、上記の母集団から抽出された患者の同じサンプルが与えられたとします。研究員Aフィットモデル1、取得推定値はβ 1、β 2β^1β^1\hat{\beta}_1β^2β^2\hat{\beta}_2、真のパラメータがためにβ1,β2β1,β2\beta_1, \beta_2信頼区間と一緒に。 研究者Bは、二つの通常の(すなわちunstratisfied)コックス・モデルをフィッティングのより単純なアプローチをとる:モデルA: …

2
経験的分布の代替
賞金: 完全な恵みを推定言及用途または任意の発表された論文への参照を提供誰かに授与されますF~F~\tilde{F}以下を。 動機: このセクションはおそらくあなたにとって重要ではなく、あなたが報奨金を得るのに役立たないと思いますが、誰かが動機について尋ねたので、ここで私が取り組んでいるものがあります。 統計グラフ理論の問題に取り組んでいます。標準の密集グラフ制限オブジェクトW:[0,1]2→[0,1]W:[0,1]2→[0,1]W : [0,1]^2 \to [0,1]の意味での対称関数であるW(u,v)=W(v,u)W(u,v)=W(v,u)W(u,v) = W(v,u)。上のグラフサンプリングnnn頂点がサンプリングと考えることができるnnn(単位区間上に均一な値UiUiU_iためにi=1,…,ni=1,…,ni = 1, \dots, n)、次いで、エッジの確率(i,j)(i,j)(i,j)であるW(Ui,Uj)W(Ui,Uj)W(U_i, U_j)。結果の隣接行列をAと呼びますAAAます。 我々は扱うことができWWW密度としてf=W/∬Wf=W/∬Wf = W / \iint Wと仮定∬W&gt;0∬W&gt;0\iint W > 0。我々は推定した場合fffに基づいてAAAへの制約を受けることなくfff、我々は一貫性の推定値を得ることができません。fが制約付きの可能な関数のセットに由来する場合、一貫して推定することに関する興味深い結果を見つけました。この推定量と∑ Aから、Wを推定できます。ffffff∑A∑A\sum AWWW 残念ながら、私が見つけた方法は、密度分布からサンプリングしたときに一貫性を示していfffます。AAA構築方法では、ポイントのグリッドをサンプリングする必要があります(元のから描画するのとは対照的fffです)。このstats.SEの質問では、実際に分布から直接サンプリングするのではなく、このようなグリッドでサンプルベルヌーイのみをサンプリングできる場合に何が起こるかという1次元(より単純な)問題を求めています。 グラフの制限の参照: L.ロバスツとB.セゲディ。密なグラフシーケンスの制限(arxiv)。 C.ボルグス、J。チェイス、L。ロバスツ、V。ソス、K。ヴェステルゴンビ。密なグラフの収束シーケンスi:サブグラフの頻度、メトリックプロパティ、およびテスト。(arxiv)。 表記: CDFと連続分布検討FFFおよびPDF fff区間に正サポートしている[0,1][0,1][0,1]。仮定fffないpointmassを有していない、FFFどこでも微分可能であり、また、そのsupz∈[0,1]f(z)=c&lt;∞supz∈[0,1]f(z)=c&lt;∞\sup_{z \in [0,1]} f(z) = c < \inftyのsupremumあるfff区間に[0,1][0,1][0,1]。ましょXX∼FX∼FX \sim F確率変数という意味XXXは、分布からサンプリングされFFFます。 UiUiU_iオンIID一様ランダム変数である[0,1][0,1][0,1]。 問題のセットアップ: 多くの場合、X1,…,XnX1,…,XnX_1, \dots, X_nを分布ランダム変数とFFFし、通常の経験分布関数として F N(T …

1
ランダムフォレスト(または別の分類子)による層別分類
だから、私は約60 x 1000の行列を持っています。私はそれを1000の特徴を持つ60個のオブジェクトとして見ています。60個のオブジェクトは3つのクラス(a、b、c)にグループ化されます。各クラスには20個のオブジェクトがあり、真の分類がわかります。この60のトレーニング例のセットで教師あり学習を行いたいのですが、分類機能の精度(および関連するメトリック)と1000の機能の機能選択の両方に興味があります。 まず、私の命名はどうですか? 今本当の質問: ランダムフォレストを、前述のように、または他の任意の数の分類器にスローすることができます。しかし、微妙な点があります。クラスcとクラスaおよびbを区別することだけが重要です。クラスaとbをプールすることもできますが、c以外のすべてのオブジェクトが2つの異なるクラスターを形成する可能性があるという先験的な知識を使用する良い方法はありますか?私と同様のデータで効果的であることが示されているので、ランダムフォレストまたはそのバリアントを使用したいと思います。しかし、私は他のいくつかのアプローチを試すことを確信することができました。

2
R randomForestでの置換によるサンプリング
randomForest実装では、置換でサンプリングする場合でも、観測数を超えるサンプリングは許可されません。どうしてこれなの? 正常に動作します: rf &lt;- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf &lt;- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) 私がしたいこと: rf &lt;- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency 層別サンプルなしの同様のエラー: rf &lt;- randomForest(Species ~ …


1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
分類のためにトレーニングセットから重複を削除する
分類問題のための行がたくさんあるとしましょう: バツ1、。。。バツN、Yバツ1、。。。バツN、YX_1, ... X_N, Y どこ機能/予測因子であると、行の機能の組み合わせが属するクラスです。バツ1、。。。、XNバツ1、。。。、バツNX_1, ..., X_NYYY 多くの特徴の組み合わせとそれらのクラスがデータセットで繰り返されています。これは、分類器を適合させるために使用しています。重複を削除することは許容できるかどうか疑問に思っていgroup by X1 ... XN Yます(基本的にSQLでa を実行します)?ありがとう。 PS: これは、クラスの事前分布がかなり歪んでいるバイナリプレゼンスのみのデータセット用です。

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph &lt;- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.