5 
 
        
      
      機械学習で階層/ネストされたデータを処理する方法
      
  例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
      
        
          
                   29
                
        
        
          
                  
                    regression 
                  
                    machine-learning 
                  
                    multilevel-analysis 
                  
                    correlation 
                  
                    dataset 
                  
                    spatial 
                  
                    paired-comparisons 
                  
                    cross-correlation 
                  
                    clustering 
                  
                    aic 
                  
                    bic 
                  
                    dependent-variable 
                  
                    k-means 
                  
                    mean 
                  
                    standard-error 
                  
                    measurement-error 
                  
                    errors-in-variables 
                  
                    regression 
                  
                    multiple-regression 
                  
                    pca 
                  
                    linear-model 
                  
                    dimensionality-reduction 
                  
                    machine-learning 
                  
                    neural-networks 
                  
                    deep-learning 
                  
                    conv-neural-network 
                  
                    computer-vision 
                  
                    clustering 
                  
                    spss 
                  
                    r 
                  
                    weighted-data 
                  
                    wilcoxon-signed-rank 
                  
                    bayesian 
                  
                    hierarchical-bayesian 
                  
                    bugs 
                  
                    stan 
                  
                    distributions 
                  
                    categorical-data 
                  
                    variance 
                  
                    ecology 
                  
                    r 
                  
                    survival 
                  
                    regression 
                  
                    r-squared 
                  
                    descriptive-statistics 
                  
                    cross-section 
                  
                    maximum-likelihood 
                  
                    factor-analysis 
                  
                    likert 
                  
                    r 
                  
                    multiple-imputation 
                  
                    propensity-scores 
                  
                    distributions 
                  
                    t-test 
                  
                    logit 
                  
                    probit 
                  
                    z-test 
                  
                    confidence-interval 
                  
                    poisson-distribution 
                  
                    deep-learning 
                  
                    conv-neural-network 
                  
                    residual-networks 
                  
                    r 
                  
                    survey 
                  
                    wilcoxon-mann-whitney 
                  
                    ranking 
                  
                    kruskal-wallis 
                  
                    bias 
                  
                    loss-functions 
                  
                    frequentist 
                  
                    decision-theory 
                  
                    risk 
                  
                    machine-learning 
                  
                    distributions 
                  
                    normal-distribution 
                  
                    multivariate-analysis 
                  
                    inference 
                  
                    dataset 
                  
                    factor-analysis 
                  
                    survey 
                  
                    multilevel-analysis 
                  
                    clinical-trials