高次元回帰の分野での研究を読み上げようとしています。場合より大きいN、即ち、P > > N。log p / nという用語は、回帰推定量の収束率の観点から頻繁に現れるようです。
通常、これはがよりも小さいことも意味し。
- この比率が非常に顕著である理由について直感はありますか?
- また、文献にば、場合、高次元の回帰問題は複雑になり。なぜそうですか?
- とが互いに比較してどれだけ速く成長するかという問題を議論する良いリファレンスはありますか?
高次元回帰の分野での研究を読み上げようとしています。場合より大きいN、即ち、P > > N。log p / nという用語は、回帰推定量の収束率の観点から頻繁に現れるようです。
通常、これはがよりも小さいことも意味し。
回答:
(@Greenparkerの要求に応じてコメントから回答に移動)
パート1)
項は、測定の(ガウス)集中に由来します。あなたが持っている場合は特に、PIIDガウス確率変数[F1]を、その最大値は、程度であるσ √高い確率でログp。
の要因は、ちょうどあなたが平均予測誤差を見ているという事実くる-つまり、それが一致したn個を- 1の反対側に-あなたが全体の誤差を見た場合、それはそこではないでしょう。
パート2)
基本的に、制御する必要がある2つの力があります。
古典的な統計では、通常を固定し、nを無限大にします。このレジームは、構築によって(漸近的に)低次元レジームにあるため、高次元理論にはあまり役立ちません。
あるいは、を無限大にしてnを固定したままにすることもできますが、問題が本質的に不可能になるとエラーが爆発します。問題によっては、エラーがいくつかの自然の上限(無限大で、または停止に行くかもしれ例えば、100%の誤分類エラー)。
これらのケースはどちらも少し役に立たないので、代わりに両方とも無限になり、終末論的(無限の特徴、有限データ)にならずに理論が両方とも関連する(高次元のまま)ことを考慮します。
二つの「ノブ」を有する我々は修正ので、一般的に硬い単一のノブを有するよりもいくつかの固定のためにFおよびlet nは無限大に移動(ひいてはpは間接的に無限大になる)。[F2]の選択fは問題の動作を決定します。パート1に対する私の回答の理由により、追加機能からの「悪さ」はlog pとしてのみ増加し、追加データからの「善」はnとして増加することがわかりました。
この最後の体制は、文献では「超高次元」と呼ばれることがあります。「超高次元」という用語は、私の知る限り厳密な定義はありませんが、非公式には「なげなわおよび同様の推定量を破る政権」です。
かなり理想的な条件下での小さなシミュレーション研究でこれを実証できます。ここでは、の最適な選択の理論的指導取る [BRT09]からをして選ぶλ = 3 √を。
まず、場合を考えます。これは上記の「引き込み可能な」高次元レジームにあり、理論が予測するように、予測誤差がゼロに収束することがわかります。
再現するコード:
library(glmnet)
library(ggplot2)
# Standard High-Dimensional Asymptotics: log(p) / n -> 0
N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N
ERROR_HD <- data.frame()
for(ix in seq_along(N)){
n <- N[ix]
p <- P[ix]
PMSE <- replicate(20, {
X <- matrix(rnorm(n * p), ncol=p)
beta <- rep(0, p)
beta[1:10] <- runif(10, 2, 3)
y <- X %*% beta + rnorm(n)
g <- glmnet(X, y)
## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009.
## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n}
## is good scaling for controlling prediction error of the lasso
err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
mean(err^2)
})
ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}
ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() +
xlab("Number of Samples (n)") +
ylab("Mean Prediction Error (at observed design points)") +
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") +
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) +
scale_y_log10()
これをlog pの場合と比較できはほぼ一定です。これを「境界線」超高次元レジームと呼びますが、これは標準的な用語ではありません。
P <- 10 + ceiling(exp(N/120))
ここでは、(上記と同じ設計を使用した)予測エラーがゼロを継続する代わりに横ばいになることがわかります。
P <- 10 + ceiling(exp(N^(1.03)/120))
上記で述べたこととその表示方法に関わらず、超高次元レジームは実際には完全に絶望的ではありませんが(近いとはいえ)、エラーを制御するにはガウス確率変数の単純な最大値よりもはるかに洗練された手法が必要です。これらの複雑なテクニックを使用する必要性は、あなたが注目する複雑さの究極の原因です。
パート3)
あなたが快適で、研究文献を掘り下げたいなら、私は超高次元の問題に関する基本的な仕事のほとんどを行ったJianqing FanとJinchi Lvの作品を見たいと思います。(「スクリーニング」は検索に適した用語です)
[F1]実際には、サブガウス確率変数ですが、これはこの議論にそれほど追加しません。
[F3] T.ヘイスティ、R。ティブシラニ、M。ウェインライト。スパース性を使用した統計学習。統計と応用確率に関するモノグラフ143. CRC Press、2015。https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdfから無料でダウンロードできます。
[BRT] Peter J. Bickel、Ya'acov Ritov、およびAlexandre B. Tsybakov。「なげなわとダンツィッヒセレクターの同時分析」統計37(4)、p。1705-1732、2009。http : //dx.doi.org/10.1214/08-AOS620