高次元回帰:


16

高次元回帰の分野での研究を読み上げようとしています。場合より大きいN、即ち、P > > Nlog p / nという用語は、回帰推定量の収束率の観点から頻繁に現れるようです。pnp>>nlogp/n

β^

1nXβ^Xβ22=OP(σlogpnβ1).

通常、これはがよりも小さいことも意味し。logpn

  1. この比率が非常に顕著である理由について直感はありますか?logp/n
  2. また、文献にば、場合、高次元の回帰問題は複雑になり。なぜそうですか?logpn
  3. とが互いに比較してどれだけ速く成長するかという問題を議論する良いリファレンスはありますか?pn

2
1. logp項は、測定の(ガウス)集中に由来します。あなたが持っている場合は特に、pIIDガウス確率変数を、その最大値は、程度であるσlogp高い確率でログpn1の要因は、ちょうどあなたが平均予測誤差を見ているという事実くる-つまり、それが一致したn1反対側に-あなたが全体の誤差を見た場合、それはそこではないでしょう。
mweylandt

1
2.基本的に、制御する必要がある2つの力があります。i)より多くのデータを持つという優れた特性(したがって、を大きくしたい)。ii)困難には、より多くの(無関係な)特徴があるため(pを小さくしたい)。古典統計では、通常pを固定し、nを無限大にします。このレジームは、構築によって低次元レジームにあるため、高次元理論にはあまり役立ちません。あるいは、pを無限大に移動させ、nを固定したままにすることもできますが、その場合、エラーが爆発して無限大になります。nppnpn
mweylandt

1
したがって、私たちの理論が終末論的(無限の特徴、有限データ)にならずに関連する(高次元のままである)ように両方が無限になることを考慮する必要があります。一般に、2つの「ノブ」を持つことは、1つのノブを持つことよりも難しいため、いくつかのを修正し、を無限大にします(したがって、間接的に)。の選択により、問題の動作が決まります。Q1に対する私の回答の理由により、追加機能からの「悪さ」はとしてのみ増加し、追加データからの「善」はとして増加することが。n,pp=f(n)fnpflogpn
mweylandt

1
したがって、が一定である場合(同様に、一部の)、水を踏むことになります。もし()私たちは漸近的にゼロ誤差を達成。そして、場合()、エラーが最終的には無限大になります。この最後の体制は、文献では「超高次元」と呼ばれることがあります。それは絶望的ではありませんが(近いとは言え)、エラーを制御するにはガウスの単純な最大値よりもはるかに高度な技術が必要です。これらの複雑なテクニックを使用する必要性は、あなたが注目する複雑さの究極の原因です。logp/np=f(n)=Θ(Cn)Clogp/n0p=o(Cn)logp/np=ω(Cn)
mweylandt

@mweylandtありがとう、これらのコメントは本当に便利です。それらを公式の答えに変えてください。そうすれば私はそれらをより首尾一貫して読み、あなたに賛成できますか?
グリーンパーカー

回答:


17

(@Greenparkerの要求に応じてコメントから回答に移動)

パート1)

項は、測定の(ガウス)集中に由来します。あなたが持っている場合は特に、PIIDガウス確率変数[F1]を、その最大値は、程度であるσlogpp高い確率でログpσlogp

の要因は、ちょうどあなたが平均予測誤差を見ているという事実くる-つまり、それが一致したn個を- 1の反対側に-あなたが全体の誤差を見た場合、それはそこではないでしょう。n1n1

パート2)

基本的に、制御する必要がある2つの力があります。

  • i)より多くのデータを持つという優れた特性(を大きくしたい);n
  • ii)困難には、より多くの(無関係な)特徴があるため(を小さくしたい)。p

古典的な統計では、通常を固定し、nを無限大にします。このレジームは、構築によって(漸近的に)低次元レジームにあるため、高次元理論にはあまり役立ちません。pn

あるいは、を無限大にしてnを固定したままにすることもできますが、問題が本質的に不可能になるとエラーが爆発します。問題によっては、エラーがいくつかの自然の上限(無限大で、または停止に行くかもしれ例えば、100%の誤分類エラー)。pn

これらのケースはどちらも少し役に立たないので、代わりに両方とも無限になり、終末論的(無限の特徴、有限データ)にならずに理論が両方とも関連する(高次元のまま)ことを考慮します。n,p

二つの「ノブ」を有する我々は修正ので、一般的に硬い単一のノブを有するよりもいくつかの固定のためにFおよびlet nは無限大に移動(ひいてはpは間接的に無限大になる)。[F2]の選択fは問題の動作を決定します。パート1に対する私の回答の理由により、追加機能からの「悪さ」はlog pとしてのみ増加し、追加データからの「善」はnとして増加することがわかりましたp=f(n)fnpflogpn

  • ログpの場合は一定のまま(一部のCではp=fn=ΘCn)、水を踏むと問題は洗浄です(エラーは漸近的に固定されたままです)。logpnp=f(n)=Θ(Cn)C
  • ログpの場合p=oCn)漸近的にゼロ誤差を達成します。logpn0p=o(Cn)
  • そして、p=ωCn)、エラーは最終的に無限になります。logpnp=ω(Cn)

この最後の体制は、文献では「超高次元」と呼ばれることがあります。「超高次元」という用語は、私の知る限り厳密な定義はありませんが、非公式には「なげなわおよび同様の推定量を破る政権」です。

かなり理想的な条件下での小さなシミュレーション研究でこれを実証できます。ここでは、の最適な選択の理論的指導取る [BRT09]からをして選ぶλ = 3 √をλλ=3log(p)/n

まず、場合を考えます。これは上記の「引き込み可能な」高次元レジームにあり、理論が予測するように、予測誤差がゼロに収束することがわかります。p=f(n)=3n

High-Dimensional Asymptotics

再現するコード:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

これをlog pの場合と比較できはほぼ一定です。これを「境界線」超高次元レジームと呼びますが、これは標準的な用語ではありません。logpn

P <- 10 + ceiling(exp(N/120))

ここでは、(上記と同じ設計を使用した)予測エラーがゼロを継続する代わりに横ばいになることがわかります。

Borderline Ultra High Dimensional Asyptotics

Penen2en2

P <- 10 + ceiling(exp(N^(1.03)/120))

Ultra-High Dimensional Asymptotics

Xen1.5

上記で述べたこととその表示方法に関わらず、超高次元レジームは実際には完全に絶望的ではありませんが(近いとはいえ)、エラーを制御するにはガウス確率変数の単純な最大値よりもはるかに洗練された手法が必要です。これらの複雑なテクニックを使用する必要性は、あなたが注目する複雑さの究極の原因です。

p,np=f(n)

パート3)

logpn

n,pn,p

あなたが快適で、研究文献を掘り下げたいなら、私は超高次元の問題に関する基本的な仕事のほとんどを行ったJianqing FanとJinchi Lvの作品を見たいと思います。(「スクリーニング」は検索に適した用語です)

[F1]実際には、サブガウス確率変数ですが、これはこの議論にそれほど追加しません。

sns=g(n)

[F3] T.ヘイスティ、R。ティブシラニ、M。ウェインライト。スパース性を使用した統計学習。統計と応用確率に関するモノグラフ143. CRC Press、2015。https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdfから無料でダウンロードできます。

[BRT] Peter J. Bickel、Ya'acov Ritov、およびAlexandre B. Tsybakov。「なげなわとダンツィッヒセレクターの同時分析」統計37(4)、p。1705-1732、2009。http //dx.doi.org/10.1214/08-AOS620


1
logp/n

n
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.