PCA、LASSO、エラスティックネットの速度、計算費用


18

Hastie et al。で区別されている線形回帰の3つのグループの方法の計算の複雑さ/推定速度を比較しようとしています。「統計学習の要素」(第2版)、第3章:

  1. サブセット選択
  2. 収縮方法
  3. 導出された入力方向を使用する方法(PCR、PLS)

比較は非常に大雑把なものであり、単に考えを与えるだけです。答えは問題の次元とそれがコンピューターアーキテクチャにどのように適合するかに依存する可能性があるため、具体的な例としては、500および50の候補回帰子のサンプルサイズを考慮することができます。私は主に、計算の複雑さ/推定速度の背後にある動機付けに興味がありますが、特定の例で特定のプロセッサにかかる時間には興味がありません。


PCRまたはPLSを使用する場合、コンポーネントの数は調整パラメーターです(リッジ回帰のと同様)。したがって、これらのメソッドは、コンポーネントの最適な数を見つけるために相互検証する必要があります。LASSOにも1つの正則化パラメーターがありますが、エラスティックネットには2つ(エラスティックネット=リッジ+ LASSO)があるため、相互検証はより高価です。それとは別に、LASSOは閉じた形式のソリューションがないため、おそらく他のすべてのモデルよりも適合に時間がかかります。λ
アメーバは、2015

ありがとうございました!次の2つの詳細を含めると、コメントがわかりやすくなります。(1)PCRとPLSの1回の反復が、通常の回帰の1回のOLS実行と比較してどれだけ高いか (2)LASSOの速度をより正確に定量化して、通常の回帰の速度に匹敵するようにします(多項式、指数関数的、または線形的に高価で、その理由は)。
リチャードハーディ

残念ながら、特に(2)については、これに対する答えがありません。だからコメントを残しただけです。+1、ところで、5k repでおめでとうございます!
アメーバは、

1
@amoeba、ありがとう!昨年始めたとき(非常にゆっくりと)5kに達するとは期待できませんでした。しかし、Cross Validatedでアクティブなメンバーになることは非常にエキサイティングでやりがいがあります!
リチャードハーディ

@ amoeba、LARSアルゴリズムが使用されている場合、私はLASSOの複雑さを手に入れたと思います。それに応じて投稿を更新しました。しかし、私は完全に確認してください、それは正しいですので、私はないです、慎重にLARS紙を読んでいない...
リチャード・ハーディ

回答:


5

グループ1:グループ1
の複雑さ/速度は、ブルートフォースアルゴリズムが使用されているかどうかを判断するのにそれほど難しくないようです(ただし、「跳躍」アルゴリズムなどのより効率的な代替手段がある場合もあります)。たとえば、完全なサブセットの選択では、候補特徴のプールが与えられた場合、回帰が適合する必要があります。1つの線形回帰のOLS近似には、複雑さが(この投稿による)がありますはサンプルサイズです。したがって、ブルートフォースフルサブセット選択の全体的な複雑さはます。 K OK 2 n n O2 K K 2 n 2KKOK2nnO2KK2n

グループ2:グループ2
の複雑さ/速度は、本のセクション3.8および3.9で説明されています。たとえば、ペナルティが与えられたリッジ回帰は、通常の回帰と同じ計算の複雑さを持ちます。以降クロスバリデーションを用いて見出すことが必要であり、直線交差検証(たとえば、で使用されるデータの分割数で計算負荷が増加)。場合グリッドを有する点、リッジ回帰の総複雑さ同調なりパラメーター。 かなりの話がありますλ S λ L λ OL S K 2 N λ λ OL S K 2 N OA L S K 2 N αλλSλLλOLSK2n
本ではLASSOですが、必要なものがまったく見つかりませんでした。しかし、私はpで見つけました。エフロン他の443 「最小角度回帰」(2004)では、特定の LASSO複雑度は、LARSメソッドが使用される場合、線形回帰のOLS適合の複雑度と同じです。その場合、パラメーターを調整したLASSOの合計複雑度はます。(私はその論文を注意深く読んでいませんでしたので、もしこれを間違えたら訂正してください。)Elastic netはridgeとLASSOを組み合わせています。2つの計算の複雑さは同じです。したがって、エラスティックネットの複雑さはでがあります。ここで、は調整パラメーターのグリッドサイズです。λλOLSK2n
OALSK2nAα尾根とLASSOの重量のバランスを取る。

グループ3:主成分回帰(PCR)と部分最小二乗(PLS)で構成されるグループ3の複雑さ/速度に関する注記
まだ見逃しています。


2

上記のグループ3の質問2の一部(つまりPLS)のみを対象としていますが、それでも参考になる可能性があります:Srinivasan et al(2010、technical report; see https://www.umiacs.umd.edu/~balajiv/Papers/ UMD_CS_TR_Pls_Gpu.pdf)NIPALSアルゴリズムを使用してPLSでいくつかの測定を行いました-このアルゴリズムの時間(および空間)の複雑さをO(dN)であると述べて-a)画像内の人間の検出、 )顔認識。測定は、独自のGPUベースの実装を使用して行われました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.