ソフトしきい値となげなわペナルティ


11

私はこれまでに高次元のデータセットを使用したペナルティ付き多変量解析で理解したことを要約しようとしていますが、ソフトしきい値ラッソ(または)ペナルティの適切な定義を得るのに苦労しています。L1

より正確には、スパースPLS回帰を使用して、ゲノムデータを含む2ブロックのデータ構造を分析しました(一塩基多型、ここでは、範囲が{0,1,2}のマイナーアレルの頻度を数値変数と見なします)。連続的な表現型(性格特性または脳の非対称性を定量化するスコア、連続変数としても扱われます)。アイデアは、最も影響力のある予測因子(ここでは、DNA配列の遺伝的変異)を分離して、個体間の表現型の変異を説明することでした。

私は当初、罰則付きのPLS回帰と正則化されたCCAを特徴とするmixOmics Rパッケージ(以前はintegrOmics)を使用していました。Rコードを見ると、予測子の「スパース性」は、番目のコンポーネント、(アルゴリズム)に最も高い負荷(絶対値)を持つ上位変数を選択することによって簡単に誘導されることがわかりました。は反復であり、コンポーネントの変数の負荷を計算し、各反復で予測子ブロックを収縮します。概要については、スパースPLS:Omicsデータ統合するときの変数の選択を参照してください)。逆に、S。Keleşが共同で作成したsplsパッケージ(i i = 1 k k L 1kii=1,,kk同時次元削減し、変数選択のための回帰スパース部分最小二乗これらの著者によって行われたアプローチのより正式な説明については、)実装変数処罰のための-penalization。L1

厳密な「全単射」、つまりソフトしきい値に基づく反復的な特徴選択と正則化の間に厳密な「全単射」があるかどうかは私には明らかではありません。だから私の質問は:2つの間に数学的な関連はありますか?L1

参考文献

  1. Chun、H.およびKelȩs、S.(2010)、同時次元削減と変数選択のためのスパース部分最小二乗法王立統計学会誌:シリーズB72、3-25。
  2. Le Cao、K.-A.、Rossouw、D.、Robert-Granie、C.、and Besse、P.(2008)、A Sparse PLS for Variable Selection when Integrating Omics Data遺伝学および分子生物学における統計的応用7、第35条。

回答:


2

私が言うことは回帰にも当てはまりますが、PLSにも当てはまります。あなたがに拘束執行どのくらいにdepedingので、それは全単射ではないですので、第二の溶液のみ認めている一方で、あなたは「答え」の様々なを持っています可能な答え(ここで、 < - >があるの変数の数です)製剤では、「切り捨て」製剤よりも多くのソリューション。p p l 1l1ppl1


@kwakわかりました。LARSアルゴリズムは、変数の重要度に対する単純なしきい値処理よりもはるかに洗練されているように見えますが、重要なのは、ペナルティパラメータとモデルに保持するように要求される変数の数との間に明確な関係がないことです。正確に固定された数の変数を生成するペナルティパラメータを必ずしも見つけることができないように思えます。
chl

@chl:> S-PLSとはどういう意味ですか?実際、ペナルティパラメータとコンポーネント数の間には単調な関係がありますが、これは線形関係ではなく、この関係はケースごとに異なります(データセット/問題に依存します)。
user603 2010

@kwak L1のペナルティは、私が誤解を招かない限り、LARSを使用して達成できます。2番目のポイントは、私が実際に心に留めていることです。その点について何か言及はありますか?
10

@chl:> * L1-ペナルティは、LARSを使用して実現できます。参照を提供できますか?ありがとう。2番目の質問については、なげなわHui Zou、Trevor Hastie、およびRobert Tibshiraniの「自由度」を見てください。出典:アン。統計学者。35巻、5号(2007)、2173-2192。(多くの非ゲートバージョンがあります)。
user603 2010

1
@kwak TibshiraniのWebページ、www-stat.stanford.edu / 〜tibs / lasso.htmllarsRパッケージをチェックしてください。他の方法には、座標降下(JSS 2010 33(1)、bit.ly / bDNUFoを参照)が含まれ、Python scikit.learnパッケージには両方のアプローチ、bit.ly / bfhnZzが含まれます。
5

6

L 1L1ペナルティは最適化問題の一部です。ソフトしきい値処理はアルゴリズムの一部です。時々、ペナルティはソフトしきい値につながります。L1

回帰の場合、行列の列が直交している場合(行が異なるサンプルに対応している場合)、ペナルティ付き最小二乗(投げ縄)はソフトしきい値になります。行列が各行の単一のと他のすべての場所のゼロで構成される平均推定の特別な場合を考えると、導出するのは本当に簡単です。 X X 1L1バツバツ1

一般的な行列の場合、循環座標降下を介してLassoソリューションを計算すると、基本的に反復的なソフトしきい値が生成されます。http://projecteuclid.org/euclid.aoas/1196438020を参照してください。バツ


(+1)これをありがとう、特にフリードマンの論文。
10
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.