私はこれまでに高次元のデータセットを使用したペナルティ付き多変量解析で理解したことを要約しようとしていますが、ソフトしきい値対ラッソ(または)ペナルティの適切な定義を得るのに苦労しています。
より正確には、スパースPLS回帰を使用して、ゲノムデータを含む2ブロックのデータ構造を分析しました(一塩基多型、ここでは、範囲が{0,1,2}のマイナーアレルの頻度を数値変数と見なします)。連続的な表現型(性格特性または脳の非対称性を定量化するスコア、連続変数としても扱われます)。アイデアは、最も影響力のある予測因子(ここでは、DNA配列の遺伝的変異)を分離して、個体間の表現型の変異を説明することでした。
私は当初、罰則付きのPLS回帰と正則化されたCCAを特徴とするmixOmics Rパッケージ(以前はintegrOmics
)を使用していました。Rコードを見ると、予測子の「スパース性」は、番目のコンポーネント、(アルゴリズム)に最も高い負荷(絶対値)を持つ上位変数を選択することによって簡単に誘導されることがわかりました。は反復であり、コンポーネントの変数の負荷を計算し、各反復で予測子ブロックを収縮します。概要については、スパースPLS:Omicsデータを統合するときの変数の選択を参照してください)。逆に、S。Keleşが共同で作成したsplsパッケージ(i i = 1 、… 、k k L 1同時次元削減し、変数選択のための回帰スパース部分最小二乗これらの著者によって行われたアプローチのより正式な説明については、)実装変数処罰のための-penalization。
厳密な「全単射」、つまりソフトしきい値に基づく反復的な特徴選択と正則化の間に厳密な「全単射」があるかどうかは私には明らかではありません。だから私の質問は:2つの間に数学的な関連はありますか?
参考文献
- Chun、H.およびKelȩs、S.(2010)、同時次元削減と変数選択のためのスパース部分最小二乗法。王立統計学会誌:シリーズB、72、3-25。
- Le Cao、K.-A.、Rossouw、D.、Robert-Granie、C.、and Besse、P.(2008)、A Sparse PLS for Variable Selection when Integrating Omics Data。遺伝学および分子生物学における統計的応用、7、第35条。