kカテゴリ変数に相当する回帰平滑化スプラインでのkノットの選択?


9

私は、患者の年齢(年で測定された整数量)が予測変数の1つである予測コストモデルに取り組んでいます。年齢と入院のリスクの間の強い非線形関係は明らかです:

ここに画像の説明を入力してください

患者の年齢に応じて、ペナルティ付き回帰平滑化スプラインを検討しています。よると、統計的学習の要素(Hastieら、2009、P.151)、最適な結び目の配置は、会員の年齢のユニークな値ごとに結び目があります。

年齢を整数として保持しているとすると、ペナルティ付きスムージングスプラインは、データセットで見つかった年齢の値ごとに1つ(マイナス1つ)の、101の異なる年齢インジケーター変数でリッジ回帰または投げ縄を実行することに相当しますか?各年齢インジケーターの係数がゼロに向かって縮小されるため、過剰パラメーター化は回避されます。


年齢指標のご提案+収縮は、基本的にオーダー0の平滑化スプラインと同じことである
Glen_b -Reinstateモニカ

他の予測変数が何であるかを指定した場合、回答の1つが示唆したように、入学理由を制御すると、非常に異なるグラフが得られる可能性があります。
seanv507

回答:


11

すばらしい質問です。私はあなたが尋ねた質問への答え-「リッジの回帰またはなげなわを実行することと同等のペナルティ付き平滑化スプラインは-」であると信じています。解説と展望を提供できる情報源はたくさんあります。一つの場所あなたが開始することがあり、このPDFのリンクです。ノートに記載されているように:

「平滑化スプラインモデルを適合させることは、自然なスプラインの基礎でリッジ回帰の形式を実行することになります。」

一般的な読み物を探している場合は、ペナルティ付きの回帰に関するこの優れた論文をチェックしてみてください。橋と投げ縄の比較。これは、ペナルティ付きスムージングスプラインが完全に同等であるかどうかの質問に答えるのに役立ちますが、より一般的な視点を提供します。彼らがさまざまな手法、特にLASSOを使用した新しいブリッジ回帰モデルとリッジ回帰を比較したとき、私は興味深いと思います。

L=(yf)TW(yf)+λcTΣcc(XTWX+λΣ)c=XTWy


@RobertFは心配ありません。素晴らしい午後をお過ごしください。
Nathaniel Payne

1
段落1のリンクPDFへのリンクが壊れています。
Jthorpe、2017

3

プロットを考えると、本当に多くのノットが必要かどうかはわかりません。

特定の年齢でいくつかの小さなサンプルがある可能性があります。74のピークと、下限と上限の0値はほとんど意味がありません。

サイトのソースの権限を考えると、おそらくより少ない数のノットで、代わりに制限された3次スプラインが必要ですか?


1
ありがとう、ピーター-はい。非常に多くのノットを使用すると直観に反するように思えますが、ESLで最初に読んだときに、すべての観測にノットを配置すると、ペナルティ付き残差平方和が最小になるというメンタルダブルテイクを行いました。証拠は、制限された3次スプラインまたはペナルティドスムージングスプラインがテストデータセット内の応答変数を予測するのに適しているかどうかのプディングにあると思います。
RobertF 2014

0

私はこの議論に遅れますが、データのグラフを見てください... 70歳を超えるデータの明らかなスパイシーさは、年齢に関連するリスクを真に反映したものではなく、まばらなデータといくつかのランダム性の兆候です。

1年に1ノットを使用してモデル化したくない場合は、ノイズの過剰適合に確実につながります。

また、女性と男性を比較すると、非常に異なるパターンが見つかるでしょう。15歳から30歳の範囲のピークのほとんどは、産科になります。


こんにちはDoug-そうです、70歳以上の観測は間違いなく少なくなっています。ノットスプラインモデルごとに1年ペナルティが課せられると、70以上の係数がゼロになる可能性があります。ここでの目標は、節点配置の手動選択を、年齢とIPの承認の間の非線形関係に最も適合する自動化されたプロセスに置き換えることです。これは、特に予測モデルで役立ちます。
RobertF 2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.