回帰に含めるスパース主成分の数の選択


9

だれでも、回帰モデルに含めるスパース主成分の数を選択するアプローチの経験がありますか?


具体的にはそのような経験はありませんが、クロスバリデーションは(いつものように)1つの優れたアプローチになると思います。
amoeba 14

回答:


4

私はあなたの質問について直接的な洞察はありませんが、あなたの興味かもしれないいくつかの研究論文に出くわしました。つまり、スパースPCA主成分回帰、および関連トピックについて話していることを正しく理解していれば、もちろんです。その場合、ここに論文があります:


1
私はこれらすべての参考文献について知りませんでした。彼らはとても良いです-ありがとう。
フランクハレル2014

@FrankHarrell:どういたしまして!お役に立てて嬉しいです。
Aleksandr Blekh 2014

1

相互検証の結果は、LSIスペースの最適な次元数を決定するためにも使用されました。ディメンションが少なすぎると、データの予測力を活用できませんでした。一方、寸法が多すぎると、過剰適合になります。図4は、LSIの次元数が異なるモデルの平均誤差の分布を示しています。4次元のLSIスペースを持つモデルでは、平均エラー数が最も少なく、エラーの中央値も最も少ないため、最終的なモデルは4次元のLSIスペースを使用して構築されました。

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

ieeeメンバーでない場合は、コピーを投稿できます。

これは私が学部生で書いた論文からです。ロジスティック回帰モデルで使用する次元数(潜在セマンティックインデックスはPCAに類似)を決定する必要があるという問題がありました。私がしたことは、メトリック(つまり、フラグ付け確率.5を使用した場合のエラー率)を選択し、さまざまな次元でトレーニングされたさまざまなモデルのこのエラー率の分布を調べたことです。次に、エラー率が最も低いモデルを選択しました。ROC曲線の下の面積など、他のメトリックを使用できます。

ステップワイズ回帰などを使用して、次元数を選択することもできます。具体的にどのタイプの回帰を実行していますか?

スパースbtwとはどういう意味ですか?


スパースPCは、たとえばL1(ラッソ)ペナルティ付きPCAです。通常のPCAでは、説明したバリエーションの順序で用語を入力できます。スパースPCAを使用すると、状況が少し不安定になるため、選択がおそらくより困難になります。
フランクハレル2014年

質問は具体的には約だったスパース主成分と、この答え(それがあると良い)がそれに対応していませんまったくそう、-1。
amoeba 14

との関連付けに基づいてコンポーネントを選択する段階的回帰では、特別なペナルティ関数が組み込まれていない限り、過剰適合が発生します。Y
フランクハレル2014

@FrankHarrellは発生する可能性がありますが、R-squaredの代わりにAICを使用すると発生する可能性が低くなります
Andrew Cassidy

@amoeba私は混乱しています...いいえ主要なコメントの「スパース」な部分に対処しませんでしたが、コメントで相互検証を使用するのとまったく同じ提案をしましたか?
Andrew Cassidy
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.