変数選択とモデル選択


12

したがって、変数の選択はモデル選択の一部であることを理解しています。しかし、モデル選択の正確な構成は何ですか?それは次のもの以上ですか?

1)モデルの分布を選択する

2)説明変数を選択しますか?

これは、Burnham&Anderson:AIC vs BICの記事で、モデル選択におけるAICとBICについての記事を読んでいるからです。この記事を読んで、「モデル選択」を「変数選択」と考えてきたことがわかります(コメントBICは真のモデルを見つけようとしますか?

記事からの抜粋は、「一般性」の度合いが増加する12のモデルについて語っており、これらのモデルは、12のモデルに対してKL情報をプロットすると「テーパ効果」を示します(図1)。

異なる哲学とターゲット モデル... BICのターゲットはAICのターゲットモデルよりも一般的なモデルですが、ここでBICが最も頻繁に選択するモデルは、nが非常に大きくない限り、モデル7よりも一般的ではありません。モデル5または6である可能性があります(文献の多数の論文とシミュレーションから)、テーパー効果のコンテキスト(図1)では、AICはBICよりも優れていることが知られています。これが実際のデータ分析のコンテキストである場合は、AICを使用する必要があります。

どのようにBICことができ、これまで私は理解していないモデル選択におけるAICよりも複雑なモデルを選択してください!「モデル選択」とは具体的にどのようなもので、BICはAICよりも「一般的な」モデルを具体的に選択するのはいつですか?

2lnNk2k

編集

のコメントの議論から、AICまたはBICを他よりも好む理由はありますか?コメントで@Michael Chernickと@ user13273の間に小さな議論があり、これはそれほど些細なことではないと信じています。

この議論を「機能」選択または「共変量」選択と呼ぶ方が適切だと思います。私にとって、モデルの選択は、エラーの分布、リンク関数の形式、共変量の形式の指定を含む、はるかに広範なものです。AIC / BICについて話すとき、通常、共変量の選択を除き、モデル構築のすべての側面が固定されている状況にあります。– user13273 12年8月13日21:17に

モデルに含める特定の共変量の決定は、一般にモデル選択という用語で決まります。タイトルにモデル選択のある書籍が多数あり、主にモデルに含めるモデル共変量/パラメーターを決定しています。-マイケルチャーニック12年8月24日14:44で


3
良い質問!解像度の少なくとも一部は、この論文の用語でのBICの「ターゲット」-非常に大きなサンプルサイズで選択する真のモデル-と特定のサンプルで選択するモデルを区別することです。サイズ。その場合、noが増加するモデルのネストされたシーケンスを検討する場合、矛盾はありません。のパラメータ、ターゲット 6と1を適度なサンプルサイズでBICが4つのパラメータを持つモデルを選ぶにもかかわらず、BICのは9つのパラメータを持つモデルであり、&​​AIC
Scortchi -復活モニカ

1
@Scortchi:良い例ですが、ネストされたモデルについて話しているとき、ターゲットモデルの概念は完全に冗長ではありませんか?コンテキストがネストされたモデルのセットである場合(変数の選択について話している場合):BICはより複雑なターゲットモデルを持っている可能性がありますが、AICよりも複雑なモデルを選択することはありません。他の文脈(モデル選択について話している)(サンプルサイズが大きい場合)では、BICはAICよりも複雑な(「一般的な」)ターゲットモデルを選択すると主張しています。これが具体的にどのように起こるかは、私にはまだ明らかではありません。
エロセニン

@Erosenninは、あなたのこの一般的な質問に対する答えを見つけることができましたか?
zipzapboing

回答:


3

モデラーは、変数選択をモデル開発の別個のステップに分けることがあります。たとえば、彼らは最初に探索的分析を行い、学術文献と業界の慣行を調査し、次に候補変数のリストを作成します。彼らはこのステップを変数選択と呼びます

y=jmバツjmβjm+ε
jmjmm

これは、機械学習で変数を思い付くときに、人々が機能エンジニアリングについて話す方法に似ています。これらの機能(変数)を使用してモデルを構築するLASSOまたは類似のフレームワークに機能をプラグインします。このコンテキストでは、アルゴリズムに変数の適切な係数を選択させ、変数を削除しないため、変数選択を個別のステップに分離するのが理にかなっています。どの変数がモデルに入るかについての判断は、変数選択ステップで分離され、残りは近似アルゴリズムに任されます。

あなたが引用した論文の文脈では、これはすべて無関係です。このペーパーでは、BICまたはAICを使用して、異なるモデル仕様から選択します。この場合、別のステップとして変数を選択したかどうかは関係ありません。重要なのは、特定のモデル仕様に含まれる変数ですm、あなたは彼らのBIC / AICを見て最良のものを選ぶ。サンプルサイズと変数の数を考慮します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.