モデルの複雑さの尺度


19

同じ数のパラメーターを持つ2つのモデルの複雑さをどのように比較できますか?

編集09/19:明確にするために、モデルの複雑さは、限られたデータから学ぶことがどれだけ難しいかを示す尺度です。2つのモデルが既存のデータに等しく適合している場合、複雑度が低いモデルほど、将来のデータに対するエラーが少なくなります。近似値を使用する場合、これは技術的には常に正しいとは限りませんが、実際に正しい傾向がある場合は問題ありません。さまざまな近似が異なる複雑さの尺度を提供します


モデルに関してどのような属性が利用可能かについての詳細情報を提供できますか?
みすぼらしいシェフ

これは一種の未解決の質問なので、私の質問は次のとおりです。複雑さを測定するには、どのような属性が必要ですか。最も基本的なレベルでは、確率モデルは、確率分布の集合であり、私は最高のフィッティングのメンバーを選択することにより、データにモデルをフィット
ヤロスラフBulatov

3
、正確には、「複雑さ」とは何ですか?(これはちょっとした質問ではありません!)正式な定義がない場合、何かを有効に比較することはできません。
whuber

それは私が本質的に求めているものです
ヤロスラフ・ブラトフ

2
しかし、「複雑さ」という言葉で捉えようとしているモデルの側面について、少なくともヒントを教えていただけませんか?それがなければ、この質問は、1つの合理的な答えを認めるのが曖昧になるだけです。
whuber

回答:


12

最小記述長のさまざまな測定値(正規化された最尤法、フィッシャー情報近似など)に加えて、言及する価値のある2つの方法があります。

  1. パラメトリックブートストラップ。要求の厳しいMDLメジャーよりも実装がはるかに簡単です。素晴らしい論文は、Wagenmakerと同僚によるものです:
    Wagenmakers、E.-J.、Ratcliff、R.、Gomez、P.&Iverson、GJ(2004)。パラメトリックブートストラップを使用したモデルの模倣の評価Journal of Mathematical Psychology、48、28-50。
    要約:

    モデルの模倣を定量化する一般的なサンプリング手順を提示します。これは、競合するモデルによって生成されたデータを説明するモデルの能力として定義されます。パラメトリックブートストラップ交差適合法(PBCM;ウィリアムズ(JR Statist。Soc。B 32(1970)350; Biometrics 26(1970)23)を参照)と呼ばれるこのサンプリング手順は、適合度の差の分布を生成します競合する各モデルの下で期待されます。PBCMのデータ通知バージョンでは、生成モデルには、検討中の実験データをフィッティングすることにより得られた特定のパラメーター値があります。データに基づいた差異分布を、適合度の観測された差異と比較して、モデルの妥当性を定量化することができます。PBCMのデータ非通知バージョンでは、生成モデルには、事前の知識に基づいた比較的広範なパラメーター値があります。通知されたデータと通知されていないデータの両方のPBCMの適用について、いくつかの例を示します。

    更新:単純な英語でのモデルの模倣の評価。競合する2つのモデルのいずれかを使用して、そのモデルのパラメーターセット(データの有無にかかわらず)をランダムに選択します。次に、選択した一連のパラメーターを使用して、このモデルからデータを生成します。次に、生成されたデータに両方のモデルを適合させ、2つの候補モデルのどちらがより適合しているかを確認します。両方のモデルが同等に柔軟であるか複雑である場合、データを作成したモデルのほうがより適しているはずです。ただし、他のモデルがより複雑な場合は、データが他のモデルから生成されたものの、より適切に適合する可能性があります。これを両方のモデルで数回繰り返します(つまり、両方のモデルでデータを生成し、2つのモデルのどちらがより適しているかを調べます)。他のモデルによって生成されたデータを「オーバーフィット」するモデルは、より複雑なモデルです。

  2. 相互検証:実装も非常に簡単です。この質問への回答をご覧ください。ただし、これに伴う問題は、サンプルカットルール(leave-one-out、K-foldなど)の選択が原則外であることに注意してください。


私は「モデルの模倣」を本当に理解していませんが、交差検証は複雑さを評価するタスクを先送りしているようです。あなたはパラメータ選ぶためにデータを使用した場合、クロスバリデーションのようにあなたのモデルを、関連する質問がうまく実行するには、この「メタ」-fitterに必要なデータの量を推定する方法となり
ヤロスラフBulatov

@Yaroslaw:相互検証の問題を本当に理解していませんが、正直なところ、私はそこに専門家はいません。しかし、モデルの模倣を測定するためのポイントを作りたいと思います。したがって、更新された回答を参照してください。
ヘンリック

4

実際のモデルフィッティング手順に依存すると思います。一般的に適用可能な尺度として、1998年に記述された一般化された自由度(本質的にはモデル推定値の変化の観測の摂動に対する感度)を考慮できます。これは、モデルの複雑さの尺度として非常にうまく機能します。


うーん...この論文はすべて回帰に関するもので、これを離散確率推定に使用できるかどうか疑問です。また、私は彼がそれを与える動機を本当に理解していません-gdfはデータの小さな変化に対するパラメーターの感度の程度ですが、なぜそれが重要なのでしょうか?私は、新しいパラメータの大きな変化に、元のパラメータの対応のパラメータの小さな変化は、それがデータに対してより敏感に見えるでしょう異なるパラメータを選択することができますが、それは同じモデルだ
ヤロスラフBulatov

Yaroslav:> *元のパラメーター化のパラメーターの小さな変化が新しいパラメーター化の大きな変化に対応する別のパラメーター化を選択することができますので、データに対してより敏感に見えるでしょう*例を挙げることができます(アフィン同変推定量を含む)ありがとう、
-user603

1
線形回帰のDoFは、ハットマトリックスのトレースまたは感度の合計に作用します。そのため、モチベーション/概念はそれほど遠くありません。Tibshirani&Knightは、感度ではなくモデル推定値の共分散を調べる共分散インフレーション基準を提案しました。GDFは、カートやウェーブレットのしきい値処理などの多くのモデル手順(適応モデル選択に関するYeの論文に詳細があります)、および複雑さを制御するためのアンサンブル手法に適用されているようですが、個別の推定事例は知りません。試してみる価値があるかもしれません...
ars

「アフィン同変推定量」については知らないが、代わりに最尤推定量に依存すると仮定する。q = f(p)とします。fは全単射です。p0、q0は、対応するパラメーター化のMLE推定を表します。p0、q0は異なる漸近分散を持ちますが、モデリングデータの観点では、それらは同等です。質問は次のようになります-どのパラメーター化において、予想されるリスクを表すパラメーターの感度は?
ヤロスラフブラトフ

4

最小記述長(MDL)および最小メッセージ長(MML)は、チェックアウトする価値があります。

MDLに関する限り、正規化最尤法(NML)の手順と漸近近似を説明する簡単な論文は次のとおりです。

S. de Rooij&P.Grünwald。無限のパラメトリックな複雑さを伴う最小記述長モデル選択の経験的研究。Journal of Mathematical Psychology、2006、50、180-192

ここでは、幾何分布とポアソン分布のモデルの複雑さを調べます。MDLの優れた(無料の)チュートリアルはこちらにあります

別の方法として、MMLとMDLの両方で調べた指数分布の複雑さに関する論文がここにあります。残念ながら、MMLに関する最新のチュートリアルはありませんが、このは優れたリファレンスであり、強くお勧めします。


1
私はその論文を読みましたが、確率的複雑性は同じ次元のモデルを区別できないという問題を修正するように見えますが、異なる次元のモデルを区別できないという問題を持ち込みます。幾何学的分布には無限の複雑さが割り当てられており、このような単純なモデルに期待されるものではありません!
ヤロスラフブラトフ

無限の確率的複雑性(SC)についての非常に良い点。無限SCの問題に対する解決策は存在しますが、あまりエレガントではありません。Rissanenの繰り込みは線形モデルでうまく機能しますが、ポアソン/幾何学的問題に対しては簡単ではありません。ただし、ポアソン/ジオメトリデータのMML(またはSMML)エンコードは問題ありません。
emakalic

3

最小の説明の長さは、追求する価値のある道かもしれません。


2
簡単なメモ:最小の説明の長さは非常に強力で便利ですが、特に大きなデータセットで正規化された最尤法を使用する場合、結果を得るには時間がかかる場合があります。私は一度だけの一つのモデルのためにそれを得るためにFORTRANのコードを実行している10日間を要した
デイブ・ケレン

2

「モデルの複雑さ」とは、通常、モデル空間の豊かさを意味します。この定義はデータに依存しないことに注意してください。線形モデルの場合、モデル空間の豊かさは、空間の縮小によって簡単に測定されます。これは、一部の著者が「自由度」と呼んでいるものです(歴史的には、自由度はモデル空間とサンプル空間の違いのために確保されていました)。非線形モデルの場合、空間の豊かさを定量化することは簡単ではありません。一般化された自由度(arsの回答を参照)は、そのような尺度です。それは確かに非常に一般的であり、木、KNNなどの「奇妙な」モデル空間に使用できます。VC次元は 別の尺度です。

前述のように、この「複雑さ」の定義はデータに依存しません。したがって、同じ数のパラメーターを持つ2つのモデルは、通常、同じ「複雑さ」を持ちます。


1

ヤロスラヴのコメントからヘンリックの答えまで:

しかし、相互検証は複雑さを評価するタスクを延期するようです。相互検証のようにデータを使用してパラメーターとモデルを選択する場合、関連する質問は、この「メタ」フィッターが適切に機能するために必要なデータ量をどのように推定するかです。

kkkCV(k)kk

手順の結果は、サンプルの予測エラーの違いの観点(単位)に直接関係しているため、これに「重要」なフレーバーを与えることもできます。


1
クロス検証がモデルの複雑さを測定する問題を解決することに同意します。実際の質問はフィッティング手順のサンプルの複雑さなので、間違った質問をしているのかもしれません。相互検証された学習者は、さまざまなモデルを試し、相互検証エラーが最小のモデルを選択します。さて、問題は、この学習者が最尤法で単一のモデルに適合する学習者よりも過剰適合する可能性が高いかどうかです。
ヤロスラフブラトフ

Yaroslav Bulatov:>はい。ただし、MLはネストされたモデルの比較にのみ使用できます。(質問で)指定した範囲内で、同じ数のパラメーターを持つモデルについて言及した場合、それらはネストできません。
user603

別の問題は、交差検証はモデルの複雑さの理解に追加されないということです。AIC / BICのような手段により、多くのパラメーターが過剰適合を促進することが明らかになります。ここで問題になります-次元以外のモデルのどの側面が過剰適合能力を増加させますか?
ヤロスラフブラトフ

Yaroslav:>繰り返しますが、非常に良い点です。
user603

オーバーフィッティングが信号に加えてノイズをフィッティングするモデルフィッティング手順の傾向である場合、そのような傾向が発生する可能性がある場所を確認するために、特定の手順を見ることができます。おそらく、想像力や知識が不足しているために、いくつかの異なる手順を検討している間、これを「パラメーターの数」(または「パラメーターの有効数」)として言い換えることができないものに要約することはできませんでした。これを頭の上でひっくり返して尋ねることができます。他のすべてが等しい場合、データにノイズを導入するとどうなりますか 次に、YeのGDFなどの手段に到達します。
アルス

0

モデル比較の情報基準はどうですか?例:http : //en.wikipedia.org/wiki/Akaike_information_criterion

ここで、モデルの複雑度は、モデルのパラメーターの数です。


AICはモデルの複雑さの尺度ではありません。
スヴェンホーエンシュタイン

@SvenHohenstein、彼の最後の文から、私は彼がAIC 自体がモデルの複雑さの尺度であることを示唆していないことを集めます。Brause42、質問は同じ数のパラメーターを持つモデルについて具体的に尋ねることに注意してください。したがって、AICはSSEまたは逸脱、またはそれ以外に縮小します。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.