「飽和」モデルとは何ですか?


回答:


36

飽和モデルは、データポイントと同数の推定パラメーターがあるモデルです。定義により、これは完全に適合しますが、分散を推定するためのデータが残っていないため、統計的にはほとんど役に立ちません。

たとえば、6つのデータポイントがあり、5次多項式をデータに適合させると、飽和モデル(独立変数の5の累乗ごとに1つのパラメーターと定数項に1つのパラメーター)があります。


17
モデルに10個のデータポイントと9個のパラメーターがある例を見ました。モデルのパラメーターが多すぎることを指摘すると、R ^ 2は0.999であるため、モデルは正しいはずだと言われました。
csgillespie

4
私とデイブの投稿で読むことができるように、飽和モデルは定義ごとに完全にフィットするわけではありません。しかし、モデルとしてn-1多項式を使用すると、それらは使用されます。このトピックに関するSue Doe Nihmの独創的な論文psych.fullerton.edu/mbirnbaum/papers/Nihm_18_1976.pdf
Henrik

24

飽和モデルとは、基本的にデータを補間している程度にオーバーパラメーター化されたモデルです。画像の圧縮や再構成などの一部の設定では、これは必ずしも悪いことではありませんが、予測モデルを構築しようとしている場合は非常に問題があります。

要するに、飽和モデルは、実際のデータよりもノイズによって押しのけられている非常に高い分散の予測子につながります。

思考実験として、飽和モデルがあり、データにノイズがあることを想像してください。次に、ノイズの異なる認識でモデルを数百回あてはめ、新しいポイントを予測することを想像してください。適合と予測の両方で、毎回根本的に異なる結果が得られる可能性があります(この点で多項式モデルは特に悪質です)。言い換えると、近似と予測子の分散は非常に高くなります。

対照的に、飽和していないモデルは(合理的に構築された場合)異なるノイズの実現下でも互いにより整合性のある近似を与え、予測子の分散も減少します。


17

モデルは、データポイント(観測)と同じ数のパラメーターがある場合にのみ飽和します。または、別の言い方をすれば、非飽和モデルでは自由度がゼロよりも大きくなります。

これは基本的にこのモデルが役に立たないことを意味します。なぜなら、データを生データよりもpar約的に記述しないためです(そして、データをpar約的に記述することは一般にモデルの使用の背後にある考え方です)。さらに、飽和モデルはデータを補間または反復するだけなので、(必ずしもそうとは限りませんが)(役に立たない)完全な適合を提供できます。

たとえば、いくつかのデータのモデルとして平均を取ります。平均を使用するデータポイントが1つのみ(5など)の場合(5など。平均は1つのデータポイントのみの飽和モデルであることに注意してください)、まったく役に立ちません。ただし、平均(つまり6)をモデルとして使用して2つのデータポイント(5と7など)が既にある場合、元のデータよりもわかりやすい説明が提供されます。


8
このスレッドの最も興味深い部分は、完全な適合を意味しない飽和に関するこの点です。このような状況の自然な例は、単調回帰です。たとえば、値が時間とともに増加する必要があることを知っていて、多項式が増加するように制約して、多項式回帰を実行するとします エラーのあるデータを検討してください。そのため、場合によっては少し減少します。そして、あなたが使用してどのように多くのパラメータに関係なくは、(それはだ場合でも、より多くのデータ値の数よりも)、あなたは完全にこれらのデータをフィットすることはありません。
whuber

17

他の誰もが前に言ったように、それはあなたがあなたがデータポイントを持っているのと同じくらい多くのパラメータを持っていることを意味します。そのため、適合テストの良さはありません。しかし、これは「定義による」という意味ではなく、モデルはあらゆるデータポイントに完全に適合することができます。特定のデータポイントを予測できなかった飽和モデルを使用した個人的な経験から説明できます。それは非常にまれですが、可能です。

もう1つの重要な問題は、飽和状態が無意味ではないことです。たとえば、人間の認知の数学モデルでは、モデルパラメータは理論的背景を持つ特定の認知プロセスに関連付けられています。モデルが飽和している場合、特定のパラメーターのみに影響する操作を使用して集中的な実験を行うことにより、その妥当性をテストできます。理論的予測がパラメータ推定値の観測された差(または不足)と一致する場合、モデルは有効であると言えます。

例:たとえば、認知処理用と運動反応用の2つのパラメーターセットを持つモデルを想像してください。参加者の反応能力が損なわれている(2つではなく片手しか使用できない)状態と、もう1つの状態では障害のない状態の2つの実験があるとします。モデルが有効な場合、両方の条件のパラメーター推定値の違いは、モーター応答パラメーターに対してのみ発生します。

また、1つのモデルが飽和していない場合でも識別できない可能性があることに注意してください。つまり、パラメーター値の異なる組み合わせが同じ結果を生成し、モデルの適合性が損なわれます。

一般にこれらの問題に関する詳細情報が必要な場合は、次の論文をご覧ください。

Bamber、D.&van Santen、JPH(1985)。モデルにはいくつのパラメータを保持でき、それでもテスト可能ですか?Journal of Mathematical Psychology、29、443-473。

Bamber、D.&van Santen、JPH(2000)。モデルのテスト可能性と識別可能性を評価する方法。Journal of Mathematical Psychology、44、20-40。

乾杯


3

また、準尤度モデルのAICを計算する必要がある場合にも役立ちます。分散の推定値は飽和モデルから取得する必要があります。近似するLLを、AIC計算の飽和モデルからの推定分散で除算します。


2

SEM(またはパス分析)のコンテキストでは、飽和モデルまたは特定されたばかりのモデルは、自由パラメーターの数が分散と一意の共分散の数に正確に等しいモデルです。たとえば、次のモデルは飽和モデルです。3* 4/2のデータポイント(分散と一意の共分散)があり、推定される6つの自由パラメーターもあるためです。

飽和モデル

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.