混合モデルは予測モデルとして有用ですか?


24

予測モデリングに関する混合モデルの利点について少し混乱しています。予測モデルは通常、以前は未知の観測値を予測するためのものであるため、混合モデルが有用な唯一の方法は、母集団レベルの予測を提供できることです(つまり、ランダム効果を追加することはありません)。ただし、これまでの私の経験では、混合モデルに基づく人口レベルの予測は、固定効果のみの標準回帰モデルに基づく予測よりも著しく悪いという問題があります。

では、予測問題に関して混合モデルのポイントは何ですか?

編集。問題は次のとおりです。混合モデル(固定効果とランダム効果の両方)と、固定効果のみの標準線形モデルを適合させました。クロスバリデーションを行うと、予測精度の次の階層が得られます:1)固定効果とランダム効果を使用して予測するときの混合モデル(ただし、これはもちろん、既知のレベルのランダム効果変数を持つ観測に対してのみ機能するため、この予測アプローチはそうではありません実際の予測アプリケーションに適している!); 2)標準線形モデル; 3)母集団レベルの予測を使用する場合の混合モデル(ランダム効果がスローされるため)。したがって、標準線形モデルと混合モデルの唯一の違いは、推定方法が異なるため、係数の値が多少異なることです(つまり、両方のモデルに同じ効果/予測子がありますが、関連する係数が異なります)。

混合モデルを使用して人口レベルの予測を生成することは、標準の線形モデルと比較して劣った戦略であるように見えるので、私の混乱は結局のところ、なぜ予測モデルとして混合モデルを使用するのでしょうか?


予測はどうですか?ランダム効果を使用していませんか、それともランダム効果を平均で修正していますか?(つまり、予測時にランダム効果を捨てていますか?)
ウェイン

ランダム効果を正しく理解している限り、(少なくとも使用するパラメーター化において)ランダム効果は平均0と分散シグマの正規分布から生成されるため、それらの手段でランダム効果を修正することはそれらを捨てることと同じです。しかし、とにかく、新しい観測の変量効果変数の値がわからないので、当然、予測時に変量効果を使用せず、固定効果のみを使用します。
sztal

1
あなたは、「時系列データのための混合モデルに基づくロジスティック回帰分類器の有効性について」、この紙を通して見てみたいことがありますsearch.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/...
ジョン

1
sztal:もちろんです。私は迅速に対応しようとしていたが、意味のないことを言った。セクション7で予測を扱った論文(gllamm.org/JRSSApredict_09.pdf)を見つけました。それをコメントに要約することはできないと言わざるを得ません。
ウェイン

最後の質問:固定効果のみと混合効果を比較するとき、それぞれに同じ固定効果を使用し、個人レベルのインターセプトのようなものを追加するだけですか?この状況では、実際の予測間隔のより良いアイデアを除いて、非常に類似した効果があるはずです。
ウェイン

回答:


17

データの性質に依存しますが、一般に、混合モデルは固定効果のみのモデルよりも優れていると予想されます。

例を見てみましょう。日光と小麦の茎の高さの関係をモデリングします。個々の茎の多くの測定値がありますが、茎の多くは同じ場所で測定されます(高さに影響を与える可能性のある土壌、水、およびその他のもので同様です)。可能なモデルは次のとおりです。

1)身長〜日照

2)高さ〜日照+サイト

3)高さ〜日光+(1 |サイト)

私たちはこれらのモデルを使用して、新しい小麦の茎の高さを予測します。固定効果のみのモデルで多くのサイトを使用する場合に支払うパラメーターペナルティを無視し、モデルの相対的な予測力を考慮します。

ここで最も関連する質問は、予測しようとしているこれらの新しいデータポイントが、測定したサイトの1つからのものかどうかです。これは現実の世界ではめったにないと言いますが、実際に起こります。

A)新しいデータは、測定したサイトからのものです

その場合、モデル#2と#3は#1よりも優れています。どちらもより関連性の高い情報(平均サイト効果)を使用して予測を行います。

B)新しいデータは未測定のサイトからのものです

次の理由により、モデル#3が#1および#2よりも優れていると考えています。

(i)モデル#3と#1:

モデル#1は、過剰に表現されたサイトを優先して偏った推定値を生成します。各サイトから同数のポイントと、合理的に代表的なサイトのサンプルがある場合、両方から同様の結果が得られるはずです。

(ii)モデル#3と#2:

この場合、モデル#3がモデル#2よりも優れているのはなぜですか?ランダム効果は収縮を利用するため、サイト効果はゼロに向かって「収縮」します。言い換えれば、固定効果として指定されている場合よりも、ランダム効果として指定されている場合、サイト効果の極端な値が少なくなる傾向があります。これは有用であり、母平均が正規分布から引き出されたと合理的に考えることができる場合に予測能力を向上させます(統計のスタインのパラドックスを参照)。母平均が正規分布に従うことが期待されない場合、これ問題になる可能性ありますが、通常は非常に合理的な仮定であり、この方法は小さな偏差に対してロバストです。

[サイドノート:デフォルトでは、モデル#2をフィッティングする際に、ほとんどのソフトウェアはサイトの1つを参照として使用し、参照からの偏差を表す他のサイトの係数を推定します。したがって、全体的な「人口効果」を計算する方法がないかのように見えるかもしれません。ただし、個々のサイトすべての予測を平均化するか、より単純にモデルのコーディングを変更してすべてのサイトの係数が計算されるようにすることで、これを計算できます。]


答えてくれてありがとう。私はかなり確信しています。残念ながら、今では私の質問の動機となった正確なケースを覚えていませんが、私の場合の混合モデルのパフォーマンスの低下は、モデルで使用した予測変数のかなり不規則な分布によるものであると考えています。私はすぐに答えを受け入れますが、質問が少し注意を引いたので、誰かがより厳密な外植を行うことができるように、もう数日を与えます(おそらくいくつかの例があります)。
sztal

1
よく置きます。モデルから経験的に推定されたランダムな切片またはランダムな勾配を予測するために、ランダムな効果を引き起こすサイト固有の効果を階層的に予測することは、個々のレベルおよびサイト固有の固定効果の束を持つことと同等であることに注意してくださいモデル内。
AdamO

8

mktの優れた対応のフォローアップ:健康保険分野での予測モデルの開発に関する私個人の経験から、予測モデル(機械学習モデルを含む)にランダム効果を組み込むことには、多くの利点があります。

個人の過去の請求データに基づいて、将来の請求結果(たとえば、将来の医療費、滞在期間など)を予測するモデルを構築するようによく求められます。多くの場合、個人ごとに複数の請求があり、結果は相関しています。同じ患者が多くの主張を共有しているという事実を無視すると、予測モデルで貴重な情報が失われます。

1つの解決策は、データセット内の各メンバーに固定効果インジケーター変数を作成し、ペナルティ回帰を使用して、メンバーレベルの固定効果を個別に縮小することです。ただし、データに数千または数百万のメンバーがある場合、計算および予測の両方の観点からより効率的なソリューションは、複数のメンバーレベルの固定効果を正規分布の単一のランダム効果項として表すことです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.