ここにはいくつかの問題があります。
(1)モデルは明示的に確率的である必要があります。ほとんどすべての場合、lhsがすべてのデータのrhsと一致するパラメーターのセットはありません。残差があります。これらの残差について仮定を行う必要があります。あなたはそれらが平均してゼロになることを期待していますか?対称的に分散するには?ほぼ正規分布するか?
指定されたモデルと一致するが、大幅に異なる残差動作を許可する2つのモデルを次に示します(したがって、通常は異なるパラメーター推定が発生します)。分布に関する仮定を変えることにより、これらのモデルを変えることができます。ϵi
B:YI=β0EXP(β 1 X 1 I +...+ β K X K iは) +ϵi。
A: yi=β0exp(β1x1i+…+βkxki+ϵi)
B: yi=β0exp(β1x1i+…+βkxki)+ϵi.
(これらはデータ モデルであることに注意してください。通常、推定データ値のようなものはありません。)^ y iyiyi^
(2)yのゼロ値を処理する必要性は、ランダムエラーがどのようなものであってもゼロ値を生成できないため、上記のモデル(A)が誤っており、不十分であることを意味します。上記の2番目のモデル(B)では、yの値がゼロ(または負の値)になる場合があります。ただし、そのような理由だけでモデルを選択するべきではありません。#1を繰り返しますが、エラーを適切にモデル化することが重要です。
(3)線形化はモデルを変更します。通常、(A)のようなモデルになりますが、(B)のようなモデルにはなりません。これは、この変更がパラメータ推定にそれほど影響を与えないことを知るのに十分なほどデータを分析した人や、何が起こっているかを知らない人が使用します。(違いを見分けるのは、何度も困難です。)
(4)ゼロ値の可能性を処理する一般的な方法は、(または平方根などのその再表現)が厳密に正のゼロの確率を持つことを提案することです。数学的には、点の質量(「デルタ関数」)を他の分布と混合しています。これらのモデルは次のようになります。y
f(yi)θj∼F(θ);=βj0+βj1x1i+⋯+βjkxki
ここで、は、ベクトルに暗黙的に含まれるパラメーターの1つであり、はパラメーター化された分布のファミリーです、およびの再発現であるさん(:ワンストップの回答を参照してください一般化線形モデルの『リンク』機能)。(もちろん、次に、 = when)例は、ゼロ膨張のポアソンモデルと負の二項モデル。θ F θ 1、... 、θ J F Y PR F θ [ F (Y )≤ T ] (1 - θ J + 1)F θ(t )t ≠ 0PrFθ[f(Y)=0]=θj+1>0θFθ1,…,θjfyPrFθ[f(Y)≤t](1−θj+1)Fθ(t)t≠0
(5)モデルの構築とフィッティングの問題は関連していますが異なります。簡単な例として、通常の回帰モデルでも、最小二乗法を使用してさまざまな方法で近似できます(これにより、最尤法と同じパラメーター推定値とほぼ同じ標準誤差が得られます)。繰り返し最小二乗再重み付け、他の様々な形の「強固な最小二乗法を、」などフィッティングの選択は、多くの場合、利便性、便宜に基づいている(例えば、ソフトウェアの利用可能性)、親しみやすさ、習慣、または慣例が、少なくともいくつかの考えはする必要がありますエラー項仮定された分布に適切なものに与えられ、ε IY=β0+β1X+ϵϵi問題の損失関数は合理的であり、追加情報(パラメーターの事前分布など)を悪用する可能性があります。