線形回帰と非線形回帰


13

理論的に指数関数的に関連する値xとセットがあります。y

y=axb

係数を取得する1つの方法は、両側に自然対数を適用し、線形モデルを近似することです。

> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]

これを取得する別の方法は、開始値の理論セットを指定して、非線形回帰を使用することです。

> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))

私のテストでは、2番目のアルゴリズムを適用すると、より良い理論関連の結果が表示されます。ただし、各方法の統計的な意味と意味を知りたいです。

どちらが良いですか?


3
同様の質問を扱ったこの投稿をご覧ください。この論文も興味深いかもしれません。
COOLSerdash

5
「指数関数的」とは、通常、以下に基づいたものを意味しexp()ます。ここにあるものは、より一般的に、べき関数、べき法則、またはスケーリング則と呼ばれます。他の名前は間違いなく存在します。仮説検定という意味では、権力とは関係ありません。
ニックコックス

回答:


16

「より良い」は、モデルの機能です。

混乱の理由の一部は、モデルの半分しか書いていないことです。

と言うとき、実際にはそうではありません。観測されたya x bと等しくありません。エラーコンポーネントがあります。y=axbyaxb

たとえば、あなたが言及する2つのモデルは、(可能な限り唯一の可能なモデルではありません)エラーについて全く異なる仮定をします。

おそらく、E Y | X = x = a x bに近いものを意味しますE(Y|X=x)=axb

しかし、与えられたxでのその期待値から離れたの変化については何と言うでしょうか?重要です!Yx

  • 非線形最小二乗モデルを近似すると、誤差は加法的であり、誤差の標準偏差はデータ全体で一定であると言っています。

    yiN(axib,σ2)

    または同等に

    と、 VAR E I= σ 2yi=axib+eivar(ei)=σ2

  • 対照的に、ログを取得して線形モデルを近似すると、エラーはログスケールで加算され、(ログスケールで)データ全体で一定であると言います。これは、観測のスケールでは、誤差項が乗法であるため、期待値が大きいほど誤差が大きくなることを意味します。

    yilogN(loga+blogxi,σ2)

    または同等に

    yi=axibηiηilogN(0,σ2)

    (ご了承ください E(η)σ2

(正規性/対数正規分布を仮定せずに最小二乗を行うことができますが、議論されている中心的な問題はまだ当てはまります...そして、正規性に近いところがない場合は、とにかく異なるエラーモデルを検討する必要があります)

したがって、最善の方法は、状況を記述するエラーモデルの種類によって異なります。

yxx


9

いずれかのモデルを近似する場合、残差のセット(Yの観測値と予測値の差異)はガウス分布に従うと仮定しています。その仮定が生データで当てはまる場合(非線形回帰)、対数変換された値については当てはまりません(線形回帰)。

「より良い」モデルはどれですか?モデルの仮定がデータに最も厳密に一致するもの。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.