回帰を理解する-モデルの役割


46

パラメータを取得しようとしている関数がわからない場合、回帰モデルはどのように使用できますか?

私は、子供を母乳で育てた母親は、後の人生で糖尿病を患う可能性が低いと言った研究を見ました。この研究は約1000人の母親の調査から得られたもので、さまざまな要因が管理されており、対数線形モデルが使用されました。

これは、糖尿病の可能性を決定するすべての要因を考慮して、ログを持つ線形モデルにきちんと変換される素敵な機能(おそらく指数関数的)と、女性の母乳が統計的に有意であることが判明したことを意味しますか?

私は確かに何かを見逃していますが、彼らはどのようにモデルを知っていますか?


どうもありがとうございました。私はあなたの答えについて考えて少し時間を過ごしたいと思います。おそらく、あなたの意見のために私の言葉でそれらを書いてみてください。このプロセスの説明は、Taylorシリーズからのものであることが好きです。私は回帰についての知識を無計画に、そして経済学と経済学のための数学を通して拾い上げなければなりませんでした。
ジョナサンアンドリュース

アカウントを統合しました。ただし、再度失くさないように、stats.stackexchange.com / users / loginに登録してください。

回答:


43

回帰を真の形式の線形近似として見るのに役立ちます。本当の関係が

y=f(x1,...,xk)

要因が説明。それからゼロのまわりの一次テイラー近似は次のとおりです:x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

ここで、は近似誤差です。ここで、およびを指定すると、回帰があります。α 0 = F 0 0 α K = F0 εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

したがって、真の関係はわかりませんが、が小さい場合は近似値が得られ、そこから有用な結論を導き出すことができます。ε


1
こんにちは、非常に良い説明ですが、テイラーシリーズの拡張の「シグマ」の部分を理解することができません。ここにあるこの方程式をどのように減らすことができますか:mathworld.wolfram.com/TaylorSeries.html 「2つの変数での実関数のテイラー級数」の下にありますか?
アルン

1
@Arun、式(32)でを取る。n=1
mpiktas

18

mpiktasの答えを補完するが、これまで言及されていない答えの反対側は次のとおりです。

「そうではありませんが、何らかのモデル構造をとるとすぐに、データと照合できます」。

間違っている可能性のある2つの基本的な事柄は次のとおりです。関数の形式。そのため、適切な残差を期待値に対してプロットすることから始めます。または、条件付き分布の選択。たとえば、ポアソンに比べて過分散した観測カウント。したがって、同じモデルの負の二項バージョンに対してテストするか、余分な共変量が余分な変動を説明するかどうかを確認します。

また、外れ値、影響力のある観測、その他多くのことを確認する必要があります。この種のモデルの問題のチェックについて読むのに適した場所は、Cameron and Trivedi 1998の第5章です。

これらの診断により、モデルがデータの適合に失敗したことが示された場合、モデルの関連する側面を変更し、プロセス全体を再度開始します。


1
+1これは、すべてが手を振るのを防ぐキーです。わかりませんが、何かを試してから、データがどの程度一致し、どのようにデータが一致しないかを確認します。
ウェイン

15

素晴らしい最初の質問!私はmpiktasの答えに同意します。つまり、短い答えは「彼らはそうではありませんが、ほぼ正しい答えを与える正しいモデルへの近似を望んでいます」です。

疫学の専門用語では、このモデルの不確実性は、「残留交絡」として知られるものの1つの原因です。Steve Simonのページ「残留交絡とは」を参照してください簡単な説明、またはHeiko Becherの1992年医学統計(サブスクリプション要求)、またはより長い数学的な処理、またはFewell、Davey Smith&SterneのAmerican Journal of Epidemiologyのサブスクリプション(サブスクリプション要求) )。

これは、小さな影響の疫学が困難であり、調査結果がしばしば議論の余地がある1つの理由です-測定された効果のサイズが小さい場合、説明として残留交絡またはその他のバイアスの原因を除外することは困難です。


1
私は、OPが話していることのように思われるモデルの仕様の誤りは、残留交絡とは幾分異なると主張します。交絡には共変量が必要です。暴露と結果の誤った仕様だけで回帰を台無しにすることができます。
Fomite

13

ジョージ・ボックスの有名な引用「本質的に、すべてのモデルは間違っていますが、いくつかは有用です」があります。このようなモデルをフィッティングするとき、データ生成プロセスと物理的、現実世界、応答と共変量の関係について考えようとします(または考えるべきです)。データに適合するモデルでこれらの関係を表現しようとします。または別の言い方をすれば、データと一貫性があります。そのため、経験的なモデルが作成されます。

有用であるかどうかは後で決定されます-例えば、モデルにフィットするのに慣れていない女性に対して、それは良い、信頼できる予測を与えますか?モデル係数は解釈可能で科学的に使用されますか?効果の大きさに意味はありますか?


3

あなたがすでに得ている答えは素晴らしいものですが、疫学者の観点から(願わくば)補完的な答えをするつもりです。私はこれについて本当に3つの考えを持っています:

まず、彼らはしません。参照:すべてのモデルが間違っている、一部のモデルは有用です。目標は、基礎となる機能の「真実」とみなされる単一の決定的な数を生成することではありません。目標は、その関数の推定値を生成し、その周りの不確実性を定量化することです。これは、基礎となる関数の合理的で有用な近似です。

これは、特に大きな効果測定に当てはまります。3.0の相対リスクを発見した調査からの「テイクアウェイ」メッセージは、「真の」関係が2.5または3.2である場合、実際には違いはありません。@onestopが述べたように、0.9と1.0と1.1の違いは健康と政策の観点から大きなものになる可能性があるため、これは小さな効果測定値の推定では難しくなります。

第二に、ほとんどの疫学論文に隠されたプロセスがあります。それが実際のモデル選択プロセスです。検討したすべてのモデルではなく、結果として生じたモデルを報告する傾向があります(他に何もないとしても面倒だからです)。多くのモデル構築手順、概念図、診断、適合統計、感度分析、小規模な観察研究の分析に関与するコンピューターの宣誓、ホワイトボードの落書きがあります。

あなたがいる間なのでされている仮定をし、それらの多くはまた、あなたがチェックすることができます仮定しています。

第三に、時にはそうしないこともあります。そして、私たちは会議に行き、それについて互いに議論します;)

フィールドとして疫学の要点に興味があり、研究をどのように実施するかについては、ロスマン、グリーンランド、ラッシュによる現代疫学第3版がおそらく最適です。これは中程度の技術的であり、Epiの研究がどのように行われるかについての非常に良い概要です。


1
+1、これはここにあるものを補完するものです。他の多くの優れたものが既に存在した後でも、有用な貢献がまだできることを見るのは素晴らしいことです。
グング-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.