「関連するすべての予測変数」を含める必要が本当にありますか?


15

推論に回帰モデルを使用する基本的な前提は、「すべての関連する予測子」が予測式に含まれていることです。理論的根拠は、重要な現実世界の要因を含めないと、係数に偏りが生じ、そのため不正確な推論(つまり、変数バイアスの省略)につながるということです。

しかし、研究の実践では、「関連するすべての予測子」に似たものを含む人を見たことはありません。多くの現象には無数の重要な原因があり、それらすべてを含めることは不可能ではないにしても非常に困難です。すぐに使える例は、結果としてうつ病をモデル化することです:「関連するすべての変数」を含むモデルに近いものは誰も作成していません:例えば、親の歴史、性格特性、ソーシャルサポート、収入、それらの相互作用など。等...

さらに、そのような複雑なモデルのフィッティングは、非常に大きなサンプルサイズがない限り、非常に不安定な推定値につながります。

私の質問は非常に簡単です。「関連するすべての予測変数を含める」という仮定/アドバイスは、単に「言う」が、実際には決して意味のないものですか。そうでない場合、なぜ実際のモデリングのアドバイスとしてそれを与えるのですか?

そして、これはほとんどの係数がおそらく誤解を招くことを意味しますか?(たとえば、いくつかの予測因子のみを使用する人格要因とうつ病に関する研究)。言い換えれば、これは私たちの科学の結論にとってどれほど大きな問題なのでしょうか?


6
この議論のバージョンは、19世紀を通じて心理学、経済学、社会科学で激怒しました。科学者は、人々はあまりにも多様で複雑であるため、統計的手法は人々や社会システムには適用できないと主張しました。その世紀の終わりまでに、ユーティリティは哲学に勝ちました:すべての予測子を含めなくても、私たちはまだ多くを学ぶことができます。タイトルフレーズに「関連」を含めることには知恵があります。
whuber

回答:


18

あなたは正しい-私たちは「すべての関連する予測因子」と言って現実的ではありません。実際には、の変動の主な原因を説明する予測子を含めることに満足できます。観察研究で危険因子または治療に関する推論を引き出す特別な場合、これで十分なことはめったにありません。そのため、交絡の調整は、結果に関連している可能性があり、治療の選択または公表しようとしている危険因子に関連している可能性がある変数を含む、非常に積極的である必要があります。Y

通常の線形モデルでは、特に含まれる共変量に直交する場合、省略された共変量は、単に誤差項を拡大すると考えることができることに興味があります。非線形モデル(ロジスティック、コックス、その他多数)では、変数を省略すると、モデルに含まれるすべての変数の効果にバイアスがかかる可能性があります(オッズ比の非折りたたみ性などにより)。


役立つ情報をありがとう。治療効果の評価は別として、この問題の実際的な意味についてもっと質問したいと思います。論文をレビューし、明らかに重要な予測因子が省略されている場合、それが拒否の理由になりますか?これは、a。)この発生について聞いたことがなく、b。)社会科学者はしばしば、彼らがもっと知りたい(つまり、研究のトピック)予測因子のみを含め、「既知の」要因(より効率的な測定の必要性に基づいて)。
-ATJ

たとえば、内生変数のSINGLE予測子のみを持つ潜在変数モデルを見るのは珍しいことではありません。これは、統計の分野と実際のトピック領域でのその実装とのギャップを物語っていますか?
-ATJ

6
おそらくそうでしょう。以前の質問に対して、拒否の理由には、その包含が包含変数の異なる解釈を与えるか、モデルを大幅に変更する重要な変数の省略が含まれます。私はかつて、被験者が喫煙したかどうかにかかわらず入手可能な肺がんリスクに関する論文をレビューしましたが、著者は喫煙量(パック年など)の評価を試みませんでした。完全に拒否することをお勧めします。
フランクハレル

9

はい、すべての「関連変数」を含める必要がありますが、それについては賢明でなければなりません。あなたはあなたの現象の影響を無関係なものから隔離する実験を構築する方法を考えなければなりません。それは実世界(クラスルームとは対照的に)の研究ではたくさんあります。統計情報を取得する前に、統計情報ではなく、ドメインで重労働を行う必要があります。

関連するすべての変数を含めることについて冷笑しないことをお勧めします。なぜなら、それは高貴な目標であるだけでなく、多くの場合可能であるからです。これを言うためだけに言っているのではありません。私たちは本当にそれを意味します。実際、関連するすべての変数を含めることができる実験と研究を設計することは、科学を本当に興味深いものにし、機械的なボイラープレートの「実験」とは異なります。

私の声明を動機付けるために、ガリレオがどのように加速を研究したかの例を示します。彼の実際の実験の説明は次のとおりですこのWebページから)。

長さ約12キュビット、幅1キュビット、厚さ3指の木製のモールディングまたはスキャンニングが行われました。その端には、1本の指よりも幅の広いチャネルがカットされました。この溝を非常に真っ直ぐで滑らかで磨き、羊皮紙で裏打ちし、できるだけ滑らかで磨いて、硬くて滑らかで非常に丸い青銅のボールに沿って転がしました。このボードを傾斜した位置に置いて、一方の端を1つか2キュビト上に上げることで、ボールを転がしました。降下するために。2つの観測間の偏差が脈拍の10分の1を超えないような精度で時間を測定するために、この実験を複数回繰り返しました。この操作を実行し、信頼性を確保したので、ボールをチャネルの長さの4分の1だけ転がしました。そして、降下の時間を測定したところ、前者のちょうど半分であることがわかりました。次に、他の距離を試し、全長の長さを半分の長さ、2 / 3、3 / 4、または実際に任意の端数の時間と比較しました。そのような実験では、完全に100回繰り返されましたが、横断する空間は時間の2乗として互いに一致していることが常に判明しました。これは、平面、つまり、玉。また、飛行機のさまざまな傾斜に対する降下の時間は、後で見るように、正確にその比を互いに退屈させることを観察しました

時間の測定には、高い位置に置かれた大きな水の容器を使用しました。この容器の底部に小さな直径のパイプをはんだ付けし、水の全噴流またはその長さの一部にかかわらず、各降下の間に小さなガラスに集めた水の細い噴流を与えました。このようにして集められた水は、降下ごとに非常に正確なバランスで計量されました。これらの重みの違いと比率は時間の違いと比率を与え、これは非常に正確で、操作は何度も繰り返されましたが、結果に大きな違いはありませんでした。

d=gt2
dgtd0=1t0dtd0/dt02/t2
d0d=t02t2

彼が時間を測定する方法に注意してください。あまりにも粗野なので、最近の不自然な科学がどのように変数を測定し、「顧客満足」または「効用」を考えているかを思い出させます。彼は、測定誤差は時間単位の10分の1以内であったと述べています。

彼は関連するすべての変数を含めましたか?はい、彼はしました。今、あなたはすべての体が重力によって互いに引き付けられていることを理解する必要があります。したがって、理論上、ボールにかかる正確な力を計算するには、宇宙のすべての物体を方程式に追加する必要があります。さらに、はるかに重要なことに、彼は表面抵抗、空気抵抗、角運動量などを含めませんでした。これらはすべて、測定に影響を与えましたか?はい。ただし、彼が勉強していた物件の影響を隔離することで、その影響を軽減または排除することができたため、彼らは彼が勉強していたものとは関係がありませんでした。

t2


彼の時間測定方法の粗雑な点は何ですか?セットアップは、水が大型容器を出てカップに入る特定の速度を持ちます。容器に大量の水が入っていると仮定すると、その速度の変化は最小限になります。さらに重要なことは、実験全体で一貫性を保つことです。ストップウォッチや派手な自動タイマーがなかったため、実際には非常にエレガントな方法です。
-JAB

@JAB、それはもちろん、ストップウォッチや時間を測定する現代的な方法に比べて粗野です。ガリレオの時代の時間測定の最先端を考えると、非常にエレガントであることは間違いありません。しかし、私が言っていたのは、このような一見低い精度(間隔の1/10)でも時間と距離の関係を観察するには十分であるということ
でした。アクサカル

@JAB、物理学でのばかげた測定方法の私のお気に入りの例の1つは、チェレンコフがどのように彼の放射線を発見したかです。彼は目が暗くなるまで暗い部屋に座ってから、光が消えるまで穴から光を出して穴を開閉しました。彼は、放射線のレベルを検出するためにどれだけの穴が開いているかを記録していました。どうやら、人間の目はほんの一握りの光子で測定された光の違いを検出できるようです!用紙は3ページの長さです。
アクサカル

6

回帰モデルの仮定を完全に保持するには、すべての関連する予測変数を含める必要があります。しかし、どの統計分析の仮定も完全には成り立たず、統計的実践の多くは「十分に近い」に基づいています。

実験計画と適切なランダム化により、モデルに含まれない用語の効果はしばしば無視できます(ランダム化の機会と同等と仮定)。ただし、回帰は、モデルに含まれていない可能性のあるすべての変数を完全にランダム化できない場合に通常使用されるため、質問が重要になります。

ほぼすべての回帰モデルに潜在的な予測変数が欠けている可能性がありますが、それ以上明確にしないと「わからない」ため、統計学者が仕事を続けることはできません。仮定と現実の間の結果が私たちの結果に影響します。場合によっては、仮定との違いによってほとんど違いが生じず、違いについてはあまり気にしませんが、他の場合では非常に深刻な場合があります。

関連するモデルに含まれていない予測変数がある可能性があることがわかっている場合の1つのオプションは、感度分析を行うことです。これは、未測定の変数との潜在的な関係に基づいて、どの程度のバイアスが可能かを測定します。この紙:

Lin、DY、Psaty、BM、Kronmal、RA。(1998):観察研究における未測定の交絡因子に対する回帰結果の感度の評価。Biometrics、54(3)、Sep、pp。948-963。

感度分析のいくつかのツール(および例)を提供します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.