多変量回帰の前の単変量回帰のポイントは何ですか?


13

私は現在、小さなデータセットがあり、結果に対する治療の因果関係の影響に関心がある問題に取り組んでいます。

アドバイザーは、結果を応答として、次に治療割り当てを応答として、各予測変数に対して単変量回帰を実行するように指示しました。つまり、回帰を一度に1つの変数に適合させ、結果の表を作成するように求められています。私は「なぜこれを行うべきなのか」と尋ねましたが、答えは「どの予測因子が治療の割り当てと結果に関連しているかに興味があります。私の顧問は訓練を受けた統計学者であり、異なる分野の科学者ではないので、私は彼らを信頼したいと思っています。

これは理にかなっていますが、単変量解析の結果を使用する方法は明確ではありません。これからモデル選択を選択すると、推定値に大きなバイアスがかかり、信頼区間が狭くなりませんか?なぜこれを行う必要がありますか?私は混乱しており、私のアドバイザーは問題を提起したときにこの問題についてかなり不透明です。このテクニックに関するリソースはありますか?

(注意:私のアドバイザーは、p値をカットオフとして使用していないが、「すべて」を考慮したいと言っています。)


6
「単変量回帰」により、インストラクターが散布図の描画を含める場合、実際には賢明なアドバイスです。そして、以来、あなたがこれまでプロットせずに行われなければならない気に回帰、あなたはいくつかの有用な情報を取得します。可能な場合は、散布図行列を使用してすべてを一度に実行し、堅牢な平滑化をいくつか示します。変数が線形関係を示すことから逸脱するさまざまな方法を見れば、その利点は明らかです。
whuber

1
応答データがバイナリで、logitリンクでglmを使用している場合はどうなりますか?あなたの説明は確かに線形の場合のために明確にされ、そして今、私はそれについて考えることを、散布図の使用が自然だろう
マルセル・

5
私はあなたがそれを尋ねるかもしれないと心配していました:-)。実際、優れた滑らかさは優れた洞察を提供します。応答をジッタさせると、その分布を確認するのに役立ちます。ここでは、このようなAプロットの例を示します。stats.stackexchange.com/a/14501/919stats.stackexchange.com/a/138660/919で別のソリューションを説明します。
whuber

3
多変数回帰手法の前のこの単変量回帰は、Hosmer and Lemeshowの著書「Applied Logistic Regression」で「目的変数選択」と呼ばれます
Great38

7
注意-変数は無変量回帰では関係を示さないかもしれませんが、多変量関係では重要です。
Glen_b -Reinstateモニカ

回答:


3

分析の因果関係は、質問の重要な修飾子です。予測において、HosmerとLemenshowによって提案された「目的のある選択方法」の精神で、多重回帰の前に単変量回帰を実行することには1つの目標があります。因果モデルを作成している場合、多重回帰を実行する前に単変量回帰を実行することには、まったく異なる目標があります。後者について詳しく説明します。

あなたとあなたのインストラクターは、特定の因果グラフを念頭に置いている必要があります。因果グラフには、検証可能な意味があります。あなたの使命は、あなたが持っているデータセットから始め、それを生成したかもしれない因果モデルに推論することです。彼が実行したことを示唆した単変量回帰は、念頭に置いている因果グラフの含意をテストするプロセスの最初のステップを構成する可能性が最も高いと述べました。以下のグラフに示されている因果モデルによってデータが生成されたと考えているとします。Eに対するDの因果効果に興味があると仮定します。以下のグラフは、次のような多くのテスト可能な意味を示唆しています。

  • EはDに依存している可能が高い
  • EとAはおそらく依存しています
  • EとCはおそらく依存しています
  • EとBはおそらく依存しています
  • EとNは独立している可能性が高い

ここに画像の説明を入力してください

複数の回帰の実行、さまざまな変数の条件付け、回帰の結果がグラフの含意と一致するかどうかのテストを開始すると、本当の楽しみが始まるため、これは因果検索プロセスの最初のステップにすぎないことを述べました。たとえば、上のグラフは、Dを条件にするとEとAは独立している必要があることを示しています。つまり、DとAでEを回帰し、Aの係数がゼロに等しくないことがわかった場合、 Eは、Dを条件付けた後、Aに依存するため、因果グラフは間違っているはずです。この回帰の結果は、Dによってdで区切られていないAとEの間にパスが存在する必要があることを示唆しているため、原因グラフを変更する方法についてのヒントも提供します。


1

答えようとする前に、データのタイプとその分布が、評価/回帰/分類の方法に影響を与える可能性があることを指摘したいと思います。

また、アドバイザが使用してほしい方法については、こちらご覧ください。

背景のビット。モデル選択ツールを使用する可能性はありますが、予測変数が使用された、または除外された理由を説明できる必要があります。これらのツールはブラックボックスにすることができます。データを完全に理解し、特定の予測変数が選択された理由を説明できる必要があります。(特に、論文/修士のプロジェクトを想定しています。)

たとえば、家の価格と年齢を見てください。住宅の価格は一般的に年齢とともに低下します。そのため、データに高価格の古い家が表示された場合、削除される外れ値のように見えますが、そうではありません。

(NB:私のアドバイザーは、カットオフとしてp値を使用していないと言いましたが、「すべて」を検討したいと考えています。)p値はすべてではなく、すべてを終了しますが、役立つ可能性があります。リコールアルゴリズム/プログラムは制限されており、全体像を見ることができません。

各予測変数/処理割り当てで単変量回帰を行う理由について。

これは、基本的な多変量モデルに含める予測子の選択を支援するためです。その基本モデルから、それらの予測変数が重要であり、残るべきかどうか、またはpar約的なモデルを得る目的でそれらを削除する必要があるかどうかを確認します。

または、データの理解を深めることもできます。


1
妻と私は古い家を買いましたが、歴史的な家を買う余裕がなかったので、あなたの例には簡単な反例があります。
ニックコックス

本当です。私は実際に家の価格について話すつもりでした。一般に、住宅の価格は年齢とともにどのように下がるか。したがって、価格の高い古い家を見ると、外れ値のように見えます。その点を編集します。THX。
アポクリフォン

0

上司は、変数のいずれかがデータの分散のかなりの部分を説明できるかどうかを特定する目的で、データの最初の分析を実行するよう求めていると思います。

変数のいずれかが変動性の一部を説明できると結論付ければ、それらがどのように連携するか、共線的であるか、相互に相関があるかなどを評価できます。多変量解析を行うための純粋に探索段階各変数を構築することにより、他の変数の効果を削除するため、最初の評価をより難しくすることができます。変数のいずれかが変動のいずれかを説明できるかどうかを評価することは困難です。


0

これはデータを理解するためのアプローチかもしれませんが、すべての予測変数を組み合わせて使用​​し、各予測変数を1つずつ使用すると予測が異なることが経験からわかっています。これは、データの予測可能性を理解し、将来のステップで何をする必要があるかを理解することです。
すべての変数でp値がいくつかの変数は有意ではないと言うが、それらの有意でない変数だけでは十分に有意であると何度も見ました。それは混合効果によるものです。あなたの上司が間違っているということではありませんが、データを理解するためにはこれをしなければなりません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.