多変量回帰が必要なのはなぜですか(一変量の回帰ではありません)?


28

私はちょうどこの素晴らしい本を読みました:Johnson and Wichernによる応用多変量統計分析。皮肉なことに、個別の単変量(回帰)モデルの代わりに多変量(回帰)モデルを使用する動機を理解することはできません。(a)多変量回帰と多変量回帰の違いと(b)多変量回帰の結果の解釈を説明するstats.statexchangeの投稿1および2を調べましたが、すべての情報から多変量統計モデルの使用を微調整することはできませんそれらについてオンラインで入手してください。

私の質問は:

  1. なぜ多変量回帰が必要なのですか?推論を引き出すために、結果を個別にではなく同時に考慮することの利点は何ですか。
  2. 多変量モデルを使用する場合、および複数の単変量モデルを使用する場合(複数の結果の場合)。
  3. UCLAのサイトで、制御の軌跡、自己概念、および動機付けという3つの結果が得られた例を取り上げます。1.と2.に関して、3つの単変量多重回帰と1つの多変量多重回帰を行う場合の分析を比較できますか?互いに正当化する方法は?
  4. 多変量統計モデルを利用する学術論文にはあまり出会っていません。これは、多変量正規性の仮定、モデルのフィッティング/解釈の複雑さ、または他の特定の理由によるものですか?

18
個別の単変量モデルは相関を無視します。
jwimberley

3
はい、世界には独立したランダム変数でモデル化できない多くの現象があります。
マイケルR.チェルニック

2
@jwimberley回答でこれらの相関関係を無視した場合の結果について詳しく説明してください。
ジェイクウェストフォール

2
タイトルに注意してください:次元削減(PCA、因子分析、任意の非線形法など)とクラスタリングは、通常「多変量」法とも見なされます。あなたの質問は多変量回帰に焦点を当てているようです(一変量の回帰に対して)ので、タイトルに直接入れることをお勧めします。+1 btw。
アメーバは、モニカを復活させる

2
ANOVAをとは対照的に、MANOVAは有益であり得るかの簡単な例:stats.stackexchange.com/questions/129123。:MANOVAはまだ有益なが異なるためである逆の状況stats.stackexchange.com/questions/61921。MANOVAは次のことができます。(i)より多くのパワーを与える、(ii)全体的なエラー率を制御する。
アメーバは、モニカを復活させる

回答:


22

リンクしたUCLAサイトで完全な例を読みましたか?

1:に関して
、多変量モデルを使用すると、結果全体で係数を(正式に、推論的に)比較できます。
そのリンクされた例では、彼らは多変量モデルを使用して、write係数がlocus_of_control結果と結果で有意に異なるかどうかをテストしself_conceptます。私は心理学者ではありませんが、あなたの文章能力が2つの異なる心理変数に同じように影響を与える/予測するかどうかを尋ねるのは興味深いでしょう。(または、nullが信じられない場合、効果が実際に異なることを説得力をもって実証するのに十分なデータを収集したかどうかを尋ねることはまだ興味深いです。)
単変量解析を別々に実行した場合、write2つのモデルにわたる係数。両方の推定値は同じデータセットから取得されるため、相関します。多変量モデルでは、この相関関係が考慮されます。

また、4に関してRepeated Measures ANOVAなど、非常に一般的に使用される多変量モデルいくつか
あります。適切な研究デザインを使用して、すべての患者に複数の薬物のそれぞれを与え、すべての薬物の後に各患者の健康状態を測定すると想像してください。または、縦断的データのように、同じ結果を経時的に測定すると想像してください。次に、ユニットごとに複数の結果が得られます(「同じ」タイプの測定が繰り返されている場合でも)。おそらく、少なくともいくつかの単純な対比を行うことをお勧めします。薬物Aと薬物Bの効果の比較、または薬物AとBの平均効果とプラセボの比較です。このため、反復測定ANOVAは適切な多変量統計モデル/分析です。


1
あなたは素晴らしい答えを与えました。他の例や議論ができる世界があることを私は間違いなく認識していました。OPを表示するためにUCLAリンクから情報を取得したことが気に入っています。率直に言って、最初は質問に腹を立てていましたが、OPがここで良い議論を心から望んでおり、多変量メソッドを無視するという考えを推し進めていないことに気付いたとき、答えを提供することにしました 私の選択は、相関関係を無視することで実際に壊滅的で致命的な結果が得られる例を示すことでした。
マイケルR.チェルニック

1
私はあなたの答えを歓迎します。そして、うまくいけば、これを価値あるスレッドにするよりよく考えられた答えです。
マイケルR.チャーニック

すばらしい回答、@ civilstatをありがとう。ポイント1では、2つの独立した単変量モデルを実行する場合、入力変数係数(writeたとえば係数)が相関し、多変量モデルがそれを説明することを述べました。ここで、さらに理解を深めたいところです。locus_of_controlとself_conceptは、因子分析またはその他の手法を使用して単一のメジャーにマージでき、適切な動機がある場合は、結果のメジャーをモデル化できます。両方が2つの異なるpsycを測定する場合。現象、それらを同時にモデリングすることで何が得られますか?
-KarthikS

2
@ManuelFazio UCLAサイトの次の文章をご覧ください。「なぜ多変量回帰を実施するのか?前述のように、mvregを使用する利点の1つは、異なる結果変数にわたって係数のテストを実施できることです。」あなたが別の回帰を実行した場合は、同じ係数とSE取得したいそれぞれの結果については、しかし、あなたは、係数間の相関の推定値を取得しません成果全体を。たとえば、動機付けの結果とself_conceptの結果の読み取り係数の差についてCIを取得する場合、この相関関係が必要になります。
Civilstat

1
@civilstatああ、恥ずかしいことに、独立性の仮定は私の心に染み込んでいたので、その文章を読んでもクリックしなかった。詳細な説明をありがとう!
-zipzapboing

11

単純に確率を乗算することから生じるすべての誤った、時には危険な結論について考えてください思考イベントは独立しています。 すべての組み込みの安全保障措置のため、私たちは独立した仮定を使用して、原子力発電所の専門家に大規模な原子力事故の可能性は無限であると言った しかし、スリーマイル島で見たように、特にパニックに陥った場合、人間はすぐに自分自身を悪化させる可能性のある最初のエラーのために相関エラーを起こします。人間の行動を特徴付ける現実的な多変量モデルを構築するのは難しいかもしれませんが、恐ろしいモデル(独立したエラー)の効果を理解することは明らかです。

他にも多くの例があります。別の可能な例として、チャレンジャーシャトルの災害を取り上げます。 問題は、低温条件下で打ち上げるかどうかでした。Oリングが低温で故障する可能性があることを示唆するデータがいくつかありました。しかし、リスクがどれほど高いかを明確にするために、合格したミッションからのデータはあまりありませんでした。NASAは常に宇宙飛行士の安全性に関心を寄せており、ミッションを安全にするために、宇宙船と打ち上げロケットに多くの冗長性が組み込まれました。

しかし、1986年以前は、考えられるすべての障害モードを特定していなかったために、システム障害とほぼ障害が発生していました(難しいタスク)。信頼性モデリングは難しいビジネスです。しかし、それは別の話です。シャトルの場合、Oリングのメーカー(Morton Thiokol)は、低温での故障の可能性を示すOリングのテストを行いました。

しかし、限られた数のミッションのデータは、温度と障害の関係を示していましたが、冗長性により一部の管理者は複数のOリング障害は発生しないと考えたため、NASAに起動を迫られました。

もちろん、決定につながった他の多くの要因がありました。宇宙飛行士ではない普通の人々がシャトルで安全に移動できるようになったことを示すために、レーガン大統領が宇宙に教師を配置することを切望していたことを思い出してください。そのため、政治的圧力が決定に影響するもう1つの大きな要因でした。この場合、十分なデータと多変量モデルを使用すると、リスクをより適切に実証できたはずです。NASAは、注意を怠ってエラーを試みます。この場合、フロリダの天気が暖まるまで数日間打ち上げを延期するのが賢明でしょう。

災害後の委員会、エンジニア、科学者、統計学者は多くの分析を行い、論文が発表されました。彼らの見解は私の見解と異なる場合があります。エドワード・タフテは、グラフィックスに関する一連の書籍の1つで、優れたグラフィックスのほうが説得力があることを示しました。しかし、結局のところ、これらの分析にはすべてメリットがありますが、政治はまだ勝っていると思います。

これらの物語の教訓はありませんこれらの災害は、多変量方法の使用を動機ではなく、無視さ依存性は、時にはリスクの総過小評価につながることを貧しい分析することをことを。これは、自信過剰につながり、危険な場合があります。jwimberleyがこのスレッドへの最初のコメントで指摘したように、「独立した単変量モデルは相関を無視します」。


@MichaelChernickのすばらしい例に感謝します。独立性の仮定は懸念事項です、と私は理解しています。私は、結果と結果を同時にモデル化する必要性との間の相互関係について、より興味があります。
KarthikS

チャレンジャーシャトルの災害の例自体を見てみましょう。ここで、単変量の結果はバイナリです-スペースシャトルを起動することが安全かどうか。安全性の予測、軌道のずれの測定、シャトルの室内圧力の予測など、多くのことをしようとしているモデルを検討してください。1つのアプローチは、それらのそれぞれに対して個別のモデルを構築することであり、もう1つは、入力の影響(温度、湿度など)をキャプチャしようとするだけでなく、同時にチェックするすべてのモデルを考慮することです。結果への影響。
KarthikS

1
@MichaelChernickに感謝します。私はあなたの議論を完全に理解しているかどうかわかりません。私たちの多くは、単一の入力と複数の入力変数を使用した単純な線形回帰に単変量および多変量回帰を使用していることを理解しています(複数の入力の同時効果が調べられる場合)。しかし、1つの結果(単変量)または複数の結果(多変量)を持つモデルについてこの質問を組み立てました。チャレンジャーのケースが多変量の結果のユースケースを暗示していない場合、有効なケースを暗示できますか。議論を続けてくれてありがとう。
-KarthikS

この質問に賞金をかけたことに驚いています。バウンティは、コメントをほとんど受け取らなかった場合によく行われ、回答が含まれている場合、質問の重要な側面をカバーしていません。。このスレッドは3つの良い答えとコメント(あまりにからjwimberley最初のもののような、本当に良いもののトンを持っていた
マイケルR. Chernick

他に何が欲しいのかわかりません。質問は非常に広く、技術的な問題というよりも議論のようです。複雑な状況では単変量解析だけでも大丈夫だと誰かに言わせようとしているように見えます。私は賞金のために努力するつもりはありません、そして、次の7日で誰もがそれを試みて、彼らがそうするならば、あなたがそれを受け入れるかどうかを見るのは面白いでしょう。チャレンジャー号の災害は一変量の結果とみなすことができますが、一変量の方法だけで完全に答えられる想像力のストレッチによって完全に答えられるとは思いません。
マイケルR.チャーニック

7

このpからの引用を検討してください。ダーシー・オルセン氏の著書の36 試してみてください権 [1]:

しかし、[eteplirsen]の注入が開始されてから約16週間後、ジェンは[彼女の息子] Maxの変化に気付き始めました。「子供は車椅子を使いたくなくなった」と彼女は言う。数週間後、彼は外でプレーすることを求めていました。それからマックスは彼の細かい運動能力を取り戻し始めました。彼は再び容器を開けることができた-彼の[デュシェンヌ型筋ジストロフィー]が進行するにつれて失ったスキル。

マックスの母親ジェンが構築されてコヒーレント画像の複数の結果から、一緒に証拠を引っ張って、彼の改善を個別に「ノイズ」として却下される可能性がありますが、それは一緒に、非常に説得力があります。(この証拠合成原理は、小児科医が「私の子供には何かが間違っている」という親の本能的な推論を決して無視しない理由の一部です。臨床医が1回の短い臨床診察中にアクセスできる断面分析)

p>0.05

このようなエビデンスの統合を達成することが、臨床試験における多変量アウトカム分析の核となる理論的根拠です。医学研究における統計的手法を持っていた特別な問題を数年前に、[2]多変量成果の「合同モデル」に捧げました。

  1. オルセン、ダーシー。トライする権利:連邦政府が、アメリカ人が必要とする人命を救う治療を受けられないようにする方法。初版。ニューヨーク、ニューヨーク:Harper、HarperCollins Publishersのインプリント、2015年。
  2. Rizopoulos、Dimitris、およびEmmanuel Lesaffre。「共同モデリング技術に関する特集号の紹介。」医学研究における統計的手法23、no。1(2014年2月1日):3–10。doi:10.1177 / 0962280212445800。

6

単純に類推してみましょう。本当に貢献できるのはそれだけだからです。単変量対多変量回帰の代わりに、単変量(限界)対多変量(結合)分布を考えてみましょう。次のデータがあり、「外れ値」を見つけたいとします。最初のアプローチとして、2つの周辺(「単変量」)分布を使用し、それぞれ独立して下2.5%と上2.5%に線を引きます。結果の線の外側にあるポイントは、外れ値と見なされます。

しかし、次の2つです。1)1つの軸の線の外側にあるが、他の軸の線の内側にある点をどう思いますか?それらは「部分的な外れ値」か何かですか?そして、2)結果のボックスは、本当に望んでいることをしているようには見えません。理由は、もちろん、2つの変数が相関していることであり、直感的に必要なのは、変数の組み合わせを考慮して異常な異常値を見つけることです。

この場合、ジョイント分布を見て、中心からのマハラノビス距離が上位5%以内であるかどうかでポイントを色分けしました。いくつかの外れ値は両方の緑の線のセット内にあり、一部の非外れ値(赤)は両方の緑の線のセットの外側にありますが、黒い点は外れ値のように見えます。

どちらの場合も、95%と5%の境界を定めていますが、2番目の手法は共同分布を考慮しています。多変量回帰はこのようなもので、「分布」の代わりに「回帰」を使用します。私はそれを完全に理解しておらず、多変量回帰を自分で行う必要もありませんでしたが、これは私が考える方法です。

[類推には問題があります。マハラノビス距離は、2つの変数を1つの数値に減らします。単変量回帰が一連の独立変数を取り、適切な手法で、独立変数間の共分散と結果を考慮する方法のようなものです。単一の従属変数-多変量回帰では複数の従属変数になります。ですから、これは逆向きですが、うまくいけば直観を与えるのに十分です。

ここに画像の説明を入力してください


1
私はこれが好き。外側の楕円を使用して、外れ値を定義します。あなたの図を見ればわかるように、点はx方向またはy方向のいずれかで平均から遠く離れていても、回帰直線から遠くない楕円内にある場合があります。
マイケルR.チェルニック

3

1)自然は必ずしも単純ではありません。実際、私たちが研究するほとんどの現象(結果)は、複数の変数に複雑な方法で依存しています。一度に1つの変数に基づく推論モデルは、ほとんどの場合、高いバイアスを持ちます。

2)定義により、単変量モデルは構築できる最も単純なモデルです。初めて問題を調査していて、その単一の最も重要な機能を把握したい場合は問題ありません。しかし、あなたがそれをより深く理解したいなら、あなたがしていることを信頼しているので実際に活用できる理解は、多変量解析を使用するでしょう。また、モデルの精度に関心がある場合、多変量の中で、相関パターンを理解するものを好む必要があります。

3)この記事を読む時間はありません。

4)最近、多変量技術を使用した論文は非常に一般的です-一部の分野では非常に一般的です。大型物理ハドロン衝突型加速器のデータを使用したCERNの実験(素粒子物理学から例を挙げるため)では、毎年発行されている数百の論文の半数以上が何らかの方法で多変量技術を使用しています

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0


単変量モデルは入力のみのモデルであり、多変量モデルは複数の入力のモデルです。私の質問は、モデルで同時に分析された複数の結果についてでした。
-KarthikS

1
多変量/単変量回帰と多重/単一回帰を混合しました。
ファイアバグ

1

私の答えは、回帰で何をしたいかによって異なります。異なる係数の効果を比較しようとしている場合、回帰は適切なツールではない可能性があります。独立していることが証明されているさまざまな係数を使用して予測を行おうとしている場合は、おそらく重回帰が使用すべきです。

要因は相関していますか?もしそうなら、多変量回帰はあなたに悪いモデルを与える可能性がありますので、相互相関をトリムするにはVIFやリッジ回帰のような方法を使用する必要があります。相互相関因子が除去されるまで、係数を比較しないでください。そうすると、災害につながります。それらが相互相関していない場合、多変量係数は単変量係数と同程度である必要があり、これは驚くべきことではありません。

結果は、使用しているソフトウェアパッケージによっても異なります。冗談じゃない。ソフトウェアパッケージごとに、多変量回帰の計算方法が異なります。(信じられませんか?標準R回帰パッケージが、原点を強制的にインターセプトする場合としない場合のR 2の計算方法を確認してください。顎が床にぶつかるはずです。)ソフトウェアパッケージが回帰を実行する方法を理解する必要があります。相互相関をどのように補正しますか?シーケンシャルまたはマトリックスソリューションを実行していますか?過去にこれに不満がありました。さまざまなソフトウェアパッケージで多重回帰を実行し、得られるものを確認することをお勧めします。

別の良い例:

この式では、回帰係数(またはB係数)は、従属変数の予測に対する各独立変数の独立した寄与を表すことに注意してください。この事実を表す別の方法は、たとえば、他のすべての独立変数を制御した後、変数X1をY変数と相関させることです。このタイプの相関は、部分相関とも呼ばれます(この用語は、Yule、1907によって最初に使用されました)。おそらく、次の例はこの問題を明確にするでしょう。おそらく、人口の中で髪の長さと身長との間に有意な負の相関関係があります(つまり、短い人は長い髪を持っています)。最初はこれは奇妙に思えるかもしれません。ただし、変数Genderを重回帰式に追加すると、この相関関係はおそらく消失します。これは、平均して女性は男性より長い髪を持っているためです。彼らはまた、男性よりも平均で短いです。したがって、式に性別を入力してこの性差を削除すると、髪の長さは変数の性別との予測で共有するものを超えて、髪の長さが身長の予測に一意に寄与しないため、髪の長さと高さの関係が消えます。別の言い方をすれば、変数Genderを制御した後、髪の長さと高さの部分的な相関はゼロになります。髪の長さは、性別変数との予測で共有する範囲を超えて、髪の長さが身長の予測にまったく寄与しないため、髪の長さと高さの関係はなくなります。別の言い方をすれば、変数Genderを制御した後、髪の長さと高さの部分的な相関はゼロになります。髪の長さは、性別変数との予測で共有する範囲を超えて、髪の長さが身長の予測にまったく寄与しないため、髪の長さと高さの関係はなくなります。別の言い方をすれば、変数Genderを制御した後、髪の長さと高さの部分的な相関はゼロになります。 http://www.statsoft.com/Textbook/Multiple-Regression

重回帰を使用する落とし穴は非常に多いため、使用しないようにしています。使用する場合は、結果に非常に注意し、再確認してください。相関を確認するには、常にデータを視覚的にプロットする必要があります。(ソフトウェアプログラムが相関関係がないと言ったからといって、相関関係がないという意味ではありません。 興味深い相関関係)常に常識に照らして結果を確認してください。1つの因子が単変量回帰では強い相関を示し、多変量では相関を示さない場合、結果を共有する前に理由を理解する必要があります(上記の性別因子が良い例です)。


標準のR回帰パッケージが、起点をインターセプトとして強制する場合と強制しない場合のR2の計算方法を確認してください。」これをチェックしたパッケージ。
ジェイクウェストフォール

面白い。この違いを理解していなかったアナリストの発表論文を見てきました。トピックに関するオンラインでの良い議論を見ましたか?CVに新しい質問を送信する必要がありますか?
マッデンカー

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.