予測変数の異なるセットの重要性の比較


13

私は特定の問題を抱えている研究生にアドバイスをしていましたが、このサイトで他の人の意見を聞きたいと思いました。

環境:

研究者には3種類の予測変数がありました。各タイプには、異なる数の予測変数が含まれていました。各予測変数は連続変数でした:

  • ソーシャル:S1、S2、S3、S4(4つの予測子)
  • 認知:C1、C2(つまり、2つの予測子)
  • 行動:B1、B2、B3(つまり、3つの予測子)

結果変数も連続的でした。サンプルには約60人の参加者が含まれていました。

研究者は、結果変数を説明する上でどのタイプの予測因子がより重要であるかについてコメントしたかった。これは、これらのタイプの予測因子の相対的な重要性に関するより広範な理論的懸念に関連していました。

ご質問

  • 1つの予測変数セットと別の予測変数セットの相対的な重要性を評価する良い方法は何ですか?
  • 各セットに異なる数の予測変数があるという事実に対処するための良い戦略は何ですか?
  • 解釈の際に注意すべき点は何ですか?

例への参照や技術の議論も大歓迎です。

回答:


7

予測子の最初のセットに自由度(非線形項を許可する 4)が必要であり、2番目のセットにbが必要であり、3番目に非線形項を許可するc(c 3)が必要であるとします。各セットの結合部分効果の尤度比テストを計算し、ます。d自由度の確率変数の期待値はdであるため、dを減算して競技場を水平にします。すなわち、計算します。F検定を使用する場合、分子dfで複数のFを使用してスケールを取得します。χ2L1L2L3χ2L1aL2bL3cχ2


確認するには、これらの4つの変数のdfによって調整された4つの社会変数の包含から生じる逸脱の減少(-2 *)としてL1を計算します。同様に、L2とL3についても同様ですか?
B_Miner

私は最高の記法を使いませんでした。尤度比統計量を意味します。これは、テスト対象の変数セットを削除したときの-2対数尤度の変化です。χ2
フランクハレル

また、純粋に統計的な解決策を考案する際に、予測因子の3つのグループすべてが同時に発生する特性/動作を測定する可能性がある包括的な問題を逃すリスクがあることを認めますか?因果連鎖の以前の原因と後の種類の基礎がなければ、この状況で因果関係を明確に解きほぐすことは不可能かもしれません-私たちの計算が何であろうと?(私はジェームスデイビスが因果秩序の論理で行う方法を考えようとしています。)
rolando2

確かに。モデリングを開始する前に、原因連鎖を理解する必要があります。
フランクハレル

@FrankHarrellこれらの結果は、罰せられた可能性にも当てはまりますか?罰せられた尤度には、この変数の重要度の尺度に関する尤度とは異なる特性がありますか?これをより詳細に説明する論文を提案していただけますか?ありがとう。
12

7

提案

  • 予測子のタイプごとに個別の多重回帰を実行し、複数の回帰、調整されたr平方、一般化されたr平方、または説明された他の節約された分散測定を比較できます。
  • あるいは、変数の重要性に関する一般的な文献を調べることもできますリンクに関する議論については、こちらを参照してください)。これにより、個々の予測変数の重要性に焦点を当てることができます。
  • 状況によっては、階層回帰が有用なフレームワークを提供する場合があります。1つのブロックにあるタイプの変数(認知変数など)を入力し、2番目のブロックに別のタイプ(社会変数など)を入力します。これは、あるタイプの変数が別のタイプを超えて予測するかどうかの質問に答えるのに役立ちます。
  • 副次的検査として、予測変数の因子分析を実行して、予測変数間の相関が変数の型への割り当てにマッピングされるかどうかを調べることができます。

注意事項

  • 認知、社会、行動などの変数のタイプは、変数の広範なクラスです。与えられた研究には、可能な変数のサブセットのみが常に含まれ、通常、そのようなサブセットは可能な変数に比べて小さいです。さらに、測定された変数は、意図された構造を測定するための最も信頼できるまたは有効な手段ではない場合があります。したがって、実際に測定されたものを超えて、与えられたタイプの変数の相対的な重要性に関するより広範な推論を描くときは注意する必要があります。
  • また、従属変数が測定された方法の偏りを考慮する必要があります。特に心理学の研究では、自己報告の尺度が自己報告、能力と能力、他の報告と他の報告などとよく相関する傾向があります。問題は、測定モードが実際の対象構造物に加えて大きな影響を与えることです。したがって、従属変数が特定の方法で測定された場合(たとえば、自己報告)、そのタイプも自己報告を使用している場合、1つのタイプの予測変数とのより大きな相関関係を過剰に解釈しないでください。

私はこの明確で有益な回答を読んで楽しんでおり、同僚と共有するつもりです。
-rolando2

6

重要性

最初に行うことは、「予測子の重要性」を運用可能にすることです。これは、「予測値の変化に対する平均結果の感度」のようなものを意味すると想定します。予測変数がグループ化されているため、予測変数のグループに対する平均結果の感度は、変数分析による変数よりも興味深いものです。感度が因果的に理解されているかどうかは公開しておきます。その問題は後で取り上げられます。

重要性の3つのバージョン

多くの分散の説明:心理学者の最初の呼びかけは、おそらく各グループの予測変数の分散共分散構造によって説明される結果の分散の程度の測定につながる分散分解であると推測しています。実験家ではないので、ここでは多くのことを提案することはできませんが、「分散の説明」の概念全体は、「どの平方の合計」の問題がなくても、私の好みには少し根拠がないことに注意してください。その他の意見に異議を唱え、さらに発展させることを歓迎します。

大きく標準化された係数:SPSSは、変数間で比較可能な方法で影響を測定するための(誤った名前の)ベータ版を提供します。フォックスの回帰教科書では、議論この、使用しないいくつかの理由があり、ここで、他の場所で。すべてここに適用されます。また、グループ構造も無視します。

一方、予測変数をグループに標準化し、共分散情報を使用して、それらすべての標準偏差の動きの影響を判断できると思います。個人的には、「やりがいのないことはうまくやる価値がない」というモットーは、そうすることへの興味を弱めます。

大きな限界効果:もう1つのアプローチは、測定のスケールを維持し、慎重に選択されたサンプルポイント間の限界効果を計算することです。グループに興味があるので、単一の変数ではなく変数のグループを変化させるポイントを選択すると便利です。たとえば、両方の認知変数を一度に操作します。(ここでクールなプロットの機会がたくさんあります)。基本的な紙はこちらeffectsR のパッケージはこれをうまく行います。

ここには2つの注意事項があります。

  1. その場合、中央値などの個別にもっともらしい2つの認知変数を選択していないことに注意してください。

  2. いくつかの変数は理論的に操作することすらできないので、限界効果を原因として解釈することは、依然として有用ですが、より繊細です。

異なる数の予測変数

グループ化された変数の共分散構造が原因で問題が発生します。これは通常、このタスクでは心配する必要はありません。

特に、単一の変数ではなくグループの限界効果(またはその点で標準化された係数)を計算する場合、大規模なグループの次元性の呪いにより、比較がケースのない領域に迷いやすくなります。グループ内の予測子が多いほど、空間がまばらになります。そのため、重要度の尺度は、モデルの仮定に依存し、観測にはあまり依存しません(ただし、そのことはわかりません)。しかし、これらはモデルフィッティングフェーズと同じ問題です。本当に。確かに、モデルベースの因果影響評価で生じるものと同じもの。


2

1つの方法は、変数のセットを束変数に結合することです。この方法は、社会学および関連分野で広く使用されています。

参照:

Whitt、Hugh P.1986。「束係数:簡略化および拡張されたアプローチ」。社会科学研究15:174-189。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.