が合計してになるいくつかの変数の1つである場合、と間のは有用な値ですか?


8

回帰分析の前提の1つは、とが絡み合っていないことです。でも考えてみると理にかなっているようです。YXY

例を示します。3つのセクション(ABおよびC)のテストがある場合。全体のテストスコアは、3つのセクションの個々のスコアの合計と等しくなります。ここで、はセクションAのスコアで、は全体的なテストスコアであると言えます。次に、線形回帰はこの質問に答えることができます:セクションAに起因する全体的なテストスコアの変動性は何ですか?ここでは、いくつかのシナリオが考えられます。YXY

  1. セクションAは3つのセクションの中で最も難しいものであり、学生は常に最も低いスコアになります。このような場合、直感的にはは低くなります。全体的なテストスコアのほとんどはBとCによって決定されるためです。R2
  2. セクションAは学生にとって非常に簡単でした。この場合も、相関は高くありません。学生は常にこのセクションの100%を採点しているため、このセクションではテスト全体の得点については何もわかりません。
  3. セクションAには中間的な困難があります。この場合、相関はより強くなります(ただし、他のスコア(BおよびC)にも依存します)。

別の例はこれです:尿中の微量元素の総含有量を分析します。そして、尿中のその微量元素の個々の種(化学形態)を独立して分析します。多くの化学的形態があり得る。そして、私たちの分析が正しければ、化学形態の合計は、(異なる手法で分析された)元素の総含有量と同じになるはずです。ただし、1つの化学形態が尿中の総元素含有量と相関しているかどうかを尋ねることは理にかなっています。この総含有量は、その元素の食物からの総摂取量の指標であるためです。次に、が尿の合計要素であり、YXY 尿中の化学形態Aである場合、相関を調べることにより、この化学形態が全体的な変動に寄与する主要な形態であるかどうかを調べることができます。

とが独立していない場合でも理にかなっているように思われ、これが場合によっては科学的質問への回答に役立つと思われます。YXY

上記の例では有用または意味があると思いますか?上記のテストスコアの例を考えると、生徒の難易度がまったく同じであれば、各セクションの約33%の貢献があると私はすでに言っています。しかし実際には、これは必ずしも真実ではありません。したがって、多分回帰分析を使用すると、試験の各セクションに起因する真の変動性を知るのに役立つと考えていました。したがって、帰無仮説が真ではないことをすでに知っていても、は意味があるように思えます。R 2R2R2

そのような状況を説明し、意味のあるパラメーターを提供するための代替の修正された回帰方法はありますか?


「1つのセクションAが3つのセクションの中で最も難しく、学生は常に最低のスコアを示します。そのような場合、直感的にRの2乗は低くなります。」セクションAが最も難しい場合、回答の不整合がより多くなり、結果としてばらつきが増加します。セクションAで説明されるばらつきの割合を測定するR-squaredが大きくなります。
StatsStudent 2015年

ご意見ありがとうございます。私の考えは、セクションAはすべての生徒がこのセクションで非常に低い(0から100のスケールでは0に近い)スコアを付けるほど難しいと思いました。この場合、このセクションのスコアの変動は、テスト全体のスコアに大きく影響しません(たとえば、15、20、10%のいずれでもかまいません)。全体のテストスコア(およびその変動性)は、全体のスコアの大部分を占める他のより可変のテストスコアによって決定されます。
Bassam

回帰分析でとが独立していることを期待しているのはなぜですか?1つは他の平均値です(少なくとも他の予測子を省略した場合)。また、私はあなたの最初の文を理解していません、それはどのような仮定ですか?回帰には、何らかの絡み合いが含まれるはずです。XYX
swmo 2015年

回答:


5

従来の回帰アプローチ以外のアプローチを検討することもできます。これは、心理測定学が解決するように設計された問題のタイプに相当します(まあ、実際には、テストなので、最初の例はまさにそれです)。

古典的テスト理論、最も一般的なメトリックの1つは、基本的項目スコアとの合計スコアとの間の相関である項目合計スコアの相関です。これは、アイテムの識別を示します。スコアの高い回答者と低い回答者を区別する機能です。これは、上記でについて尋ねているような分散の説明に相当します。このスコアを計算する方法は2つあります。目的の項目を含むテストの合計スコアを使用する方法と、除外する方法の2つがあります。アイテム数が多い場合、これら2つの方法はほぼ同じですが、アイテム数が少ない場合は、大きな違いが生じる可能性があります。R2

項目応答理論(IRT)の別のアプローチは、2パラメーターの項目応答モデルまたは確認因子分析(統計的には同じですが、解釈の点では異なります)を介して推定することです。2パラメータモデルには、アイテムの難易度(アイテムの相対的な難易度)とアイテムの識別用のパラメータが含まれています。これは、アイテムと合計スコアの相関と非常によく似ています。高い識別=アイテムは高得点と低得点を明確に区別します。確認的要因分析(CFA)を使用する場合、本質的に識別パラメーターであるアイテムの読み込みがあります。それらは、合計スコアのどれだけが特定のアイテムによって駆動されるかを教えてくれます。

IRTまたはCFAを使用する場合は、推定スコアではなく潜在スコアがあり、推定しようとしていることを前提としています。上記の例では、潜在的ではない観測スコアに関心があります。したがって、これらのモデルは確率論的であり、一種のトートロジー的な関係があるため、あなたが求めているものとは異なります(合計は、定義により、エラーなしのパーツで構成されます)。しかし、統計が同様の答えを得る方法の例としてそれらを指摘します。

最後に指摘したいのですが、これはおそらく他の人が議論することですが、回帰変数は独立していると仮定されていますが、カテゴリー変数があり、モデルにダミーを入力すると、定義により、これらのダミー変数は、相関。したがって、これは独立性の仮定に違反しているように見え、多重共線性をもたらします。このように考えると、たとえば尿中の要素の回帰を実行してそれを除外すると、係数はあたかも1つのカテゴリ変数であるかのように有効になります。その意味で、上で指摘した古典的テスト理論の項目と合計の相関に匹敵する数が得られます。


4

数式をすばやく見直すには、数式を展開します。してみましょう。Z=X+Y+W

R2=(Cov(X,Z)σXσZ)2=(Var(X)+Cov(X,Y)+Cov(X,W)σXσZ)2

つまり、簡単に言うと、の分散と、他の2つの変数との関係を、スケーリング係数で割ったものになります。倍率自体を拡張することもできますが、分子が物語っています。一般に、その数に影響するのは、a)YおよびWと比較したXの相対的なスケール、b)Xの相対的な分散、c)YおよびWの分散に対するXの「寄与」です。X

それが有用かどうかについては、その種類はあなたが何を求めているかに依存します。YとWの合計が1にならない場合(またはそうでない場合もある...)でも、「全体の変動の割合」またはそのようなものと考えるのがおそらく最善です。


2

XがYを定義するために合計するいくつかの変数の1つである場合、線形回帰の仮定は明らかに破られます。P値は役に立ちません。勾配とその信頼区間は、通常の方法では解釈できません。しかし、まだ役に立ちますか?記述統計としてだと思います。Yとその3つのコンポーネントのそれぞれの間の相関を定量化する3つの値がある場合、相対値を見ることで興味深いことを学べると思います。RR2R 2R2R2


コメントありがとうございます。それがまさに私の気持ちでした。そのR2値とそれらの比較により、有用な情報が得られる場合があります。
Bassam

0

回帰分析の前提の1つは、とが絡み合っていないことです。YXY

これは誤りです。回帰分析の1つの仮定は、エラーが無相関であることです。ガウスマルコフの定理については、ウィキペディアのエントリを参照してください。

が合計してになるいくつかの変数の1つである場合、と間のは有用な値ですか?Y R 2 X YXYR2XY

と間のについて私が考えることができる唯一の使用法については、他の予測子を含めたときにモデルのパフォーマンスがどの程度向上するかを示すことです。非常に有益な他の値があります。特に、推定された係数の値とその標準誤差。 X YR2XY

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.