線形回帰で対数変換された係数を解釈する方法は?


10

私の状況は:

単純な線形回帰のために残差を正規化するために対数変換した1つの連続従属変数と1つの連続予測子変数があります。

これらの変換された変数を元のコンテキストに関連付ける方法について、何か助けていただければ幸いです。

線形回帰を使用して、生徒が2010年に見逃した日数に基づいて、2011年に生徒が見逃した日数を予測したいと思います。ほとんどの生徒は0日またはほんの数日欠けており、データは積極的に左に歪んでいます。したがって、線形回帰を使用する変換が必要です。

両方の変数にlog10(var + 1)を使用しました(0日間学校を休んだ生徒には+1を使用しました)。性別/民族性などのカテゴリー要素を追加したいので、回帰を使用しています。

私の問題は:

私がフィードバックしたいオーディエンスは、log10(y)= log(constant)+ log(var2)xを理解していません(そして率直に言っても私は理解していません)。

私の質問は:

a)回帰で変換された変数を解釈するより良い方法はありますか?つまり、2010年に1日間欠落すると、2011年には2日間欠落します。これに対して、2010年には1単位のログ単位が変更されたのに対し、2011年にはx単位の単位が変更されますか?

b)具体的には、次のようにこの出典から引用された一節を考える:

「これは、他の変数がモデル内で一定に保たれている場合、数学標準化テストスコアが1ユニット増加したときの負の二項回帰推定です。学生が数学テストスコアを1ポイント増加させた場合、期待される数は、モデルの他の変数を一定に保ちながら、0.0016単位で減少すると予想されます。

私が知りたいのですが:

  • この一節は、UNTRANSFORMED変数mathのスコアが1ユニット増えるごとに定数(a)から0.0016減少するため、UNTRANSFORMED数学スコアが2ポイント上がる場合、定数aから0.0016 * 2を引くと言っていますか?
  • これは、exponential(a))とexponential(a + beta * 2)を使用して幾何平均を取得することを意味しますか?そして、これら2つの間のパーセンテージの差を計算して、予測変数がどのような効果を持つかを示す必要があります/従属変数を持っていますか?
  • それとも私はそれを完全に間違っていますか?

SPSS v20を使用しています。長い質問でこれをフレーミングして申し訳ありません。



8
代わりにポアソン回帰を使用することを考えましたか?これは当然、依存カウントデータで示され、ログ変換の成功はポアソン分布と一致しています。係数は、学校の1日を逃すと予想される確率の比例的な増加に関して解釈されます。1つの利点は、ゼロの特別な処理が必要ないことです(ただし、ゼロに膨らんだ代替モデルを検討することは依然として非常に良い考えです)。
whuber

こんにちはWhuber、はい。ポアソン回帰について考えていましたが、これについて確信が持てなかったか、負の二項回帰を選択したかと思いました。データが過度に分散している場合、つまり平均値がデータセットの分散よりも低いため(つまり正のスキュー)、負の二項式と思います。また、厳密に言えば、ポアソンは無制限の分母を想定しているのに対して、1年の学校セッションの数には上限がありますか?それともポアソンの方が適切だと思いますか?残念ながら、SPSSは私が見た限りではゼロインフレートモデルをサポートしていません...)ありがとうWhuber :)
JimBob

3
ポアソン分布の無制限のサポートに問題はありません。これは、正規分布を使用して、たとえば負でない値をモデル化するのに似ています。不可能な値に関連する可能性が小さい場合は、それでも優れたモデルになる可能性があります。負の二項は、適合度と過剰分散をテストするために使用されるポアソンの標準的な代替です。いい考えだね。SPSSが制限されている場合は、他のものを使用してください!(Rゼロ膨張モデルのパッケージがあります。このサイトを検索してください。)
whuber

2
@whuberに同意します。おそらくZIPまたはZINBモデル​​が必要だと思います。これらは、PROC COUNTREG(ETS)を介してSASでも利用可能であり、SAS 9.2以降、PROC GENMOD(STAT)でも利用可能です
Peter Flom-

2
stats.stackexchange.com/questions/18480/…に非常に優れた情報があります。
rolando2 2011

回答:


7

@whuberのコメントでもっと重要な点が示唆されていると思います。対数を取ることで効果的にデータセットから2010年または2011年の欠落ゼロの生徒を捨てているため、全体的なアプローチが誤っています。これらの人々が問題になるほど十分であるように思われ、あなたの結果は間違いないでしょう。あなたが取っているアプローチに基づいて間違っている。

代わりに、ポアソン応答で一般化線形モデルを近似する必要があります。適切なモジュールの料金を支払わない限り、SPSSはこれを行うことができないため、Rにアップグレードすることをお勧めします。

係数の解釈の問題は依然としてありますが、これは基本的に適切なモデルを持つことの重要性に次ぐものです。


xlog(x+1)

3

特にモデルの形式に関して、私は他の回答者に同意します。ただし、質問の動機を理解している場合は、一般の視聴者を対象としており、実質的な内容を伝えたいと考えています。(理論的)分析の意味。この目的のために、さまざまな「シナリオ」の下で予測値(たとえば、見逃した推定日数)を比較します。選択したモデルに基づいて、予測子が特定の固定値(中央値またはゼロなど)にあるときに従属変数の予想される数または値を比較して、予測子の「意味のある」変化を示すことができます。予測に影響します。もちろん、データを元のわかりやすいスケールに戻す必要があります。標準の「Xの1単位の変更」は、独立変数の実際のインポートまたは欠如を伝えないことが多いため、「意味のある変更」と言います。「出席データ」では、そのような変更がどのようなものになるのかわかりません。(学生が2010年に1日欠席し、2011年に1日欠席した場合、私たちが何かを学ぶかどうかはわかりません。しかし、私にはわかりません。)


2

Y=bXXY=blog(X)Xblog(1.01)

編集:おっと、従属変数も対数変換されていることに気づかなかった。3つの状況すべてを説明する良い例のリンクは次のとおりです。

1)Yのみが変換される2)予測変数のみが変換される3)Yと予測変数の両方が変換される

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm


1
こんにちはJCさん、返信ありがとうございます。私は一貫性を保つために依存変数と独立変数の両方を変換するアプローチを採用しましたが、IVと比較して正規性の変換が本当に必要なのはDVのみであることを読みました。
ジムボブ

私は実際にあなたが提案したリンクを見ました(ありがとう)いくつかの点、特に幾何平均と「実際の生活」との比較に関しては明確ではありませんでしたが、幾何平均を使用することはモデリングとより関係があると思いますxの単位変化あたりのyの結果ではなく、yに対するxの変化の影響?私は戻って
もう一度

2

YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2

あなたは単に示すことができます:

YC M1X1 M2X2 M3X3

M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3

Y


3
E[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.