変換された変数を使用する場合の線形回帰効果のサイズ


9

線形回帰を実行する場合、従属変数の対数変換などの変換を行って、より良い正規分布の適合を実現すると便利な場合があります。多くの場合、結果の効果サイズ/実際の関連性をより適切に評価するために、回帰からベータを検査することも役立ちます。

これは、たとえば対数変換を使用する場合、効果サイズが対数スケールになるという問題を引き起こします。使用されたスケールの非線形性のために、これらのベータを逆変換すると、意味のない値が得られると言われています実際の使用法はありません。

ここまでは、通常、変換された変数を使用して線形回帰を実行して有意性を検査し、次に元の非変換変数を使用して線形回帰を実行して効果サイズを決定しました。

これを行うための正しい/より良い方法はありますか?ほとんどの場合、臨床データで作業するので、実際の例は、特定の曝露が身長、体重、またはいくつかの実験室測定などの継続的な変数にどのように影響するかを判断することです。重量が2 kg増える」

回答:


5

エラーの正規分布を得るために変換は重要ではないことをお勧めします。正規性は必須の前提ではありません。「十分な」データがある場合、中心極限定理が始まり、標準的な推定値は漸近的に正常になります。あるいは、ブートストラップをノンパラメトリックな手段として使用して、標準エラーを推定できます。(標準誤差を正しくするには、ユニット間の観測値の共通分散であるホモスケダスティシティが必要です。堅牢なオプションにより、ヘテロスケダスティシティが許可されます)。

代わりに、変換は線形モデルが適切であることを確認するのに役立ちます。これを理解するために、変換されたモデルの係数をどのように解釈できるかを考えてみましょう。

  • 結果は単位、予測子は単位:予測子の1単位の変化は、結果のベータ単位の変化につながります。
  • 単位での結果、ログ単位での予測子:予測子で1%の変化は、結果でベータ/ 100単位の変化につながります。
  • ログ単位での結果、単位での予測値:予測値での1単位の変更は、結果のベータx 100%の変更につながります。
  • ログ単位の結果、ログ単位の予測子:予測子の1パーセントの変化は、結果のベータパーセントの変化につながります。

モデルに意味を持たせるために変換が必要な場合(つまり、線形性を維持するため)、推論にはこのモデルからの推定を使用する必要があります。信じられないモデルからの推定値はあまり役に立ちません。上記の解釈は、変換されたモデルからの推定値を理解するのに非常に役立ち、多くの場合、当面の問題により関連します。たとえば、ベータの解釈は弾力性であり、経済学の重要な尺度であるため、エコノミストは対数対数の定式化を好みます。

関数の期待値は期待値の関数ではないため、逆変換は機能しません。ベータの期待値の対数は、ベータの対数の期待値ではありません。したがって、推定量は公平ではありません。これも標準エラーをスローします。


2

短い答え:絶対に正しい、ベータ値の逆変換は意味がありません。ただし、非線形性を次のように報告できます。「100kgの体重の場合、1日に2切れのケーキを食べると、1週間で約2kg体重が増加します。ただし、200kgの体重の場合、体重は2.5kg増加します。この非直線関係については、図1を参照してください(図1は、生データに対する曲線のあてはめです。」

長い答え:

逆変換された値の意味はさまざまですが、適切に行われると、通常、いくつかの意味があります。

0.13のベータと2つの切片が7.0である2つのx予測子の自然対数値の回帰がある場合、0.13(1.14)の逆変換はほとんど意味がありません。それは正しいです。ただし、7.13の逆変換は、何らかの意味で解釈できる値になります。次に、7.0の逆変換を差し引いて、意味のあるスケール(152.2)での効果である剰余値を残すことができます。予測値を確認したい場合は、最初にすべてをログ値で計算してから、逆変換する必要があります。これは、予測値ごとに個別に行う必要があり、グラフ化した場合は曲線になります。

変換によるデータへの影響が比較的小さい場合、これは多くの場合妥当です。反応時間の対数変換は、逆変換できる値の一種です。正しく行われると、値が生データに対して単純な計算を行う中央値に近いように見えます。

それでも、相互作用と非相互作用には注意が必要です。相対値はスケール全体で異なります。分析はログ値に敏感でしたが、逆変換された値は異なるパターンを示し、相互作用が存在すべきではないように見える場合や、その逆の場合があります。つまり、注意している限り、データに小さな変更を加えるものを逆変換できます。

確率のロジスティック変換などの一部の変更は、特にスケールの終わり近くで、非常に大きな影響を与える可能性があります。逆変換してはいけない場所の例は、確率の上限または下限付近の交互作用プロットです。


2

問題は、(XとYの)限界効果についてです。個々の係数の解釈についてはそれほどではありません。人々が有益に指摘しているように、これらは、たとえば線形関係と加法関係がある場合にのみ、効果サイズで識別できる場合があります。

それが焦点である場合、問題について考える(概念的には、実際的ではないにしても)最も単純な方法は次のようになります。

なしの相互作用を持つ線形通常回帰モデルでY上のXの限界効果を得るには、できるだけのことは知られていないと推定されているので、非常に十分ではありませんX.しかし、上の係数を見てください。いずれにせよ、限界効果に本当に必要なのは、Xの値の範囲に対するYに関する予測と不確実性の尺度を提供するある種のプロットまたは要約です。通常、予測平均Yと信頼区間が必要な場合がありますが、XのYの完全な条件付き分布の予測も必要な場合があります。その分布は、モデル係数に関する不確実性を考慮しているため、近似モデルのシグマ推定よりも広くなります。 。

このような単純なモデルには、さまざまな閉じた形のソリューションがあります。現在の目的では、それらを無視し、代わりに、任意の複雑なモデルを扱う方法で、シミュレーションによって限界効果グラフを取得する方法についてより一般的に考えることができます。

Yの平均値に対するXの変化の影響が必要であり、他のすべての変数をいくつかの意味のある値に修正するとします。Xの新しい値ごとに、モデル係数の分布からサイズBのサンプルを取得します。Rでこれを行う簡単な方法は、それが平均coef(model)と共分散行列をもつNormalであると仮定することですvcov(model)。係数の各セットに対して新しい期待Yを計算し、間隔でロットを要約します。次に、Xの次の値に移動します。

この方法は、各サンプリングステップで変数(またはその逆)も適用する場合、変数に適用されるファンシーな変換の影響を受けないように思えます。そのため、近似モデルに予測子としてlog(X)がある場合は、新しいXをログに記録してから、サンプリングした係数を掛けます。近似モデルが従属変数としてsqrt(Y)を持っている場合、サンプルで予測された各平均値を二乗してから、それらを区間として要約します。

要するに、プログラミングは増えるが確率計算は少なくなり、結果として臨床的に理解可能な限界効果が得られる。この「方法」は、政治学の文献ではCLARIFYと呼ばれることもありますが、非常に一般的です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.