合計が1になる比率を線形回帰の独立変数として解釈する


12

共線性を回避するために、1つのレベルをベースラインとしてフィットできるようにする、カテゴリ変数とそれぞれのダミー変数コーディングの概念に精通しています。また、そのようなモデルからのパラメーター推定値を解釈する方法にも精通しています。ベースラインカテゴリと比較した、カテゴリカル予測子の特定の近似レベルの結果の予測される変化。

わからないのは、合計が1になる比率である一連の独立変数をどのように解釈するかです。モデルのすべての比率を当てはめると、再び共線性が得られるため、おそらく1つのカテゴリをベースラインとして除外する必要があります。私はまた、この変数の重要性の全体的なテストのためにタイプIII SSを見ることを想定しています。ただし、これらのレベルのパラメーター推定値は、モデルに適合するか、ベースラインと見なされたものとどのように解釈しますか?

:郵便番号レベルでは、独立変数は変成岩、火成岩、堆積岩の比率です。ご存知かもしれませんが、これらは3つの主要な岩石タイプであり、すべての岩石はこれらの岩石の1つとして分類されます。そのため、3つすべての比率の合計は1になります。結果は、それぞれの郵便番号の平均ラドンレベルです。

モデルの予測因子として変成岩火成岩の比率を当てはめ、堆積物をベースラインとして残した場合、2つの適合レベルの全体的なタイプIII SS F検定は、全体として岩のタイプが重要かどうかを示します。結果の予測因子(平均ラドンレベル)。次に、個々のp値(t分布に基づく)を見て、一方または両方の岩石タイプがベースラインと大幅に異なるかどうかを判断できます。

ただし、パラメーターの見積もりになると、私の脳はそれらを純粋にグループ(ロックタイプ)間の結果の予測される変化として解釈することを望み続け、それらが比率として当てはまるという事実を組み込む方法を理解していません。

場合はの推定値変成岩はあったが、0.43、言う、解釈は岩が変成対の堆積岩であるとき、0.43単位で予測平均ラドンレベルが増加するということだけではありません。ただし、この解釈は、変成岩タイプの比率のある種の単位増加(たとえば、0.1)の単純なものでもありません。これは、ベースライン(堆積物)にも関連しているという事実を反映していないためです。割合変成岩は、本質的に、モデル内の他のロック・レベルのフィット感、の割合に変更火成岩をβ

そのようなモデルの解釈を提供するソースを持っている人はいますか、そうでなければここに簡単な例を提供できますか?


2
+1比率は、応答と線形関係を持たないことがよくあります。場合などreparameterizationsモデルを改善することであった、彼らはまた、天然の、単純な解釈を可能にするであろう。データの線形性を調べましたか?(π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)
whuber

1
いいえ、ただし、特に「割合」の多くが実際には0と1、または0と1に非常に近い値として出力され、本質的にバイナリとして機能しているため、問題が発生すると思います。そのため、実際のグループをそれらから(そしてプロポーションを廃止して)作成する可能性がありますが、これは、仮説的には正しい解釈がどうなるかについての私の興味を刺激しました。
メグ

十分に公正です-それは良い質問です。
whuber

2
表現する数学的に等価な方法です。それらを解釈するには、左側は、が確率である場合、「比」と呼ばれます。プロポーションのどのセットでも同じ意味です。したがって、は、比のように解釈できます。合計が1 になるリグレッサのセットの場合、モデルでそれらのリグレッサを再表現する方法としてを使用できます。(または場合は常に注意が必要です。)λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1
whuber

2
λi=log(πi)ははずです。 and意図したとおり。
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi
whuber

回答:


8

フォローアップとして、正しいと私が思うこと(私には理にかなっているようです):この質問をASA Connect listservに投稿し、ストーニーブルックのThomas Sextonから次の応答を得ました。

「推定線形回帰モデルは次のようになります。

ln(ラドン)=(他の変数の線形式)+ 0.43M + 0.92I

ここで、MとIはそれぞれ、郵便番号における変成岩と火成岩の割合を表します。次の制約があります。

M + I + S = 100

ここで、Sは郵便番号内の堆積岩の割合を表します。

0.43の解釈では、Mの1パーセントポイントの増加は、モデル内の他のすべての変数を固定したln(Radon)の0.43の増加に関連付けられています。したがって、Iの値は変更できません。また、制約を満たしながらMを1パーセントポイント増加させる唯一の方法は、省略されたカテゴリであるSを1パーセントポイント減少させることです。

もちろん、この変更はS = 0の郵便番号では発生しませんが、そのような郵便番号では、Mの減少とSの対応する増加が可能です。」

ここでは、スレッドのASAへのリンクは次のとおりです。http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-4427476d3ddf&sKey=bf9cef9062314b07a5f2#bm13

これを正しい正解として投稿しますが、何か追加することがあれば、さらに議論することができます。


ここで提供される答えに疑問を投げかけるかなりの議論があるので、1つのアドバイスはASAスレッドに行くことです。
Maxim.K

@ Maxim.K:上記でリンクした自分のASAスレッドを参照していますか?もしそうなら、はい、未解決の警告がたくさんありました、そして私は(もし存在するなら)「正しい」答えを完全に確信していません。これが私が修飾子を追加した理由です、「私はこれを受け入れられた正解として投稿していますが、何か追加するものがあれば、さらに議論することができます。」
メグ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.