独立変数としてアクティビティに費やされた時間


14

線形モデルの独立変数として、何かをするのに費やした時間(たとえば、数週間の母乳育児)を含めたいと思います。ただし、一部の観察結果は動作にまったく関与しません。0を0としてコーディングするのは正しくありません。0は0を超える値とは質的に異なるためです(つまり、母乳育児をしない女性は、そうする女性と、非常に長い間それを行わない女性とでは大きく異なる場合があります)。私が思いつくのは、費やした時間を分類するダミーのセットですが、これは貴重な情報の無駄です。ゼロ膨張ポアソンのようなものも可能性のように思えますが、この文脈でどのように見えるかを正確に理解することはできません。誰か提案はありますか?

回答:


16

@ ken-butlerの答えを少し広げてください。連続変数(時間)と特別な値(時間= 0、または非授乳)のインジケーター変数の両方を追加することにより、「非特別な」値に線形効果があり、特別な値での予測結果。(少なくとも私にとっては)グラフを見るのに役立ちます。以下の例では、回答者(すべての女性)が働く週の時間の関数として時給をモデル化し、週40時間の「標準」について何か特別なものがあると考えています。

ここに画像の説明を入力してください

(Stataで)このグラフを生成したコードは、http//www.stata.com/statalist/archive/2013-03/msg00088.htmlにあります。

そのため、この場合、他の値とは異なる方法で処理したい場合でも、連続変数に値40を割り当てました。同様に、他の値と質的に異なると思われる場合でも、週の母乳育児に値0を与えます。以下のコメントは、これが問題だと思うと解釈します。これは事実ではなく、相互作用用語を追加する必要はありません。実際、その相互作用項は、試してみると完全な共線性のために削除されます。これは制限ではなく、インタラクション用語が新しい情報を追加しないことを伝えるだけです。

回帰式は次のようになります。

y^=β1weeks_breastfeeding+β2non_breastfeeding+

ここで、は、母乳育児の週数(母乳育児をしていない人の値0を含む)およびn o n _ b r e a s t f e e d i n gは、誰かが母乳を与えていない場合は1、そうでない場合は0であるインジケーター変数です。weeks_breastfeedingnon_breastfeedng

授乳中に何が起こるか考えてください。回帰方程式は次のように単純化されます。

y^=β1weeks_breastfeedng+β20+=β1weeks_breastfeedng+

だから、母乳ないもののために母乳育児週間の数だけの線形効果です。β1

誰かが母乳育児をしていないときに何が起こっているのかを考えてください:

y^=β10+β21+=β2+

だから、あなたに授乳していないの効果と方程式から滴を母乳育児週間の数を示します。β2

相互作用用語は既に(暗黙的に)存在しているため、相互作用用語を追加する必要はありません。

奇妙な何かがある、それはそれらのその母乳と母乳が、これだけ0週をしない人たちの期待される結果を比較することにより、母乳育児の効果を測定としてしかしそれは「比較に優しい作る感覚の...、のように」のようなものですが、実用的な有用性はすぐには明らかではありません。「非母乳育児」と12週間(約3か月)の母乳育児をしている女性を比較する方が理にかなっているかもしれません。その場合、「非授乳者」にw e e k s _ b r e a s t f e e d i n gの値12を与えるだけです。β2weeks_breastfeeding。あなたが割り当て値に回帰係数に影響を与えない「非breastfeeders」のβ 2が誰「以外と判断するという意味で-母乳育児」が比較されます。問題の代わりに、これは実際には非常に有用なものです。weeks_breastfeedingβ2


1
回答(およびその他)に感謝しますが、それを受け入れるのに苦労しています。1:0と連続時間変数を含める場合、非乳児に時間の値を割り当てる必要があります(または、共変量が欠落しているために値が低下する)。1:0変数を条件とする場合でも、time = 0として非ブレストフィーダーを含めても回帰係数に影響しないことはわかりません。おそらく、2つの間に製品相互作用の用語を追加するのがより意味があるでしょうか?
DL Dahly

@DLDahly私はこれらの疑問に対処するために私の答えを編集しました
マールテン

わかりました、それは非常に役立ちます。もう1つ簡単なフォローアップをお願いします...あなたが正しく理解している場合、B1の推定値は、B2 = 1人に与える時間値に関係なく同じです。そうですか?
DL Dahly

1
非常に良い応答マールテン。特定のサブグループにのみ関係する独立変数を含める場合の同様の状況を示す、サイト上の同様の質問/回答を次に示します。
アンディW

1
@ GavinM.Jones名前を付けたり、これを引用したりする必要があるとは思いもしませんでした。これは、連続変数とインジケーター変数の単純なアプリケーションです。したがって、私はあなたのための良いリファレンスを持っていません。すぐに掘り下げることができたのは、Treiman、DJ(2009):Quantitative Data Analysisです。アイデアをテストするために社会調査を行う。サンフランシスコ:Jossey-Bass。、第7章で同様のことを説明しました。モデルには定数が含まれています。
マールテンブイス

6

単純なもの:any / noneの1/0インジケーターと実際の値で変数を表します。両方を回帰に入れます。


4

any-time-spent(= 1)vs no-time-spent(= 0)のバイナリインジケーターを配置し、連続変数として費やした時間がある場合、「0」回の異なる効果は「 0-1インジケーターでピックアップ


2

0時間と非ゼロ時間に基づいたグループ化で混合効果モデルを使用し、独立変数を保持できます。


これについて少し話していただけますか?どうもありがとう。
DLダーリー

混合効果モデルでは、データを異なる(不均一な)バケットに分割する要因が存在すると想定しています。各バケットでは、説明変数と従属変数の関係が異なる可能性があります(インターセプトまたはインターセプトとスロープ/係数の場合)。 en.wikipedia.org/wiki/Mixed_model
rezakhorshidi

だから、母乳育児の状態で入れ子になった個人を使用し、その後、数週間の母乳育児でランダムな傾斜を使用しますか?これをSEMとして簡単に実行でき、特定の制約をテストできます。ありがとう+1
DLダーリー

1

ランダムフォレストまたはニューラルネットワークを使用している場合、この数値を0に設定しても問題ありません。なぜなら、0は他の値とは明らかに異なることがわかるからです(実際に異なる場合)。他の方法は、時間変数に加えてカテゴリ変数yes / noを追加することです。

しかし、全体として、この特定のケースでは本当の問題は見られません-0.1週間の母乳育児は0に近く、効果は非常に似ているため、私にとってはかなり連続的な変数のように見えます。明確です。


3
最初の段落は+1ですが、社会科学または医療データを扱っているため、0の影響と0.1週間の影響は大きな問題ではありません。要点は、母乳育児をまったく試みたり報告したりしない女性は、他の多くの点(健康上の問題、収入、家族の状況、仕事から外れる能力、医療サービスへのアクセス、彼らに関する情報を入手した場所)子育てなど)これらの女性が母乳育児を試みてすぐにやめる母親と非常に似ていると信じる理由は本当にありません。
ガラ

1
統計的な観点からは、これらの他の変数をモデルに明示的に配置する方が良いと思いますが、0で特別なことは何も起きないと仮定することに注意することは理にかなっています。
ガラ

0

Tobitモデルはあなたが望むものだと思います。


5
トビットは、結果が何らかのしきい値より上または下で打ち切られるときに使用されます。たとえば、最低賃金を下回る賃金や、上位のコード値を上回る収入は観測されません。このアプリケーションは、独立変数用です。
Dimitriy V. Masterov
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.