応答変数が年間イベント(通常)が発生する年の日である回帰モデル


13

この特定のケースでは、湖が凍る日を指しています。この「アイスオン」の日付は年に1回だけ発生しますが、まったく発生しない場合もあります(冬が暖かい場合)。そのため、1年で湖は20日目(1月20日)に凍結する可能性があり、もう1年でまったく凍結しない可能性があります。

目標は、着氷日のドライバーを把握することです。

予測因子は、毎年秋/冬の気温などです。年は、長期的な線形トレンドの予測因子になる可能性があります。

1)整数の「年の日」は妥当な応答変数ですか(そうでない場合は何ですか?)?

2)湖が凍らない年をどう扱うべきか?

編集:

ここにエチケットが何であるかはわかりませんが、受け取った提案の結果を投稿すると思いました。こちらが論文、オープンアクセスです。@pedrofigueiraと@cboettigに感謝します。もちろん、エラーは私自身のものです。


どんな種類のデータセットがありますか?一年中の対策ですか?
ドンベオ

@Donbeo、アイスオンは1年に1回発生するため、応答変数は年間解像度になります。他のデータも年に1回の頻度で入力されますが、場合によってはより高い頻度のデータに変換できます。
rbatt

アイスオンの日付をどの目的で検討しますか?統計モデリングは決して真でも偽でもないが、有用または役に立たないので、私はこれを尋ねる。したがって、統計結果の使用は重要であり、ターゲット変数がまったく有用であるかどうかの洞察も重要です。たとえば、すでに10月に薄い氷の盾で湖が凍ったが、同じ週に溶けて、この冬に二度と凍らない場合はどうでしょうか。スノータイヤのようなものをいつ使い始めるかを予測するために分析を行うのでしょうか?これは、2番目の質問に対する有用な答えのヒントになる可能性があります。
ホルストグリュンブッシュ14年

@HorstGrünbusch、あなたの考えをありがとう。気候の変化が氷にどのような影響を与えたかを知りたいのです。なぜなら、水生システムに蓋をすることは多くのこと(ガス交換、光など)に影響するからです。利用可能な唯一の氷のデータは、これらの氷の日付です(厚さなどではありません)。
rbatt

回答:


4

「年間通算日」は多変量回帰に対する応答変数と考えることができると思います。湖が凍らない年を処理するために、凍結の日は、たとえば、氷の含有量が溶け始める(または、必要に応じて完全に溶ける)日に対応する観測可能な下限よりも大きいと単に考えます非常に保守的である)。理論的には、その後フリーズするか、その後フリーズする可能性がありますが、わかりません。このようにして、異なるパラメーターで収集したデータを使用して、凍結日がそれらにどのように依存するかを理解することができます(最新の観測可能な日付より後許可れている場合)。その後、Tobitモデルを使用できます凍結日(「通常の」データポイントに対応)と下限(制限に対応し、したがって検閲された回帰に対応)を同時に処理します。

測定された下限を分析に正しく含めるために、従属変数が下限の値でカットオフする打ち切り回帰モデルを使用できます。上記のTobitモデルは、この場合に適しています。これは、観測不能な(潜在的な)従属変数の存在を前提としています。この変数は、冬が無期限に延長された場合の凍結日に対応します。観測可能な従属変数y i(すなわち、凍結日の測定下限)は、下限L iがない場合は潜在変数に等しく、そうでない場合は下限に等しいと見なされます。yyL

y={yf¯Lすなわちy<LLfyL

観測ごとの打ち切りを処理するTobitモデルの適用により、次の形式の対数尤度関数が得られます。

L=y<Lln[ϕyバツjβjσ/σ]+yLln[ΦLバツjβjσ]

ϕΦjβj


3
1365011365

1
各年を独立した実験とみなすことができる場合、つまり実験に記憶がなく、1年の凍結日が完全に独立していると仮定できる場合、下限の概念はその意味を維持すると主張します以前; その後、問題の年のパラメータのみに依存する必要があります。その場合、私の知る限り、変数は循環的ではありません。
ペドロフィゲイラ

1
はい、状況によっては、そのようなアドホックな手法が機能します。(a)毎年イベントが常に発生し、(b)イベントが予測可能な日付の周りに密に分散している場合、年の起点を適切に選択することで問題ありません。しかし、分散が大きい場合(ここでのケースの可能性が高い)-またはイベントがまったくない場合の最も劇的な場合-循環(「方向」)統計の方法を実際に適用する必要があります。ところで、直列相関または独立は、まったく別の懸念事項です。
whuber

2
上限はできる限り正確に定義された年である必要があると思います。そうすることができれば、Tobit分析はより洞察力になります。下限として(凍結は以前に発生する可能性がありましたが、観測/観測可能ではありませんでした)DoYを超えると、融解を検出できなくなると考えられます。たぶん、これは水が凍結するのに必要な(P、T)を見て、一定の圧力を仮定して、その年の最後のローカル最小値、または同様のものを選択することによって行うことができます。この時点での質問は、統計的な質問よりも物理的な質問になると思います(とにかく非常に興味深い)。
ペドロフィゲイラ

2
@rbattこの答えは賢明だと思います。開始日は任意です。他の日付から開始するか、負の数を使用できます。問題は見当たりません。循環性は、年内に番号を付けることで自動的に処理されます。
cboettig 14年

1

年の日は賢明な予測変数の1つであり、そのために@pedrofigueiraが示唆するように扱うのが賢明だと思います。

他の予測変数については、時間の表現方法に注意する必要があります。たとえば、気温が日ごとにあると想像してください。気温を氷の日の予測因子としてどのようにモデル化しますか?同じ日のサンプルを比較するだけでは十分ではないと思います。

こうした分析では、データの妥当な生成モデル(または物理モデル)が何であると思われるのかを書き留めておくと役立つと思います(物理学をガイドとして利用できる場合)。たとえば、合理的なモデルは、氷点下の日数を統合することであり、その積分がしきい値を超えると(たとえば、湖の熱質量に関連して)、氷結が発生します。そのようなモデルから、合理的な近似値とそうでないものを尋ねることができます。

たとえば、予測因子としての年間通算日がそのモデルにとって重要なのは、年間通算日だけが気温の良い予測因子です。したがって、年の日のみを知っている場合、氷上のしきい値に対応する平均の年の日があり、おそらくそれについての何らかの正規分布は年々の温度変動に起因するため、日における傾向を探します。 of-yearは完全に正当化されます。

ただし、日中の気温のような他の変数を知っている場合、おそらくより複雑なモデルをより直接的に扱うことに直面するでしょう。ちょうど氷の日の予測変数として変数よりも年次値(最小値?意味?)を使用している場合も合理的と思われます(上記と同じ引数によって)。


物理学を指すための+1。統計結果を理由で説明できない場合は、たとえ有意であったとしても、誤った結果になる可能性があります。
ホルストグリュンブッシュ14年

明確にするために、アイスオンの日は応答変数です...それは私が「予測」しようとしているものです(あなたの答えでは、いくつかの場所でそれを「予測子」と呼んでいます)。凍結のない年を処理するための提案はありますか(他のTobitの提案)。
rbatt 14年

1
@rbatt、混乱して申し訳ありません。最も単純なモデルは1Dで、過去にアイスオンが発生した日を予測子として使用します。ただし、アイスオン日の傾向を検出する場合は、2020年の予測が2050
取得します。– cboettig

0

この問題には、2つの応答変数が必要です。湖が凍結したかどうかを示す1つのブール値応答、およびインジケーターがtrueであることを条件とする1年の日を示す1つの整数応答。湖が凍った年には、ブール値と整数値の両方が観測されます。湖が凍結しなかった年には、ブール値が観測され、整数は観測されません。ブール値に対してロジスティック回帰を使用できます。年中の回帰は、通常の線形回帰である可能性があります。

特定の期間内に凍結日を連続して番号付けする限り、その日の循環的な性質は問題になりません。ナンバリングをどこから始めるべきか疑問に思っているなら、予測子が測定された日を提案します。モデルに因果効果を表したい場合は、フリーズオーバーが発生する前にすべての予測変数が測定されている必要があります。

年の整数と境界のある性質を処理するには、離散化モデルを使用できます。つまり、次の方法で観測値を生成する実際の潜在値があります。値が境界内にある場合、観測値は潜在値と最も近い整数に丸められた値に等しくなります。潜在値自体は、予測子とノイズの線形関数としてモデル化できます。


私はこのアプローチの前提を理解していますが、どのように実装するのか分かりません。データを整理し、ブール値/日付の候補ドライバーの影響を推定するにはどうすればよいですか?私はRで働いています。
rbatt

1つの列がブール値で、別の列が日付であるデータフレームにデータを配置します。次に使用:FIT1 = GLM(フリーズ〜X、フレーム、家族= "二項")fit2 = LM(日〜X、フレーム)
トム民家

申し訳ありませんが、「fit2 = lm(date〜x、frame、サブセット= Boolean == TRUE)」を理解できますか?
セルジオ

それらは2つの別個のモデルになります。「日付」が応答であるモデルでは、水が凍らない年をどうしますか?単にそれらの年を削除すると、応答の最も極端な観測値を選択的に削除するため、結果にバイアスがかかります(または、観測された応答範囲が大幅に減少します)(つまり、氷結しないことが最も極端な着氷日です)。そのため、水が決して凍らない年は、これらのドライバーの着氷日の影響について何かを教えてくれるはずです。両方のモデルの情報を組み合わせる必要があるようです。
rbatt

基礎となるプロセスがそれよりも連続的であることは間違いないので、凍結をブール変数として扱うのは不快です。
cboettig 14年

0

あなたが持っているのは、生存時間分析とも呼ばれるイベントまでの時間データです。それは本当に私の領域ではないので、ここでは詳細な答えをしていません。「イベントまでの時間データ」または「生存分析」をグーグルで検索すると、多くのヒットが得られます。

良い出発点の1つは、Venables / Ripley:MASSの生存分析に関する章(13)、またはJohn D. Kalbfleisch、Ross L. Prentice(auth。)

編集、拡張された回答

生存分析の代替として、順序ロジスティック回帰により近似することができます。たとえば、最初の凍結日の例では、「凍結前または凍結前」状態、0(凍結なし)、1(凍結)を指定する日付を定義します。凍結することなく何年も快適に対応できます。応答ベクトルはすべてゼロです。たとえば、選択した日付が

1:08   15:08 1:09 15:09 1:10 15:10 1:11 15:11 1:12  15:12  1:01  15:01
and the actual date of first freezing was  17:11, then your observed vector will be
0       0    0    0     0    0     0    0      1     1     1      1

そして、一般に、すべての応答ベクトルにはゼロの初期ブロックがあり、その後に1のブロックが続きます。次に、これを順序ロジスティック回帰で使用して、各日付の推定凍結確率を取得できます。その曲線をプロットすると、生存曲線の近似値が得られます(この文脈では、生存は「まだ凍結していない」になります)。

EDIT

また、毎年(ほぼ)川が凍結するため、データを繰り返し発生するイベントと見なすこともできます。ここでの私の答え: 精神医学的再入院の重要な予測因子を見つける

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.