複数のサイトの時系列温度データを1つのサイトのデータの関数としてモデル化する方法は？

8

私は時系列分析に不慣れです。次の時系列回帰問題にどのように対処するのが最善かについての提案をいただければ幸いです。1か所のサイト全体で約20か所の1時間ごとの温度測定と静的な補助情報（勾配、標高、アスペクト、キャノピーカバー）。サイトのサイズは数ヘクタールで、温度記録デバイスは、20〜50 m間隔で、いくつかのトランセクトに沿ってサイト全体に広がっています。約1 km先の気象観測所からの時間別データがあり、風速、風向、湿度、太陽照度などの測定値も提供しています。

ウェザーステーションからのデータのみを使用して、サイトの温度（最小、最大、平均）を（一般的に）予測できるようにしたいと思います。半永久的に設置されているのに対し、現場の温度記録計は3年間しか設置されていませんでした。つまり、本質的に、1つの場所（気象観測所）に複数の独立変数（温度、湿度、風など）がありますが、複数の場所に1つの従属変数（温度）があり、それぞれに複数の時間不変属性があります：勾配、標高、アスペクトなど

私は、サイト内の各温度記録場所の1時間ごとの温度ではなく、サイト全体の毎日の最低気温と最高気温を予測することに最も関心があります。ただし、これらの時間ごとの予測は確かに価値があります。

私の最初のアプローチは、サイトの温度から毎日の平均、最小、および最大を計算し、ウェザーステーションで利用可能な測定を独立変数として使用して、これらを単純な線形回帰の従属変数として使用することでした。これは適度に機能します（2つの予測子でR2> 0.50）。しかし、多くの理由でかなり単純すぎるように思われます。これを行うには、より洗練された（そして強力な）方法が必要だと思います。

まず、私は回帰における毎日の値の時系列の性質については何も明示していませんが、ある日から次の日までの最小または平均気温は、1時間から次に、これらの日次データの独立性に関する問題について疑問に思います（時間ごとの気温を予測しようとした場合は、確かに時間ごとです）。第2に、サイト全体でいくらか相関のある複数の温度測定があることに懸念があるため（気象ステーションのデータと比べて、それらの間の温度測定は非常に類似しています）、サイト全体のすべての測定値の平均または最小値または最大値を使用しています。と比較して、個々の測定場所からのデータを直接含めます。しかし、これにより、各温度測定場所（勾配、標高、アスペクト、キャノピーカバー）、おそらくサイトの場所間の温度差のかなりの部分を説明します。第三に、回帰が気温の非常に強い日周サイクルによって支配されているという懸念のために、私は時間単位ではなく日単位の値のみを調べています。

これを行うためのより良い方法（特にRの場合）、またはどこから探し始めるかについての提案は、最も高く評価されます！時系列を扱うRパッケージがたくさんあることに気づきましたが、このような問題から始めるのに最適な場所を見つけるのに苦労しています。ここでモデル化しようとしています。

更新：これについてもう少し考えます。時系列モデルが本当に適切かどうかは、将来の特定の時点で何が起こるかを予測する必要がないため、ここではわかりません。むしろ、私は単にサイトの温度がウェザーステーションの温度（および他の環境変数）にどのように関連しているかに単に興味があります。後の温度測定が十分に独立していないのではないかと心配したため、おそらく時系列分析は価値があると思いました。確かに、1時間の温度は前の時間に大きく依存しますが、日次データの依存性は弱くなります。どちらの場合も、時系列データの時間相関/非依存性は、時系列予測に関心がない場合に対処する必要がある有効な懸念事項ですか？

私はポイントプロセスに沿って何かを提案したでしょう。しかし、正確にそれを行う方法がわかりません。いくつかのアイデアについてこの論文を見ることができます...

— teucer

1

RでGAMパッケージを調べることをお勧めします。これは、探しているものの一部（またはすべて）を実行するように調整できるためです。元の論文（Hastie＆Tibshirani、1986年）は、OpenAccessから読むことができます。

基本的に、単一の従属変数を「滑らかな」予測子の加法的組み合わせとしてモデル化します。典型的な使用法の1つは、予測値として時系列とそのラグを持ち、これらの入力を平滑化してから、GAMを適用することです。

この方法は、平滑化された環境時系列、特に汚染物質の関数として毎日の死亡率を推定するために広く使用されています。これはOpenAccessではありませんが、（Dominici et al。、2000）は優れたリファレンスであり、（Rによる環境疫学の統計的方法）は、Rを使用してこのタイプの分析を行う方法についての優れた本です。

— ウェズリー・バー
ソース

0

予測するかどうかは、正しい時系列分析とはまったく関係ありません。時系列メソッドは、従属系列とユーザーが推奨する入力のセット（別名ユーザー指定の予測子シリーズ）との関係を特徴付けるために使用できる堅牢なモデルを開発でき、それらが確定的または確率的である場合に、経験的に識別された省略された変数です。それらのオプションは、「シグナル」を将来に拡張することができます。つまり、係数の不確実性と予測子の将来の値の不確実性に基づく不確実性を備えた予測です。現在、これらの2種類の経験的に識別された「省略された系列」は、1）確定的および2）確率的として分類できます。最初のタイプは単にパルス、レベルシフト、2番目のタイプは、最終モデルのARIMA部分で表されるのに対し、季節パルスとローカルタイムトレンド。可能な予測子のリストから1つ以上の確率系列を省略した場合、その省略は、最終モデルのARIMAコンポーネントによって特徴付けられます。時系列モデラーは、ARIMAモデルを「貧乏人の回帰モデル」と呼びます。これは、過去の系列が、省略された確率的入力系列のプロキシとして使用されているためです。

— IrishStat
ソース