私は時系列分析に不慣れです。次の時系列回帰問題にどのように対処するのが最善かについての提案をいただければ幸いです。1か所のサイト全体で約20か所の1時間ごとの温度測定と静的な補助情報(勾配、標高、アスペクト、キャノピーカバー)。サイトのサイズは数ヘクタールで、温度記録デバイスは、20〜50 m間隔で、いくつかのトランセクトに沿ってサイト全体に広がっています。約1 km先の気象観測所からの時間別データがあり、風速、風向、湿度、太陽照度などの測定値も提供しています。
ウェザーステーションからのデータのみを使用して、サイトの温度(最小、最大、平均)を(一般的に)予測できるようにしたいと思います。半永久的に設置されているのに対し、現場の温度記録計は3年間しか設置されていませんでした。つまり、本質的に、1つの場所(気象観測所)に複数の独立変数(温度、湿度、風など)がありますが、複数の場所に1つの従属変数(温度)があり、それぞれに複数の時間不変属性があります:勾配、標高、アスペクトなど
私は、サイト内の各温度記録場所の1時間ごとの温度ではなく、サイト全体の毎日の最低気温と最高気温を予測することに最も関心があります。ただし、これらの時間ごとの予測は確かに価値があります。
私の最初のアプローチは、サイトの温度から毎日の平均、最小、および最大を計算し、ウェザーステーションで利用可能な測定を独立変数として使用して、これらを単純な線形回帰の従属変数として使用することでした。これは適度に機能します(2つの予測子でR2> 0.50)。しかし、多くの理由でかなり単純すぎるように思われます。これを行うには、より洗練された(そして強力な)方法が必要だと思います。
まず、私は回帰における毎日の値の時系列の性質については何も明示していませんが、ある日から次の日までの最小または平均気温は、1時間から次に、これらの日次データの独立性に関する問題について疑問に思います(時間ごとの気温を予測しようとした場合は、確かに時間ごとです)。第2に、サイト全体でいくらか相関のある複数の温度測定があることに懸念があるため(気象ステーションのデータと比べて、それらの間の温度測定は非常に類似しています)、サイト全体のすべての測定値の平均または最小値または最大値を使用しています。と比較して、個々の測定場所からのデータを直接含めます。しかし、これにより、各温度測定場所(勾配、標高、アスペクト、キャノピーカバー)、おそらくサイトの場所間の温度差のかなりの部分を説明します。第三に、回帰が気温の非常に強い日周サイクルによって支配されているという懸念のために、私は時間単位ではなく日単位の値のみを調べています。
これを行うためのより良い方法(特にRの場合)、またはどこから探し始めるかについての提案は、最も高く評価されます!時系列を扱うRパッケージがたくさんあることに気づきましたが、このような問題から始めるのに最適な場所を見つけるのに苦労しています。ここでモデル化しようとしています。
更新:これについてもう少し考えます。時系列モデルが本当に適切かどうかは、将来の特定の時点で何が起こるかを予測する必要がないため、ここではわかりません。むしろ、私は単にサイトの温度がウェザーステーションの温度(および他の環境変数)にどのように関連しているかに単に興味があります。後の温度測定が十分に独立していないのではないかと心配したため、おそらく時系列分析は価値があると思いました。確かに、1時間の温度は前の時間に大きく依存しますが、日次データの依存性は弱くなります。どちらの場合も、時系列データの時間相関/非依存性は、時系列予測に関心がない場合に対処する必要がある有効な懸念事項ですか?