短い時系列はモデリングする価値がありますか?


14

ここにいくつかのコンテキストがあります。2つの環境変数(温度、栄養素レベル)が11年間の応答変数の平均値にどのように影響するかを調べることに興味があります。毎年、10万を超える場所からのデータがあります。

目標は、11年間で、応答変数の平均値が環境変数の変化に応答したかどうかを判断することです(たとえば、気温が上がる+栄養素が増える=応答が大きくなる)。

残念なことに、応答は平均値であるため(平均値を見ずに、定期的な経年変動だけで信号が圧倒される)、回帰は2つの説明変数を持つ11データポイント(1年に1平均値)になります。私にとって、線形の正の回帰でさえ、データセットが非常に小さいことを考えると、意味があると考えるのは難しいでしょう(関係が非常に強い場合を除き、名目上の40ポイント/変数さえ満たしません)。

私はこの仮定をする権利がありますか?誰かが私が見逃しているかもしれない他の考え/視点を提供できますか?

PS:いくつかの警告:追加の年を待たずに、より多くのデータを取得する方法はありません。したがって、利用可能なデータは、私たちが本当に取り組まなければならないものです。


データをプロットしようとしましたか?環境変数と応答変数の相関の強さが答えに影響すると思います。
rm999

毎年、10万を超える場所からのデータがあります。」実際にすべての場所を観察していますか、またはそれらに基づく平均値だけを観察していますか?「はい」の場合、@ crayolaが線形コンテキストで示唆したように、パネルデータモデルを選択できます。@GaBorgulyaが述べたように、いくつかの特別な生態学的モデルは、推定するのではなく、キャリブレーションするパラメーターの情報がはるかに少ない場合があります。
ドミトリーチェロフ

回答:


8

データポイントの数が少ないため、データに適合するモデルの種類が制限されます。ただし、モデリングを開始しても意味がないというわけではありません。データがほとんどない場合、効果が強く、散布が弱い場合にのみ関連付けを検出できます。

データに適したモデルの種類は別です。タイトルに「回帰」という言葉を使用しました。モデルは、現象について知っていることをある程度反映する必要があります。これは生態学的設定であるように思われるので、前年も影響を与える可能性があります。


4

11ポイント未満のエコロジカルデータセットを見てきましたので、非常に注意すれば、限られたデータで限られた結論を導き出すことができます。

また、実験計画のパラメーターが与えられた場合、検出可能な影響をどれだけ小さくするかを決定するために、電力分析を行うこともできます。

また、慎重な分析を行うと、年ごとに余分な変動を除外する必要がなくなる場合があります


4
:観測されたパワーとの注意が必要nottinghamtrent.academia.edu/ThomBaguley/Papers/212458/...
GaBorgulya

4

データの基本的なモデル化(特に時系列)では、目的の現象をキャプチャするのに十分な頻度でデータを収集していることを前提としています。最も単純な例は正弦波です-n * piの周波数(nは整数)でデータを収集している場合、ゼロ以外は表示されず、正弦波パターンが完全に失われます。データを収集する頻度を説明するサンプリング理論に関する記事があります。


3

「残念ながら、応答は平均値なので(平均を見ずに、定期的な経年変化だけで信号が圧倒される)」

慎重にモデリングすれば、これをパネルデータとしてモデリングすることで多くのことが得られるように思えます。データの空間範囲によっては、特定の年内にデータポイントがさらされる温度に大きな違いがある場合があります。これらすべてのバリエーションを平均化するのはコストがかかるようです。


3

テストの有効性は、データポイントの数とは関係がなく、正しいモデルを持っているという仮定の有効性とは関係があります。

たとえば、標準曲線の生成に使用される回帰分析は、3つの標準(低、中、高)のみに基づいている場合がありますが、応答はポイント間で線形であるという強力な証拠があるため、結果は非常に有効です。

一方、間違ったモデルがデータに適用されると、1000のデータポイントを使用した回帰でも欠陥が生じます。

最初のケースでは、モデル予測と実際のデータとの間の変動はランダムエラーによるものです。2番目のケースでは、モデル予測と実際のデータとの間の変動の一部は、誤ったモデルを選択することによるバイアスに起因します。


1

モデルを識別するために必要な観測数は、データ内の信号とノイズの比率およびモデルの形式によって異なります。数字1,1,2,3,4,5が与えられた場合、6,7,8、....を予測します。Box-Jenkinsモデルの識別は、「子どもたちに与える「数値知能」。信号が強い場合は、必要な観測が少なくなり、逆もまた同様です。観測された頻度が「季節構造」の可能性を示唆している場合、この現象を繰り返す必要があります。たとえば、基本的な記述統計(acf / pacf)から、経験則として少なくとも3シーズン(できればそれ以上)を抽出する必要があります。


-1

時系列を線形方程式システムとして扱い、ガウスの消去法でそれを解こうとするかもしれません。もちろんその場合、利用可能なデータに自分自身を制約しますが、これはあなたが支払わなければならない唯一の価格です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.