タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。

1
パネル研究からの時系列の欠落カウントデータの複数の代入
私は、パネルデータスタディから欠落しているデータの帰属に対処する問題に取り組んでいます(「パネルデータスタディ」を正しく使用しているかどうかはわかりません-今日学んだとおりです)。2003年の総死亡数データが​​あります。 2009年まで、8つの異なる地区と4つの年齢グループのすべての月(男性と女性)。 データフレームは次のようになります。 District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 Northern Male 2006 12 05-14 0 Northern Male 2006 12 15+ …

6
時系列での安定性のテスト
特定の時系列が安定したときにテストするための標準(または最良)の方法はありますか? やる気 各タイムステップで値を出力する確率的動的システムがあります。このシステムは、タイムステップまでいくつかの一時的な動作をし、いくつかのエラーを伴っていくつかの平均値周りで安定します。、、またはエラーはどれも私にはわかりません。私はいくつかの仮定をしたいと思っています(周りのガウス誤差のように) T ∈ N T * X * T * X * X * X 0 0 X * X *バツtxtx_tT ∈ Nt∈Nt \in \mathbb{N}t∗t∗t^*バツ∗x∗x^*t∗t∗t^*バツ∗x∗x^*バツ∗x∗x^*たとえば)しかし、私が必要とするアプリオリな仮定が少ないほど、より良いです。私が確信している唯一のことは、システムが収束する安定点は1つだけであり、安定点の周りの変動は過渡期間中の変動よりもはるかに小さいことです。プロセスも単調で、は近くから始まり、向かって上昇していると想定でき(周りで安定する前に少しオーバーシュートする可能性があります)。バツ0x0x_0000バツ∗x∗x^*バツ∗x∗x^* データは、シミュレーションから来るということだ、と私は(私は唯一の過渡期に興味を持っていますので)私のシミュレーションの停止条件として、安定性試験を必要としています。バツtxtx_t 正確な質問 いくつかの有限の時間値へのアクセスのみが与えられた場合、確率的動的システムがある点周りで安定したと合理的な精度で言う方法はありますか?テストが、、および周りのエラーも返す場合のボーナスポイント。ただし、シミュレーションが完了した後でこれを理解する簡単な方法があるため、これは必須ではありません。 T x ∗ x ∗ t ∗ x ∗x0...xTx0...xTx_0 ... x_TTTTx∗x∗x^*x∗x∗x^*t∗t∗t^*x∗x∗x^* 素朴なアプローチ 最初に頭に浮かぶ素朴なアプローチ(たとえば、一部のニューラルネットワークのwin条件として使用されているのを見てきました)は、パラメーターとを選択し、最後のタイムステップの場合、2つの点とそのような次に、安定したと結論付けます。このアプローチは簡単ですが、厳密ではありません。また、と適切な値を推測する必要があります。E T x x ′ x ′ − …

5
異常検出の自動しきい値決定
私は時系列の異常スコアを操作しています(背景はコンピューターネットワークでの異常検出です)。毎分、異常なスコアが表示されます。これは、ネットワークの現在の状態が「予期しない」または異常な状態であることを示しています。スコアが高いほど、現在の状態が異常になります。5に近いスコアは理論的には可能ですが、ほとんど発生しません。バツt∈ [ 0 、5 ]バツt∈[0、5]x_t \in [0, 5] 次に、この異常時系列のしきい値を自動的に決定するアルゴリズムまたは式を考え出します。異常スコアがこのしきい値を超えるとすぐに、アラームがトリガーされます。 以下の頻度分布は、1日にわたる異常時系列の例です。ただし、すべての異常時系列がそのようになると想定するのは安全ではありません。この特別な例では、非常に右側の少数のスコアを異常と見なすことができるため、.99-分位数などの異常しきい値は理にかなっています。 そして、時系列と同じ頻度分布(時系列に高い異常スコアがないため、範囲は0から1のみです): 残念ながら、頻度分布は形状を持っている可能性があり、.99-分位数は役に立ちません。以下に例を示します。右尾は非常に低いため、.99-分位数をしきい値として使用すると、多くの誤検出が発生する可能性があります。この頻度分布には異常が含まれていないようなので、しきい値は分布の約0.25の外側にある必要があります。 要約すると、これらの2つの例の違いは、最初の例では異常が見られるように見え、2番目の例では異常が見られないことです。 私の素朴な観点から、アルゴリズムはこれらの2つのケースを考慮する必要があります: 頻度分布の右端が大きい場合(つまり、いくつかの異常スコア)、. 99-分位数は適切なしきい値になります。 頻度分布の右裾が非常に短い(つまり、異常スコアがない)場合、しきい値は分布の外側にあるはずです。 /編集:グラウンドトゥルースもありません。つまり、ラベル付きデータセットが利用可能です。したがって、アルゴリズムは異常スコアの性質に対して「ブラインド」です。 現在、これらの観察がアルゴリズムまたは式の観点からどのように表現されるかはわかりません。この問題を解決する方法を誰かが提案していますか?私の統計的背景は非常に限られているので、私の説明が十分であることを願っています。 ご協力いただきありがとうございます!

4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

6
時間帯別のチャートの一般的な名前は何ですか?
特定の期間の時間帯別のトラフィックを示すグラフを作成しています。したがって、y軸は交通量、x軸は午前0時、午前1時、午前2時などです。曜日でもかまいません。このタイプのグラフの一般的な名前は何ですか?「サイクルチャート」を思いついた。それは標準ですか?ありますか? 更新: もう少し明確にするために、一番上のグラフに表示されているのは 1日ではなく、何日もの集計です。たとえば、先月の平均午前6時は正午よりも低くなっています。同様に、下のグラフでは、昨年のトラフィックが土曜日に減少しています。

4
mgcvのplot.gamで使用される値を取得する方法
mgcvパッケージ(x, y)でのプロットplot(b, seWithMean=TRUE)に使用される値を知りたいのですが。これらの値を抽出または計算する方法を誰かが知っていますか? 次に例を示します。 library(mgcv) set.seed(0) dat <- gamSim(1, n=400, dist="normal", scale=2) b <- gam(y~s(x0), data=dat) plot(b, seWithMean=TRUE)


1
時系列有意性検定の時間分解能は何ですか?
時系列データの平均値検定の差異に使用するプールの適切なレベルに関するガイダンスが必要です。私は、このアプリケーションで緊張しているように見える、一時的および犠牲的な疑似複製について心配しています。これは、操作実験ではなく、男性の研究に関連しています。 モニタリングの演習を検討してください。センサーのシステムは、池の幅と深さ全体の多くの場所で溶存酸素(DO)含有量を測定します。DOは日によって変動することが知られているため、各センサーの測定値は1日2回記録されます。2つの値は平均され、毎日の値を記録します。週に1回、毎日の結果が空間的に集計され、池全体の1週間のDO濃度が1つになります。 それらの毎週の結果は定期的に報告され、さらに集計されます–毎週の結果は平均されて、池の月次DO濃度を与えます。毎月の結果は平均されて年間値を与えます。池の10年間のDO濃度を報告するために、年間平均自体が平均化されています。 目標は、次のような質問に答えることです。X年の池のDO濃度は、Y年の濃度と同じか、それとも高いですか、それとも同じですか。過去10年間の平均DO濃度は、過去10年間の平均DO濃度と異なりますか?池のDO濃度は、多くの大きな入力に反応するため、かなり変動します。有意性検定が必要です。方法は、平均のT検定比較を使用することです。10進値が年次値の平均であり、年次値が月次値の平均であることを考えると、これは適切なようです。 ここに質問があります–月次DO値または年次DO値から、10年平均とそれらの平均のT値を計算できます。もちろん、平均は変わりませんが、信頼区間とT値の幅は変わります。月次値を使用するとNの桁が高くなるため、そのルートを使用するとCIがかなり引き締まることがよくあります。これは、同じデータで同じ検定を使用して、平均の観察された差の統計的有意性に関して年次値を使用する場合とは逆の結論を与える可能性があります。 この矛盾の適切な解釈は何ですか? 毎月の結果を使用して、10年平均の差の検定統計量を計算する場合、一時的な疑似複製を実行していますか?年次結果を使用して10年間のテストを計算する場合、情報を犠牲にして疑似複製を行っていますか?

2
LOESS時系列モデルの増分学習
現在、いくつかの時系列データに取り組んでいますが、LOESS / ARIMAモデルを使用できることはわかっています。 データは、長さが1000のベクターに書き込まれます。これはキューであり、15分ごとに更新されます。 したがって、新しいデータがベクターにプッシュされる間、古いデータが飛び出します。 スケジューラでモデル全体を再実行できます。たとえば、15分ごとにモデルを再トレーニングします。つまり、1000値全体を使用して、LOESSモデルをトレーニングします。ただし、1つの値のみが挿入され、別の999の値が挿入されるたびに、非効率的です。前回と同じです。 では、どのようにしてパフォーマンスを向上させることができますか? どうもありがとう

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
RでXTS時系列を再サンプリングする方法は?
不規則な間隔のXTS時系列がありPOSIXctます(インデックスタイプとして値を使用)。 10分間隔でサンプリングされた新しい時系列をどのように構築できますか。ただし、各サンプルモーメントはラウンド時間(13:00:00、13:10:00、13:20:00など)に合わせて調整されます。 。リサンプリングの瞬間が元のシリーズの値に正確に一致しない場合は、以前の値を使用します。

3
時系列の予測を行う方法は?
私は時系列データの分析にはあまり詳しくありません。しかし、私は対処すべき単純な予測タスクだと思います。 一般的な生成プロセスからの約5年分のデータがあります。毎年、非線形成分を持つ単調に増加する関数を表します。毎年40週間のサイクルで、毎週のカウントがあります。プロセスが開始され、関数はゼロから始まり、関数の前半ではかなり急速に増加し、後半では遅くなり、最後の5週間で平準化されます。このプロセスは、年を追うごとに一貫しており、年によってセグメント全体の変化率とボリュームに小さな違いがあります。 y1= { 0 、Nt 1、Nt 2、。。。Nt 39、Nt 40}y1={0,Nt1,Nt2,...Nt39,Nt40} y_{1}=\{0, N_{t1}, N_{t2}, ... N_{t39}, N_{t40}\} ⋮⋮ \vdots y5= { 0 、Nt 1、Nt2、。。。Nt39、Nt40}y5={0,Nt1,Nt2,...Nt39,Nt40} y_{5}=\{0, N_{t1}, N_{t2}, ... N_{t39}, N_{t40}\} ここで、Nt xNtxN_{tx}は時間xでのカウントに等しい。 目標は、txでN(またはより良いt0からtx、またはそのポイントへの勾配)を取り、t40でNを予測することです。たとえば、N_ {t10}が5000の場合、その年のN_ {t40}の期待値は何ですか。では、問題は、そのようなデータをどのようにモデル化するのでしょうか。簡単に要約して視覚化できます。しかし、予測を容易にし、エラーの測定値を組み込むモデルが欲しいのですが。NNNt xtxtxt 0t0t0t xtxtxNNNt 40t40t40Nt 10Nt10N_{t10}Nt 40Nt40N_{t40}

7
サイズが等しくない2つの変数間の相関
私が取り組んでいる問題で、XとYの2つの確率変数があります。2つがどれほど密接に相関しているかを理解する必要がありますが、それらは次元が異なります。Xの行スペースのランクは4350であり、Yの行スペースのランクは数万とかなり大きくなっています。XとYの両方に同じ数の列があります。 2つの変数間の相関関係の測定が必要です。ピアソンのrは、XとYの次元が等しい必要があります(少なくともRは、2つのrvが必要です)。 これらの2つの間に相関関係を作る希望はありますか、それともYからの観測を切り捨てる方法を見つける必要がありますか? EDIT 質問に含まれるべきコメントから情報を追加します。 私はこれについて言及するのを忘れたと思います。XとYは株価です。X社はY社よりもはるかに短い期間公開されました。XとYの価格がどのように相関しているかを教えてください。XとYの両方が存在する期間の相関関係を確実に得ることができました。Xが存在しないというYの余計な数年間の株価を知ることで、追加情報が得られるかどうか知りたいと思いました。


2
時系列回帰予測モデルで伝達関数を識別する方法は?
私は、他の予測子/入力変数と自己相関エラーの観点から、ドルの金額で結果変数の時系列回帰予測モデルを構築しようとしています。この種のモデルは動的回帰モデルとも呼ばれます。各予測子の伝達関数を特定する方法を学ぶ必要があります。そのための方法について、ぜひお聞かせください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.