タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)時間をかけて観測されたデータです。


10
時系列が静止している必要があるのはなぜですか?
定常時系列とは、その平均と分散が時間とともに一定であることを理解しています。別のARIMAまたはARMモデルを実行する前に、データセットが静止していることを確認する必要がある理由を誰かが説明できますか?これは、自己相関および/または時間が要因ではない通常の回帰モデルにも適用されますか?

14
一般的な時系列のオンライン異常値検出のためのシンプルなアルゴリズム
私は大量の時系列で作業しています。これらの時系列は基本的に10分ごとに発生するネットワーク測定値であり、一部は定期的(帯域幅)であり、一部はそうでない(つまりルーティングトラフィックの量)です。 オンラインの「異常値検出」を行うための簡単なアルゴリズムが欲しいです。基本的に、各時系列の履歴データ全体をメモリ(またはディスク)に保持し、ライブシナリオ(新しいサンプルがキャプチャされるたびに)で異常値を検出します。これらの結果を達成する最良の方法は何ですか? 現在、ノイズを除去するために移動平均を使用していますが、次に何をしますか?データセット全体に対する標準偏差、狂気などの単純なものはうまく機能しません(時系列が定常的であるとは思いません)。 double outlier_detection(double * vector、double value); ここで、vectorは履歴データを含むdoubleの配列であり、戻り値は新しいサンプル "value"の異常スコアです。

1
ニューラルネットワークを時系列予測に適用する方法
私は機械学習が初めてであり、ニューラルネットワークを時系列予測に適用する方法を模索しています。クエリに関連するリソースを見つけましたが、まだ少し失われているようです。あまり詳細を述べない基本的な説明が役立つと思います。 数年にわたって毎月の価格の値があり、新しい価格の値を予測したいとします。過去数か月間の価格のリストを取得し、K-Nearest-Neighborを使用して過去の同様の傾向を見つけようとしました。変化率や過去のトレンドのその他の特性を使用して、新しい価格を試して予測することができました。この同じ問題にニューラルネットワークを適用する方法は、私が見つけようとしていることです。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

5
時系列モデルの選択にk分割交差検証を使用する
質問: 何かを確認したいのですが、時系列でk分割交差検証を使用するのは簡単ですか、それとも使用する前に特別な注意を払う必要がありますか? 背景: 5年ごとにデータサンプルを使用して、6年の時系列(セミマルコフチェーン)をモデリングしています。複数のモデルを比較するために、6年でデータを分離することにより6倍の交差検証を使用しているため、(パラメーターを計算するための)トレーニングセットの長さは5年、テストセットの長さは1です年。私は時間の順序を考慮していないので、私の異なるセットは次のとおりです。 フォールド1:トレーニング[1 2 3 4 5]、テスト[6] フォールド2:トレーニング[1 2 3 4 6]、テスト[5] フォールド3:トレーニング[1 2 3 5 6]、テスト[4] フォールド4:トレーニング[1 2 4 5 6]、テスト[3] フォールド5:トレーニング[1 3 4 5 6]、テスト[2] フォールド6:トレーニング[2 3 4 5 6]、テスト[1]。 毎年独立しているという仮説を立てています。どうすればそれを確認できますか?時系列とのk分割交差検証の適用性を示す参考文献はありますか。

9
時系列の異常を検出するには、どのアルゴリズムを使用する必要がありますか?
バックグラウンド 私はネットワークオペレーションセンターで働いており、コンピューターシステムとそのパフォーマンスを監視しています。監視する重要な指標の1つは、現在サーバーに接続している訪問者数と顧客数です。それを可視化するために、Opsチームは時系列データなどのメトリックを収集し、グラフを描画します。Graphiteはそれを可能にします。突然のドロップ(大部分)やその他の変更が発生した場合にチームに通知するアラートシステムを構築するために使用する非常に豊富なAPIを備えています。ここでは、平均値に基づいて静的なしきい値を設定しましたが、日中と週中の負荷が異なるため(季節性要因)、あまりうまく機能しません(多くの誤検知があります)。 次のようになります。 実際のデータ(1つのメトリックの例、15分の時間範囲。最初の数字はユーザー数、2番目はタイムスタンプ): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, 1431803940], [175245.0, 1431804000], [175217.0, 1431804060], [175629.0, 1431804120], [175104.0, 1431804180], [175104.0, 1431804240], [175505.0, 1431804300]]}] 私が達成しようとしていること 最近のデータポイントを受信し、それらを過去の平均値と比較し、突然の変更またはドロップがあった場合にアラートを送信するPythonスクリプトを作成しました。季節性のため、「静的」しきい値はうまく機能せず、スクリプトは誤検知アラートを生成します。アラートアルゴリズムをより正確に改善し、アラートのしきい値を絶えず調整することなく機能するようにしたいと考えています。 必要なアドバイスと発見したこと グーグルで私は、異常検出のための機械学習アルゴリズム(監視なしアルゴリズム)を探していると考えました。さらに調査を行った結果、それらは非常に多く、どれが私の場合に当てはまるかを理解することは非常に困難です。数学の知識が限られているため、洗練された学術論文を読むことができず、この分野の初心者にとって簡単なものを探しています。 私はPythonが好きで、Rに少し精通しているので、これらの言語の例を見て喜んでいます。問題を解決するのに役立つ良い本や記事をお勧めします。あなたの時間をありがとう、そのような長い説明のために私を許します 便利なリンク 同様の質問: 時系列と異常検出 Pythonを使用した時系列異常検出 時系列異常 時系列異常検出のアルゴリズム 時系列ベースの異常検出アルゴリズムへのウェーブレットの適用 どのアルゴリズムを使用すればよいですか? …

10
外挿の何が問題になっていますか?
外挿が悪い考えであった理由についての学部生の聴聞会として統計コースに座っていたことを覚えています。さらに、これについてコメントするオンラインのさまざまな情報源があります。ここにもそれについての言及があります。 誰かが外挿が悪い考えである理由を理解するのを助けることができますか?もしそうなら、どのように予測手法が統計的に無効ではないのですか?

3
時系列分析にリカレントニューラルネットワークを使用する適切な方法
リカレントニューラルネットワークは、「通常の」ニューラルネットワークとは、「メモリ」層を持っているという事実によって異なります。この層のため、リカレントNNは時系列モデリングに役立つと思われます。ただし、それらの使用方法を正しく理解しているかどうかはわかりません。 :のは、(左から右に)私は、次の時系列を持っているとしましょう[0, 1, 2, 3, 4, 5, 6, 7]、私の目標は、予測することでiポイントを使用して番目のポイントをi-1してi-2(それぞれの入力などi>2)。「通常の」非定期的なANNでは、次のようにデータを処理します。 target| input 2| 1 0 3| 2 1 4| 3 2 5| 4 3 6| 5 4 7| 6 5 次に、2つの入力ノードと1つの出力ノードを持つネットを作成し、上記のデータでトレーニングします。 リカレントネットワークの場合、このプロセスを(もしあれば)変更する必要がありますか?


5
時系列予測に深層学習を使用する
私はディープラーニングの分野で新しく、最初のステップはdeeplearning.netサイトから興味深い記事を読むことでした。ディープラーニングに関する論文では、ヒントンと他の人は主にそれを画像の問題に適用することについて話します。誰かが私に答えようとすることができますか?それは時系列値(金融、インターネットトラフィックなど)を予測する問題に適用できますか?それが可能であれば私が焦点を当てる必要がある重要なことは何ですか?

2
移動平均プロセスの実際の例
あなたは、時系列のいくつかの実際の例を与えることができ、注文の移動平均処理のための、すなわち Y T = q個のΣ I = 1 θ I ε トン- 私は + εのトンを、ε T〜N(0 、σ 2) いくつか持っている先験的に良いモデルであることの理由を?少なくとも私にとっては、自己回帰プロセスは直感的に非常に簡単に理解できるように見えますが、MAプロセスは一見自然に見えません。私はそうではないことに注意してくださいqqqyt= ∑i = 1qθ私εt − i+ εt、 ここで εt〜N(0 、σ2)yt=∑私=1qθ私εt−私+εt、 どこ εt〜N(0、σ2) y_t = \sum_{i=1}^q \theta_i \varepsilon_{t-i} + \varepsilon_t, \text{ where } \varepsilon_t \sim \mathcal{N}(0, \sigma^2) ここで理論的な結果(ウォルドの定理や可逆性など)に興味があります。 私が探しています何の例として、あなたは毎日株式リターンがあると。そうすると、平均的な週次株価収益率は、純粋に統計的な成果物としてMA(4)構造になります。rt〜IID (0 、σ2)rt〜IID(0、σ2)r_t \sim \text{IID}(0, …

6
効率的なオンライン線形回帰
私は通常の線形回帰を実行したいいくつかのデータを分析していますが、入力データの連続ストリーム(メモリにはすぐに大きくなります)と必要なオンライン設定を扱っているため、これは不可能ですこれが消費されている間にパラメータ推定値を更新します。つまり、すべてをメモリにロードして、データセット全体に対して線形回帰を実行することはできません。 私は単純な線形多変量回帰モデル、すなわち、 y = A x + b + ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e 線形回帰パラメータおよびbの継続的に更新される推定値を作成するための最適なアルゴリズムは何ですか?AA\mathbf Abb\mathbf b 理想的には: 私が最もあるアルゴリズムたい更新当たりの空間と時間の複雑さ、Nは、独立変数の次元である(X)とMは従属変数(の次元であるY)。O(N⋅ M)O(N⋅M)\mathcal O(N\cdot M)NNNバツx\mathbf xMMMyy\mathbf y 新しいサンプルごとにパラメーターが更新される量を決定するパラメーターを指定できるようにしたいと思います。たとえば、0.000001は、次のサンプルがパラメーター推定の100万分の1を提供することを意味します。これは、遠い過去のサンプルの効果に対してある種の指数関数的な減衰を与えます。

5
時系列モデリングのための状態空間モデルとカルマンフィルターの欠点は何ですか?
状態空間モデルとKFのすべての優れた特性を考えると、状態空間モデリングとカルマンフィルター(またはEKF、UKF、粒子フィルター)を推定に使用することの欠点は何でしょうか?ARIMA、VAR、またはアドホック/ヒューリスティック手法などの従来の方法論について考えてみましょう。 調整するのは難しいですか?彼らは複雑で、モデルの構造の変化が予測にどのように影響するかを見るのは難しいですか? または、別の言い方をすれば、状態空間モデルに対する従来のARIMA、VARの利点は何ですか? 状態空間モデルの利点のみを考えることができます。 いくつかの静的モデルの構造的な破損、シフト、時変パラメーターを簡単に処理します。これらのパラメーターを状態空間モデルの動的状態にするだけで、モデルはパラメーターのシフトに合わせて自動的に調整されます。 欠損データを非常に自然に処理します。KFの移行ステップを実行し、更新ステップは実行しません。 状態空間モデル自体のオンザフライパラメーター(ノイズと遷移/観測行列の共分散)を変更できるため、現在の観測が他とは少し異なるソースからのものである場合は、実行せずに簡単に推定に組み込むことができます何か特別なこと; 上記のプロパティを使用すると、不規則な間隔のデータを簡単に処理できます。観測間の間隔に従って毎回モデルを変更するか、定期的な間隔を使用して観測のない間隔を欠損データとして扱います。 同じモデル内の異なるソースからのデータを同時に使用して、1つの基本量を推定できます。 いくつかの解釈不可能な動的コンポーネントからモデルを構築し、それらを推定することができます。 どのARIMAモデルも状態空間形式で表現できますが、単純な状態空間モデルのみがARIMA形式で正確に表現できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.