統計とビッグデータ state-space-models

1

現在、状態空間モデルのマルコフ連鎖モンテカルロ（MCMC）アルゴリズムを開発する必要がある問題に取り組んでいます。この問題を解決するために、次の確率でが与えられました：p（）= 2I（ > 0）/（1+）。はの標準偏差です。τ τ τ 2 τ Xττ\tauττ\tauττ\tauτ2τ2\tau^2ττ\tauバツバツx だから今、私はそれが半分コーシー分布であることを知っています、なぜなら私は例を見てからそれを認識し、そして私がそう言われたからです。しかし、なぜそれが「半コーチ」分布であり、どの特性がそれに伴うのかを完全には理解していません。プロパティの観点から、私は何が欲しいのかよくわかりません。私はこのタイプの計量経済学理論にかなり慣れていない。そのため、状態空間モデルのコンテキストでの分布と使用方法を理解することがより重要です。モデル自体は次のようになります。 ytバツt + 1at + 1p （σ2）p （τ）= xt+ et= xt+ at + 1〜N （0 、τ2）∝ 1 / σ2= 2 I（τ> 0 ）π（1 + τ2）yt=バツt+etバツt+1=バツt+at+1at+1〜 N（0、τ2）p（σ2）∝1/σ2p（τ）=2私（τ>0）π（1+τ2）\begin{align} y_t &= x_t + e_t \\ x_{t+1} &= x_t + a_{t+1} \\[10pt] a_{t+1} …

24 distributions bayesian prior state-space-models cauchy

2

ポアソン分布を使用したプロセスのモデリングからネガティブ二項分布を使用するように切り替えますか？

\newcommand{\P}{\mathbb{P}}設定された期間複数回発生する可能性があるランダムプロセスがあります。このプロセスの既存のモデルからのデータフィードがあり、期間発生する多数のイベントの確率を提供します。この既存のモデルは古く、推定エラーのためにフィードデータでライブチェックを実行する必要があります。データフィードを生成する古いモデル（残りの発生するイベントの確率を提供している）は、ほぼポアソン分布です。TTT0≤t<T0≤t<T0 \leq t < Tnnnttt そのため、異常/エラーをチェックするために、残り時間とし、残り時間発生するイベントの総数とします。古いモデルは、推定値意味します。したがって、という仮定では、次のようになります。古いモデル（observations）の出力からイベントレートを導出するには、状態空間アプローチを使用して、次のように状態関係をモデル化します tttXtXtX_ttttP(Xt≤c)P(Xt≤c)\P(X_t \leq c)Xt∼Poisson(λt)Xt∼Poisson⁡(λt)X_t\sim \operatorname{Poisson}(\lambda_{t})P(Xt≤c)=e−λ∑k=0cλktk!.P(Xt≤c)=e−λ∑k=0cλtkk!. \P(X_t \leq c) = e^{-\lambda}\sum_{k=0}^c\frac{\lambda_t^k}{k!}\,. λtλt\lambda_tytyty_{t}yt=λt+εt(εt∼N(0,Ht)).yt=λt+εt(εt∼N(0,Ht)). y_t = \lambda_t + \varepsilon_t\quad (\varepsilon_t \sim N(0, H_t))\,. 進化に状態空間[一定速度減衰]モデルを使用して古いモデルから観測値をフィルター処理し、フィルター処理された状態を取得し、推定イベント頻度の異常/エラーにフラグを立てます。フィードのデータであれば。 E （λ T | Y T）E （λ T | YのT）< Y Tλtλt\lambda_tE(λt|Yt)E(λt|Yt)E(\lambda_t|Y_t)E(λt|Yt)<ytE(λt|Yt)<ytE(\lambda_t|Y_t) < y_t このアプローチは、全期間にわたって推定イベントカウントのエラーを検出するのに非常にうまく機能しますが、別の期間0 \ leq t <\ sigma where \ …

24 negative-binomial kalman-filter poisson-process state-space-models

2

時系列データでPCAを解釈する方法は？

私は、「クラスタは、コンピューティングとスケールでマッピング脳活動」と題した最近の雑誌の記事でPCAの使用を理解しようとしていますフリーマンら、2014（無料のPDF ラボのウェブサイトで入手可能）。彼らは、時系列データに対してPCAを使用し、PCAの重みを使用して脳のマップを作成します。データは（と呼ばれる行列として記憶試験平均撮像データであるYを有する紙で）n個のボクセル（または脳の撮像位置）× Tの時点（脳への単一刺激の長さ）。Y^Y^\hat {\mathbf Y}nnn×t^×t^\times \hat t 彼らは、その結果SVD使用Y = U S V ⊤（V ⊤行列の転置を表すVを）。Y^=USV⊤Y^=USV⊤\hat {\mathbf Y} = \mathbf{USV}^\topV⊤V⊤\mathbf V^\topVV\mathbf V 著者は、主成分（の列）長さのベクトルであり、T、及びスコア（の列Uは）長さのベクトルであるN個の対応するコンポーネントによって与えられた方向に各ボクセルの投影を説明する、（ボクセル数）、ボリューム上に投影、つまり全脳マップを形成します。VV\mathbf Vt^t^\hat tUU\mathbf Unnn だから、PCは、長さのベクトルですトン。PCAのチュートリアルで一般的に表現されているように、「最初の主成分がほとんどの分散を説明する」と解釈するにはどうすればよいですか？多くの高度に相関した時系列のマトリックスから始めました-単一のPC時系列は元のマトリックスの分散をどのように説明しますか？私は「最も多様な軸への点のガウス雲の回転」のこと全体を理解していますが、これが時系列にどのように関係するかはわかりません。著者は、「スコア（Uの列）は長さnのベクトルである」と述べるとき、方向によって何を意味しますかt^t^\hat tUU\mathbf Unnn （ボクセルの数）、対応するコンポーネントによって与えられる方向への各ボクセルの投影を記述します」？主成分の時間経過はどのように方向を持つことができますか？主成分1と2の線形結合と関連する脳マップから得られる時系列の例を見るには、次のリンクに移動し、XYプロットのドットにマウスを合わせます。 2番目の質問は、主成分スコアを使用して作成する（状態空間）軌跡に関連しています。これらは、（私は上に概説した「微細運動」の例の場合）を最初の2項目を取ることによって作成され、式により主要部分空間への（上記試験平均行列を作成するために使用される）は、個々の試験を投影している：J = U⊤Y。J=U⊤Y.\mathbf J = \mathbf U^\top \mathbf Y. リンクされた映画でわかるように、状態空間の各トレースは、脳全体の活動を表しています。最初の2台のPCのスコアのXYプロットを関連付ける図と比較して、状態空間ムービーの各「フレーム」が何を意味するかについて、誰かが直感を提供できますか。実験の1回の試行がXY状態空間の1つの位置にあり、別の試行が別の位置にある特定の「フレーム」で何を意味しますか？映画のXYプロットの位置は、私の質問の最初の部分で述べたリンクされた図の主成分トレースとどのように関係しますか？

19 time-series pca state-space-models neuroimaging neuroscience

1

状態空間時系列分析でどのモデルが優れているかを確認するにはどうすればよいですか？

状態空間法による時系列データ分析を行っています。私のデータでは、確率論的なローカルレベルモデルは決定論的なモデルよりも完全に優れていました。しかし、決定論的レベルと勾配モデルは、確率論的レベルと確率論的/決定論的勾配よりも良い結果をもたらします。これは普通ですか？Rのすべてのメソッドには初期値が必要であり、ARIMAモデルを最初に適合させ、そこから値を状態空間解析の初期値として取得することが1つの方法であることをどこかで読みました。可能？または他の提案？ここで私は、状態空間分析のまったくの初心者であることを告白する必要があります。

15 time-series state-space-models

1

隠れマルコフモデルで「最適な」モデルを選択するための基準

データの潜在状態の数を推定するために、隠れマルコフモデル（HMM）を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのかを実際に知っている人はいますか？また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

1

動的因子分析と状態空間モデル

RのMARSSパッケージは、動的因子分析のための機能を提供します。このパッケージでは、動的因子モデルは、状態空間モデルの特殊な形式として記述され、共通の傾向がAR（1）プロセスに従うと想定しています。私はこれらの2つの方法にあまり詳しくないので、2つの質問が出てきます。動的因子分析は、状態空間モデルの特別な形式ですか？これら2つの方法の違いは何ですか？さらに、動的因子分析は、AR（1）プロセスとして一般的な傾向を想定する必要はありません。季節的なARIMA（またはその他の）プロセスとして共通の傾向を可能にするパッケージはありますか？

12 r time-series forecasting factor-analysis state-space-models

2

ハミルトンからのARMA（p、q）の状態空間表現

私はハミルトンの第13章を読んでおり、彼はARMA（p、q）に対して次の状態空間表現を持っています。ましょう次のように.ThenはARMA（P、Q）プロセスである： \ {整列} y_tを開始- \ MU＆= \ phi_1（Y_ {T-1} - \ MU） + \ phi_2（y_ {t-2}-\ mu）+ ... + \ phi_3（y_ {t-3}-\ mu）\\＆+ \ epsilon_t + \ theta_1 \ epsilon_ {t-1} +。 .. + \ theta_ {r-1} \ epsilon_ {t-r + 1}。\ end {aligned} 次に、状態方程式を次のように定義します。r=max(p,q+1)r=max(p,q+1)r = \max(p,q+1)yt−μ=ϕ1(yt−1−μ)+ϕ2(yt−2−μ)+...+ϕ3(yt−3−μ)+ϵt+θ1ϵt−1+...+θr−1ϵt−r+1.yt−μ=ϕ1(yt−1−μ)+ϕ2(yt−2−μ)+...+ϕ3(yt−3−μ)+ϵt+θ1ϵt−1+...+θr−1ϵt−r+1. \begin{aligned} y_t -\mu …

11 time-series arima kalman-filter state-space-models

1

ARMAモデルの予測がカルマンフィルターによって実行されるのはなぜですか

ARMAモデルを状態空間モデルとして表現し、カルマンフィルターを使用して予測を行う利点は何ですか？この方法論は、たとえば、python-statsmodelsのSARIMAX実装で使用されます。 https://github.com/statsmodels/statsmodels/tree/master/statsmodels/tsa/statespace

10 forecasting arma kalman-filter state-space-models statsmodels

1

状態空間モデルでのカルマンフィルターの説明

状態空間モデルでのカルマンフィルターの使用に関連する手順は何ですか？私はいくつかの異なる処方を見てきましたが、詳細についてはわかりません。たとえば、Cowpertwaitは次の方程式のセットから始まります。 θT=GTθT-1+WTyt= F』tθt+ vtyt=Ft′θt+vty_{t} = F^{'}_{t}\theta_{t}+v_{t} θt= Gtθt − 1+ wtθt=Gtθt−1+wt\theta_{t} = G_{t}\theta_{t-1}+w_{t} ここで、、および、は未知の推定値であり、は観測値です。W T〜N （0 、W T）θ T、Y Tθ0〜N（m0、C0）、vt〜N（0 、Vt）θ0∼N(m0,C0),vt∼N(0,Vt)\theta_{0} \sim N(m_{0}, C_{0}), v_{t} \sim N(0,V_{t})wt〜N（ 0 、Wt）wt∼N(0,Wt)w_{t} \sim N(0, W_{t})θtθt\theta_{t}ytyty_{t} Cowpertwaitは、関係する分布を定義します（それぞれ、事前、可能性、事後分布）： Y T | θ T〜N （Fθt|Dt −1〜N（ at、 Rt）θt|Dt−1∼N(at,Rt)\theta_{t}|D_{t-1} \sim N(a_{t}, R_{t}) θT| DT〜N（M、T、CT）yt|θt〜N（F』tθt、Vt）yt|θt∼N(Ft′θt,Vt)y_{t}|\theta_{t} \sim …

10 kalman-filter state-space-models

1

カルマンフィルターと平滑化スプライン

Q：スプラインを平滑化する代わりに状態空間モデリングとカルマンフィルターを使用するのが適切なデータはどれですか？2つの間に同等の関係はありますか？これらの方法がどのように組み合わされるかについて、ある程度の高レベルの理解を得ようとしています。Johnstoneの新しいGaussian Estimation：Sequence and Multiresolution Modelsを閲覧しました。意外なことに、状態空間モデルとカルマンフィルタリングについては1つも言及されていません。なぜそこにないのですか？これは、この種の問題に対する最も標準的なツールではありませんか？代わりに、焦点はスプラインの平滑化とウェーブレットしきい値処理にありました。私は今とても混乱しています。

10 kalman-filter splines state-space-models

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

3

分布を見つけて正規分布に変換する

1時間にイベントが発生する頻度（「1時間あたりの数」、nph）とイベントが持続する時間（「1秒あたりの秒数」、dph）を説明するデータがあります。これは元のデータです： nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

タグ付けされた質問 「state-space-models」

タグ付けされた質問「state-space-models」