マルコフ連鎖のメモリレスプロパティをチェックする

17

観測された一連のシーケンスはマルコフ連鎖であると思われます...

X = (\begin{array}{ccccccc} A & C & D & D & B & A & C \\ B & A & A & C & A & D & A \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋮ & ⋮ & ⋮ \\ B & C & A & D & A & B & E \end{array})

$X=\left(\begin{array}{c c c c c c c} A& C& D&D & B & A &C\\ B& A& A&C & A&D &A\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ B& C& A&D & A & B & E\\ \end{array}\right)$

しかし、のメモリレスプロパティを実際に尊重していることをどのように確認でき

P (X_{i} = x_{i} | X_{j} = x_{j}) ?

$P(X_i=x_i|X_j=x_j)?$

または、少なくとも彼らが本質的にマルコフであることを証明しますか？これらは経験的に観察されたシーケンスであることに注意してください。何かご意見は？

編集

付け加えると、目的は、観測されたシーケンスと予測されたシーケンスのセットを比較することです。したがって、これらを比較する最善の方法に関するコメントをいただければ幸いです。

一次遷移行列

M_{i j} = \frac{x_{i} j}{\sum^{m} x_{i k}}

$M_{ij}=\displaystyle \frac{x_ij}{\sum^mx_{ik}}$ ここで、m = A..E状態

M = (\begin{array}{ccccccc} 0.1834 & 0.3077 & 0.0769 & 0.1479 & 0.2840 \\ 0.4697 & 0.1136 & 0.0076 & 0.2500 & 0.1591 \\ 0.1827 & 0.2404 & 0.2212 & 0.1923 & 0.1635 \\ 0.2378 & 0.1818 & 0.0629 & 0.3357 & 0.1818 \\ 0.2458 & 0.1788 & 0.1173 & 0.1788 & 0.2793 \end{array})

$M=\left(\begin{array}{c c c c c c c} 0.1834& 0.3077 & 0.0769& 0.1479 & 0.2840\\ 0.4697& 0.1136 & 0.0076 & 0.2500 & 0.1591\\ 0.1827& 0.2404& 0.2212 & 0.1923 & 0.1635\\ 0.2378 & 0.1818& 0.0629& 0.3357 & 0.1818\\ 0.2458 & 0.1788& 0.1173 & 0.1788 & 0.2793\end{array}\right)$

M固有値

E = (\begin{array}{ccccccc} 1.0000 & 0 & 0 & 0 & 0 \\ 0 & - 0.2283 & 0 & 0 & 0 \\ 0 & 0 & 0.1344 & 0 & 0 \\ 0 & 0 & 0 & 0.1136 - 0.0430 i & 0 \\ 0 & 0 & 0 & 0 & 0.1136 + 0.0430 i \end{array})

$E =\left(\begin{array}{c c c c c c c} 1.0000 & 0 & 0 & 0 & 0 \\ 0 & -0.2283 & 0 & 0 & 0 \\ 0 & 0 & 0.1344 & 0 & 0\\ 0 & 0 & 0 & 0.1136 - 0.0430i & 0 \\ 0 & 0 & 0 & 0 & 0.1136 + 0.0430i\\ \end{array}\right)$

M固有ベクトル

V = (\begin{array}{ccccccc} 0.4472 & - 0.5852 & - 0.4219 & - 0.2343 - 0.0421 i & - 0.2343 + 0.0421 i \\ 0.4472 & 0.7838 & - 0.4211 & - 0.4479 - 0.2723 i & - 0.4479 + 0.2723 i \\ 0.4472 & - 0.2006 & 0.3725 & 0.6323 & 0.6323 \\ 0.4472 & - 0.0010 & 0.7089 & 0.2123 - 0.0908 i & 0.2123 + 0.0908 i \\ 0.4472 & 0.0540 & 0.0589 & 0.2546 + 0.3881 i & 0.2546 - 0.3881 i \end{array})

$V =\left(\begin{array}{c c c c c c c} 0.4472& -0.5852 & -0.4219 & -0.2343 - 0.0421i & -0.2343 + 0.0421i\\ 0.4472 & 0.7838 & -0.4211 & -0.4479 - 0.2723i & -0.4479 + 0.2723i\\ 0.4472 & -0.2006 & 0.3725 & 0.6323 & 0.6323 \\ 0.4472 & -0.0010 & 0.7089 & 0.2123 - 0.0908i & 0.2123 + 0.0908i\\ 0.4472 & 0.0540 & 0.0589 & 0.2546 + 0.3881i & 0.2546 - 0.3881i\\ \end{array}\right)$

markov-process

— HCAI
ソース

列には系列が含まれ、行にはシーケンスの要素が含まれますか？観測された行と列の数は？

— mpiktas

2

可能な重複：stats.stackexchange.com/questions/29490/...

— mpiktas

@mpiktas行は、状態ADを通過する遷移の独立した観測シーケンスを表します。約400個のシーケンスがあります...観察されるシーケンスはすべて同じ長さではないことに注意してください。実際、多くの場合、上記の行列にはゼロが追加されます。ちなみにリンクありがとうございます。この分野にはまだかなりの作業の余地があるようです。他に考えはありますか？よろしく、

— -HCAI

1

線形回帰は、私の論点を強化するための例でした。つまり、マルコフのプロパティを直接テストする必要はないかもしれませんが、マルコフのプロパティを想定し、モデルの有効性をチェックするモデムを取り付けるだけで済みます。

— mpiktas

1

H0 = {Markov} vs H1 = {Markov order 2}の仮説検定をどこかで見たことを漠然と覚えています。これは役立ちます。

— ステファンローラン

5

次のようにプロポーションの有効なピアソンテストが得られるのではないかと思います。 $\chi^2$

ワンステップ遷移確率を推定します-あなたはそれをやった。
2ステップモデルの確率を取得します。 ${\hat{p}}_{U, V} = P r o b [X_{i + 2} = U | X_{i} = V] = \sum_{W \in {A, B, C, D}} P r o b [X_{i + 2} = U | X_{i + 1} = W] P r o b [X_{i + 1} = W | X_{i} = V]$ $\hat p_{U,V} = {\rm Prob}[X_{i+2}=U|X_i=V] = \sum_{W\in\{A,B,C,D\}} {\rm Prob}[X_{i+2}=U|X_{i+1}=W]{\rm Prob}[X_{i+1}=W|X_i=V]$
2段階の経験的確率を取得します ${\tilde{p}}_{U, V} = \frac{\sum_{i} # X_{i} = V, X_{i + 2} = U}{\sum_{i} # X_{i} = V}$ $\tilde p_{U,V} = \frac{\sum_i \# X_i = V, X_{i+2} = U}{\sum_i \# X_i = V}$
フォームピアソン検定統計 $T_{V} = # {X_{i} = V} \sum_{U} \frac{({\hat{p}}_{U, V} - {\tilde{p}}_{U, V})^{2}}{{\hat{p}}_{U, V}}, T = T_{A} + T_{B} + T_{C} + T_{D}$ $T_V = \# \{X_i = V\} \sum_U \frac{(\hat p_{U,V} - \tilde p_{U,V})^2}{\hat p_{U,V}}, \quad T=T_A + T_B + T_C + T_D$

それぞれので、合計となると思うのは魅力的です。しかし、私はそれを完全に確信しているわけではなく、これについてのあなたの考えに感謝します。同様に、独立性について偏執的である必要があるかどうかについて不確実ではなく、およびを推定するためにサンプルを半分に分割したいと思い。 $T_U \sim \chi^2_3$ $T\sim \chi^2_{12}$ $\hat p$ $\bar p$

— StasK
ソース

確率は、これが保持されるために平均が0で分散が1の正規分布を持つ必要はありませんか？ここで誰が何を考えているのか知りたいです。

— HCAI

それは、合計内の用語が漸近的に大きなカウントであると想定されるものです。

— StasK

6

マルコフ特性を直接テストするのは難しいかもしれません。しかし、マルコフ特性を前提とするモデルに適合し、モデルが成立するかどうかをテストすれば十分かもしれません。当てはめられたモデルは実際にはあなたにとって有用な良い近似であり、マルコフ特性が本当に成り立つかどうかを心配する必要がないことが判明するかもしれません。

線形回帰に対して平行線を引くことができます。通常は、線形性が保持されるかどうかをテストするのではなく、線形モデルが有用な近似であるかどうかをテストします。

— mpiktas
ソース

これは実際には最良の選択肢のように思えますが、線形モデルを実際の実験データと実際に比較することはできません。それとも、何か他のことを考えていましたか？

— HCAI

6

前の応答の提案を具体化するには、まずマルコフ確率を推定します-それがマルコフであると仮定します。回答を参照してくださいマルコフ連鎖確率の推定

状態AからA、AからBなどへの遷移の割合に基づいて4 x 4マトリックスを取得する必要があります。このマトリックス呼び出します。その場合、は2ステップの遷移行列になります。AからAへの2ステップなどです。その後、観測された2ステップ遷移行列が類似しているかどうかをテストできます。 $M$ $M^2$ $M^2$

状態の数について多くのデータがあるため、データの半分からを推定し、残りの半分を使用してをテストできます。多項分布の理論的確率に対して観測周波数をテストしています。それはあなたがどれだけ離れているかのアイデアを与える必要があります。 $M$ $M^2$

別の可能性は、基本的な状態の割合：Aで費やされた時間、Bで費やされた時間、Mの単位固有値の固有ベクトルと一致するかどうかを確認することです。系列が何らかの定常状態に達した場合、状態はその制限に傾向があるはずです。

— プラキディア
ソース

移行マトリックス計算しましたが、経験的に計算する方法がわかりません。その点を明確にできますか？よろしく、

M

$M$

M^{2}

$M^2$

— HCAI

また、後者のコメントは非常に興味深いものですが、観測されたシーケンスの各状態に費やす時間はありません。各行の合計時間しかありません。そのため、そのメソッドの適用可能性が制限される場合があります。あなたの考えは何ですか？

— HCAI

1

Mと同じ方法で、最も近い隣接遷移（シーケンスABなど）を見る代わりに、2つ離れているペアを見てください。したがって、被験者がACBになった場合、それはAB移行カウントにカウントされます。ABBも同様です。行i、列jのアイテムがiからjへの遷移を含むマトリックスを作成します。次に、列の合計で除算します。列を合計して1にする必要があります。マルコフプロパティの下では、この行列は

M^{2}

$M^2$

— Placidia

RE：平衡。遷移は設定された瞬間に発生すると想定していました。たとえば、1秒ごとに、現在の状態から次の状態に遷移するとします。A、B、C、およびD状態の頻度をシーケンスの終わり近くで、またはシーケンス全体で取得して、制限動作を推定できます。

— プラキディア

Rでは、eigen（M）を実行すると、Mの固有値と固有ベクトルを取得する必要があります。1つの固有値は1になります。対応する固有ベクトルは、定常状態の比率に比例する必要があります。

— プラキディア

2

マルコフ特性（MP）を超えて、さらなる特性は時間均一性（TH）ですはマルコフにできますが、遷移行列は時間依存します。例えば、それはで平日に依存し得る観察を毎日している場合、次いで依存にを条件 THを不当とすると診断することができます。 $X_t$ $\mathbf{P}(t)$ $t$ $t$ $X_t$ $X_{t-7}$ $X_{t-1}$

THが成り立つと仮定すると、MPの可能なチェックは、Michael ChernickとStasKが示唆したように、が条件とするから独立していることをテストしています。これは、分割表のテストを使用して実行できます。およびの分割表を、可能な値についてを条件に作成し、独立性をテストできます。代わりにしてを使用することもできます。 $X_t$ $X_{t-2}$ $X_{t-1}$ $n$ $X_t$ $X_{t-2}$ $\{X_{t-1} = x_j\}$ $n$ $x_j$ $X_{t-\ell}$ $\ell > 1$ $X_{t-2}$

Rにおいて、偶発テーブルまたはアレイを容易におかげで産生される因子の機能と機能をapply、 sweep。上記のアイデアは、グラフィカルに活用することもできます。パッケージggplot2またはラティスは、条件付き分布を比較する条件付きプロットを簡単に提供します。たとえば、トレリスのを行インデックスとして、を列インデックスとして設定すると、MPの下で列内に同様の分布が生じるはずです。 $p(X_t \vert X_{t-1}=x_j, X_{t-2} = x_i)$ $i$ $j$

チャップ。本の 5 JK Lindseyによる時間内の確率過程の統計分析には、仮定をチェックするための他のアイデアが含まれています。

ここに画像の説明を入力してください

[## simulates a MC with transition matrix in 'trans', starting from 'ini'
simMC <- function(trans, ini = 1, N) {
  X <- rep(NA, N)
  Pcum <- t(apply(trans, 1, cumsum))
  X[1] <- ini 
  for (t in 2:N) {
    U <- runif(1)
    X[t] <- findInterval(U, Pcum[X[t-1], ]) + 1
  }
  X
}
set.seed(1234)
## transition matrix
P <- matrix(c(0.1, 0.1, 0.1, 0.7,
              0.1, 0.1, 0.6, 0.2,
              0.1, 0.3, 0.2, 0.4,
              0.2, 0.2, 0.3, 0.3),
            nrow = 4, ncol = 4, byrow = TRUE)
N <- 2000
X <- simMC(trans = P, ini = 1, N = N)
## it is better to work with factors
X <- as.factor(X)
levels(X) <- LETTERS[1:4]
## table transitions and normalize each row
Phat <- table(X[1:(N-1)], X[2:N])
Phat <- sweep(x = Phat, MARGIN = 1, STATS = apply(Phat, 1, sum), FUN = "/")
## explicit dimnames
dimnames(Phat) <- lapply(list("X(t-1)=" ,"X(t)="),
                         paste, sep = "", levels(as.factor(X)))
## transition 3-fold contingency array
P3 <- table(X[1:(N-2)], X[2:(N-1)], X[3:N])
dimnames(P3) <- lapply(list("X(t-2)=", "X(t-1)=" ,"X(t)="),
                       paste, sep = "", levels(as.factor(X)))
## apply ONE indendence test 
fisher.test(P3[ , 1, ], simulate.p.value = TRUE)
## plot conditional distr.
library(lattice)
X3 <- data.frame(X = X[3:N], lag1X =  X[2:(N-1)], lag2X = X[1:(N-2)])
histogram( ~ X | lag1X + lag2X, data = X3, col = "SteelBlue3")

]

— イブ
ソース

2

placidaとmpiktasはどちらも非常に思慮深く優れたアプローチを提供していると思います。

場合、私はちょうど1を参照するには、テストを構築することができることを追加したいので、私は答えています異なっている。 $P(X_i=x|X_{i-1}=y)$ $P(X_i=x|X_{i-1}=y \text{ and } X_{i-2}=z)$

私は、、、および値を選択します。これらの場合、からへの遷移が $x$ $y$ $z$ $z$ $y$ $x$ 発生します。両方の確率のサンプル推定値を計算します。次に、比率の違いをテストします。これの難しい側面は、比率が等しく、チェーンが定常でマルコフであるという帰無仮説の下で、2つの推定値の分散を取得することです。その場合、2つのすべてのステージ遷移を見て、それらを対応する3つのステージ遷移と比較するだけで、これらのペアの結果のセットが少なくとも2つの時点で分かれている結果のみを含む場合、帰無仮説の下で、共同の結果のシーケンス成功は、次のように定義されるのへへの移行およびすべての他の二つの段階遷移 $z$ $y$ $x$ $x$ 失敗は帰無仮説の下での一連の独立したベルヌーイ試行を表すためです。同じことが、すべてのからへの遷移を成功として定義し、他の1ステージからへの遷移を失敗として定義するために機能します。 $y$ $x$ $x$

その場合、検定統計量はこれらの推定比率の差になります。ベルヌーイ配列の標準比較の複雑さは、それらが相関していることです。ただし、この場合は二項比率のブートストラップテストを実行できます。

他の可能性は、が失敗でが成功で、セル頻度がペア、、およびここで、最初のコンポーネントは2段階の結果であり、2番目は対応する3段階の結果です。その後、McNemarのテストをテーブルに適用できます。 $0$ $1$ $(0,0)$ $(0,1)$ $(1,0)$ $(1,1)$

— マイケル・R・チャーニック
ソース

最初の段落は非常に簡潔ですが、ここであなたが言及していることはわかります。たとえば、「サンプルの推定値を計算[...]してから、比率の差をテストします」。サンプル推定値とはどういう意味ですか？確かに差異はないでしょうか、それともあなたの思考の流れを誤解していますか？

P (X_{i} | X_{i - 1} = y)

$P(X_i|X_{i-1}=y)$

— HCAI

@ user1134241「経験的に観測された」とおっしゃいましたが、この確率的シーケンスからのデータがあると仮定しました。あなたはPを推定したい場合は（X = X | X = y）の各インデックスのi 1 X = yと、回数Xの数カウント = xとし、数で割り回数X = y（Xが何に等しいかに関係なく）。観測された有限シーケンスは確率過程のシーケンスの一部の単なるサンプルであるため、これは推定値です。

_{i}

$_i$

_{i}

$_i$

_{-}

$_-$

_{1}

$_1$

_{i}

$_i$

_{-}

$_-$

_{1}

$_1$

_{i}

$_i$

_{i}

$_i$

_{-}

$_-$

_{1}

$_1$

_{i}

$_i$

— マイケルR.チャーニック

あなたの最後のパラグラフで、成功を構成するものを正確に尋ねてみましょう。2ステップの遷移を言う場合：と言って、3ステップはでしょうか？

i \to j \to i

$i\rightarrow j\rightarrow i$

i \to j \to k \to i

$i\rightarrow j\rightarrow k\rightarrow i$

— HCAI

1

データを等間隔にビン化し、サブセットの不偏サンプル分散を計算できます。合計分散の法則により、 $\{X_{n+1}:X_n=x_1,X_{n-k}=x_2\}$

V a r [E (X_{n + 1} | X_{n}, X_{n - k}) | X_{n}] = V a r [X_{n + 1} | X_{n}] - E (V a r [X_{n + 1} | X_{n}])

$\mathrm{Var}[E(X_{n+1}|X_n,X_{n-k})|X_n] = \mathrm{Var}[X_{n+1}|X_n]-E(\mathrm{Var}[X_{n+1}|X_n])$

LHSは、ほぼゼロの場合、遷移確率が依存しないという証拠を提供しますが、明らかに弱いステートメントです。たとえば、。上記の式の両側の期待値を使用して、サンプルの分散からRHSを計算できます（つまり、期待値を平均で置き換えます）。分散の期待値がゼロの場合、分散はほとんど常に0です。 $X_{n-k}$ $X_{n+1}\sim N(X_n,X_{n-1})$

— ルーク・オコナー
ソース