依存する観測のブートストラップを介した信頼区間の計算

標準形式のブートストラップを使用して、観測値がiidであれば、推定統計の信頼区間を計算できます。I. Visser et al。「隠れマルコフモデルパラメーターの信頼区間」のパラメトリックブートストラップを使用して、HMMパラメーターのCIを計算しました。ただし、観測シーケンスにHMMを近似する場合、観測値は依存関係にあると既に仮定しています（混合モデルとは対照的）。

2つの質問があります。

iidの仮定はブートストラップで何をしますか？
パラメトリックブートストラップでiid要件を無視できますか？

Visser et al。方法は簡単に次のとおりです。

我々は観測シーケンスがあるとし $Y=o_1,o_2,...,o_n$ パラメータの実際の未知のセットとHMMをサンプリングに起因 $\theta=\theta_1,\theta_2,...,\theta_l$ 。
パラメータは、EMアルゴリズムを用いて推定することができる $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
推定HMMを使用して、サイズブートストラップサンプルを生成し $n$ ます $Y^*=o^*_1,o^*_2,...,o^*_n$
ブートストラップサンプルに係るHMMのパラメータを推定する $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
ステップ3および4繰り返し時間（例えば、 = 1000）で得られたブートストラップ推定 $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
各推定されたパラメータのCI計算の分布使用してブートストラップ推定に。 $\hat{\theta}_i$ $\hat{\theta}^*_i$

注（私の調査結果）：

パーセンタイル方式を使用して、正しいカバレッジを得るためにCIを計算する必要があります（正常性は悪い仮定です）。
ブートストラップディストリビューションのバイアスを修正する必要があります。分布平均ことを意味にシフトする必要があります $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— サデハド
ソース

言い換えれば、最初の質問：ブートストラップに対するiid仮定の効果は何ですか？より複雑なアルゴリズムまたは式に従うことで削除できる単純化された仮定ですか？

— サデハド

短い答え： 1.それはそれを単純化します。（率直に言って、私は質問を受けなかった）。2.いいえ、iidの欠如は推定するものの分散に即座に影響するため、決して無視することはできません。

中程度の回答：ブートストラップの主な問題は、「提案された手順はデータの特徴を再現しますか？」です。。iidの仮定への違反は大したことです。データは依存しているため、（おそらく）同じサイズのiidサンプルよりもデータ内の情報が少なくなります。また、単純なブートストラップを実行する場合（個々のリサンプル観察）、それから得られる標準誤差は小さすぎます。提案された手順は、モデル構造とパラメータの依存性をキャプチャする（または少なくともキャプチャしようとする）ことにより、独立性の欠如の問題を回避します。成功した場合、各ブートストラップサンプルは必要に応じてデータの機能を再現します。

長い答え：ブートストラップに関する仮定には複数の層があり、可能な限り単純な場合（iidデータ、平均の推定）でも、少なくとも3つの仮定を作成する必要があります：（1）対象の統計量はデータの滑らかな関数です（平均の場合は真であり、パーセンタイルの場合でもそうではありません。たとえば、最も近い隣接する推定推定量では完全にオフです）。（2）ブートストラップ元の分布は母集団分布に「近い」（iidデータの場合は正常に機能します。依存データの場合は正常に機能しない場合があります。時系列の場合、定常性や混合などの追加の仮定を呼び出して、この単一の観測値を準母集団に拡張する必要があります）。（3）モンテカルロブートストラップサンプリングは、すべての可能なサブサンプルを含む完全なブートストラップの十分な近似値です（モンテカルロを使用した場合と完全なブートストラップを使用した場合の不正確さは、キャプチャしようとしている不確実性よりもはるかに小さくなります）。パラメトリックブートストラップの場合、（4）モデルがデータのすべての機能を完全に説明しているという仮定も立てます。

$y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ ）。したがって、完全にパラメトリックなブートストラップソリューションが必要な場合は、平均のモデルとともに不均一分散性のモデルを適合させる必要があります。シリアルまたは他の種類の相関関係が疑われる場合は、そのモデルも適合させる必要があります。（データの音声をモデルの合成音声に置き換えたため、ブートストラップのノンパラメトリックな分布のないフレーバーは今のところほとんどなくなっています。）

説明した方法は、まったく新しいサンプルを作成することにより、iidの仮定を回避します。依存データブートストラップの最大の問題は、元のデータの依存パターンに十分に近い依存パターンを持つサンプルを作成することです。時系列では、ブロックブートストラップを使用できます。クラスター化されたデータでは、クラスター全体をブートストラップします。ヘテロスケダスティクス回帰では、ワイルドブートストラップを使用する必要があります（ヘテロスケダスティクスモデルを適合させた場合でも、残差のブートストラップよりも優れたアイデアです）。ブロックブートストラップでは、時系列の離れた部分がほぼ独立しているという知識に基づいた推測を行う必要があります（つまり、信じる正当な理由があります）。したがって、すべての相関構造は隣接する5または10によってキャプチャされます。ブロックを形成する観測所。したがって、時系列の相関構造を完全に無視する観測を1つずつリサンプリングする代わりに、相関構造を尊重することを期待して、ブロックでリサンプリングします。あなたが言及したパラメトリックブートストラップは、「データをいじり、古い人形から新しい人形を組み立てるのではなく、成形されたバービー全体を代わりに押してみませんか？あなたが好きなバービーの、そして私もあなたが好きなものにすることを約束します。」データをいじって古い人形から新しい人形を組み立てるのではなく、成形されたバービー全体を代わりに押してみませんか？私はあなたがどんなバービーが好きかを考え出しました、そして、私はあなたもあなたが望むものを作ると約束します。」データをいじって古い人形から新しい人形を組み立てるのではなく、成形されたバービー全体を代わりに押してみませんか？私はあなたがどんなバービーが好きかを考え出しました、そして、私はあなたもあなたが望むものを作ると約束します。」

説明したパラメトリックブートストラップの場合、HMMモデルの適合がほぼ完璧であることを十分に確認する必要があります。そうしないと、パラメトリックブートストラップが誤った結果（腕を動かせないバービー）につながる可能性があります。上記の不均一分散の例について考えてください。または、AR（1）モデルをAR（5）データに適合させることを考えてください。パラメトリックにシミュレートされたデータを使用しても、元のデータが持つ構造を持ちません。

編集：Sadeghdが彼の質問を明らかにしたように、私もそれに答えることができます。膨大な種類のブートストラップ手順があり、それぞれが統計、サンプルサイズ、依存関係、またはブートストラップの問題のいずれかで特定の癖に対処します。たとえば、依存関係に対処する単一の方法はありません。（私は調査ブートストラップで作業しましたが、8つの異なる手順がありますが、いくつかは実際的な関心よりも方法論的関心がほとんどであり、一部は簡単で一般化できない特殊な場合にのみ適用できるという点で明らかに劣っています。）ブートストラップで直面する可能性のある問題の一般的な議論は、Canty、Davison、Hinkley and Ventura（2006）を参照してください。ブートストラップの診断と対策。統計のカナダジャーナル、34（1）、5-27。

— StasK
ソース

依存するデータのクラスターがある場合（中間セクション）に情報が少ないというステートメントに少しだけ追加するために、クラスター内で正のクラス内相関がある場合はこれが当てはまると思いますが、負の場合は逆ですクラス内相関。もちろん、ほとんどの実際のデータアプリケーションでは、クラス内相関は正であると思われます。

— マクロ

@Macro：確かに両方の点で正しい（これは技術的に可能であり、実質的に無関係である）。負の相関を持つAR（1）プロセスの平均レベルを推定する場合も同じことが当てはまりますが、この機能を持つ可能性のある実際のプロセスを考えると、やはり迷っています。異なる時間スケールで自己再現可能な正の自己相関とは異なり、参照期間の長さを2倍にすると、負の相関が消える必要があります。（米国のGDPのようなビジネスサイクルデータは、約3年の遅延期間で負の相関関係があります。）

— StasK

詳細な回答をありがとう。私は、パラメトリックな再サンプリングが依存の影響を減少させる可能性があると結論付けました。ただし、パラメトリック分布は、ある程度までは真の母集団を代表するものでなければならず、依存関係のパターンは再サンプリングで再生成する必要があります。

— サデハド