不連続性を許容するLOESS


14
  • LOESSのように、不連続のタイミングがアプリオリにわからないゼロ、1つ、またはそれ以上の不連続を可能にするモデリング手法はありますか?
  • テクニックが存在する場合、Rに既存の実装はありますか?

1
既知のX値での不連続、または未知のX値での不連続?(既知のxは簡単です)
Glen_b -Reinstate Monica

@glen私は質問を更新しました:私は、不連続のタイミングがアプリオリに知られていない状況に興味があります。
ジェロミーアングリム

これは議論の余地のない/愚かな質問かもしれませんが、あなたは「タイミング」と言います:これは時系列で使用するためのものですか?LOESSは不連続で、非時系列の状況に適用できますが、以下の回答のほとんどはこれを前提としています(「チェンジポイントなど」)。おもう。
ウェイン

回答:


15

複数の変化点を検出した後、各セグメント内で独立したスムージングを実行したいようです。(検出はオンラインでもそうでなくてもかまいませんが、アプリケーションはオンラインである可能性は低いです。)これについては多くの文献があります。インターネット検索は実り多いものです。

  • DAスティーブンスは、1994年にベイジアン変化点検出の有用な紹介を書きました(App。Stat。43#1 pp 159-178:JSTOR)。
  • 最近ではPaul Fearnheadが素晴らしい仕事をしています(例えば、複数の変化点の問題に対する正確かつ効率的なベイジアン推論、Stat Comput(2006)16:203-213:Free PDF)。
  • D Barry&JA Hartiganによる美しい分析に基づいた再帰アルゴリズムが存在します
    • 変更点モデルの製品パーティションモデル、 Ann。統計 20:260-279:JSTOR ;
    • A変更ポイントの問題、のためのベイズ分析 JASA 88:309-319:JSTOR
  • Barry&Hartiganアルゴリズムの実装の1つは、O。Seidou&TBMJ Ourda、Recursion-based Multiple Changepoint Detection in Multivariate Linear Regression and Application to River Streamflows、 Water Res。RES、2006:無料のPDF

Rの実装を少しも見たことがありません(以前Mathematicaでコーディングしていました)があれば、参考にしてください。


3
私は、BCPのRパッケージたjstatsoft.org/v23/i03/paperバリー&Hartigan氏アルゴリズムを実装
Jeromy Anglim

@Jeromy:Rパッケージと、参照へのリンクを挿入してくれてありがとう。
whuber

7

koenckerの破線回帰を使用して、このビネットの18ページを参照してください。

http://cran.r-project.org/web/packages/quantreg/vignettes/rq.pdf

Whuberの最後のコメントへの回答:

この推定量は次のように定義されます。

X I X I - 1 xRx(i)x(i1)i

ei:=yiβix(i)β0

z = max z 0 z+=max(z,0)z=max(z,0)

λ 0τ(0,1)λ0

min.βRn|τ,λi=1nτei++i=1n(1τ)ei+λi=2n|βiβi1|

は、目的の分位数を示します(例では、 τ = 0.9)。λはブレークポイントの数を指示します: λττ=0.9λλ大きい場合、この推定量はブレークポイントなしに縮小します(classicla線形分位点回帰推定量に対応)。

Quantile Smoothing Splines Roger Koenker、Pin Ng、Stephen Portnoy Biometrika、Vol。81、No。4(1994年12月)、pp。673-680

PS:同じ人が同じ名前で開いているアクセスワーキングペーパーがありますが、同じものではありません。


それはきちんとしたアイデアです:参考に感謝します。ただし、その特定の近似の残差はかなり悪く見えるので、潜在的な変化点をどの程度適切に特定できるのか疑問に思います。
whuber

whuber:分位点回帰の理論にどれだけ慣れているかわかりません。これらの線は、スプラインよりも大きな利点があります。誤差分布を仮定しません(つまり、残差がガウス分布であると仮定しません)。
user603

@kwakこれは面白そうです。通常のエラー分布を想定しないことは、私のアプリケーションの1つに役立ちます。
ジェロミーアングリム

実際、この推定から得られるのは、実際の条件付き分位数です:一言で言えば、これらはスプライン/ LOESS回帰に対するものであり、カップルに対する箱ひげ図(平均、SD)であり、データのはるかに豊富なビューです。また、非ガウスコンテキスト(非対称エラーなど)でも有効性を保持します。
user603

@kwak:残差はx座標と強く相関しています。たとえば、負の残差または小さな正の残差が長く続くことがあります。したがって、それらがガウス分布を持っているかどうかは重要ではありません(探索的分析では無関係です)。この相関関係は、適合度が低いことを示しています。
whuber

6

この問題を解決するいくつかの方法と関連するRパッケージを以下に示します

回帰でのウェーブレットしきい値の推定は、不一致を許容します。Rでパッケージwavethreshを使用できます。

多くのツリーベースの方法(ウェーブレットの概念からそれほど遠くない)は、識別性がある場合に役立ちます。したがって、パッケージtreethresh、パッケージツリー!

ローカルな最尤法」の家族の中で...特に:PozhelとSpokoinyの仕事:適応ウェイトスムージング(パッケージaws)キャサリンローダーによる仕事:パッケージlocfit

ローカルに変化する帯域幅を備えたカーネルがよりスムーズであればポイントになると思いますが、そのためのRパッケージはわかりません。

注:LOESSと回帰の違いは実際にはわかりません... LOESSではアルゴリズムが「オンライン」であるという考えですか?


1
再レス:おそらく私の専門用語はまったく正しくありません。LOESSとは、何らかの形式の局所曲線近似を使用してXからYを予測するモデルを指します。例えば、これらのグラフのほとんどに見られるように:google.com/...
Jeromy Anglim

2

非線形回帰関数nls、bスプライン(たとえば、スプラインパッケージのbs関数)およびifelse関数を使用して、Rでソリューションをコーディングできるはずです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.