相関する非正規データを生成する方法


14

相関する非正規データを生成する方法を見つけることに興味があります。理想的には、共分散(または相関)行列をパラメーターとして受け取り、それに近似するデータを生成するある種の分布です。しかし、ここに問題があります。私が見つけようとしている方法には、その多変量歪度や尖度も制御できる柔軟性が必要です。

Fleishmanの方法と通常の変量のべき乗法の使用はおなじみですが、これらの拡張機能のほとんどは、ユーザーが限界歪度と尖度の特定の組み合わせのみを許可し、多変量歪度/尖度をそのまま残していると思います。私が疑問に思ったのは、相関/共分散構造とともに、多変量歪度および/または尖度を指定するのに役立つ方法があるかどうかです。

約1年前、コピュラの分布に関するセミナーを受講しましたが、教授がぶどうのコピュラを使用することで、たとえば1次元の周辺それぞれで対称的であるが、共同で歪曲されたデータを生成できることをさりげなく言及したことを覚えています-その逆。または、さらに低い次元の余白には、最大の次元を対称(または非対称)に保ちながら、ゆがみや尖度を持たせることができます。私はそのような柔軟性が存在する可能性があるというアイデアに驚いていました。私は、前述の方法を説明する何らかの記事または会議論文を見つけようとしましたが、失敗しました:(。コピュラを使用する必要はありません。うまくいくものなら何でもオープンです。

編集:私が意味することを示すために、いくつかのRコードを追加しました。これまでのところ、Mardiaの多変量歪度と尖度の定義に精通しています。私が最初に問題に近づいたとき、対称コピュラ(この場合はガウス)を歪んだ周辺(この例ではベータ)で使用すると、周辺の単変量テストが重要になりますが、マルディアの多変量スキューネス/尖度のテストは重要だと思いました重要ではありません。私はそれを試してみましたが、期待通りに出ませんでした。

library(copula)
library(psych)
set.seed(101)

cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("beta", "beta"),list(list(shape1=0.5, shape2=5), 
            list(shape1=0.5, shape2=5)))}

            Q1 <- rmvdc(cop1, 1000)
            x1 <- Q1[,1]
            y1 <- Q1[,2]


cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("norm", "norm"),list(list(mean=0, sd=1), 
            list(mean = 0, sd=1)))}

            Q2 <- rmvdc(cop2, 1000)
            x2 <- Q2[,1]
            y2 <- Q2[,2]

mardia(Q1)  

Call: mardia(x = Q1)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  10.33   skew =  1720.98  with probability =  0
small sample skew =  1729.6  with probability =  0
b2p =  22.59   kurtosis =  57.68  with probability =  0

mardia(Q2)
Call: mardia(x = Q2)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  0.01   skew =  0.92  with probability =  0.92
 small sample skew =  0.92  with probability =  0.92
b2p =  7.8   kurtosis =  -0.79  with probability =  0.43

'cop1' VS 'cop2'の等高線と経験的な2変量密度プロットを調べると、どれも対称に見えないことがわかります。それは、これがおそらく私が思っていたよりも少し複雑だと気づいたときです。

多変量歪度/尖度の定義はマルディアだけではないことを知っているので、マルディアの定義のみを満たす方法を見つけることに限定しているわけではありません。

ありがとうございました!


+1最も興味深い質問。このコンテキスト(特に2変量のコンテキスト)で「共同で歪められた」とはどういう意味ですか?4つの象限(平均に配置された軸など)で何らかの意味で「異なる」ジョイント分布の形を描くことはできますが、「ジョイントスキュー」が具体的に何を指すのかはよくわかりません。
Glen_b-モニカを復活

コピュラの使用に関しては、コピュラは限界均一性に変換されるため、明らかに、コピュラは(さまざまな意味で)対称的であり、周辺は歪んでいます。多変量対数正規分布のような単純なようでも、何か(どこ通常の多変量がある)スキューマージンと「を有し、対称」コピュラ(多変量正規コピュラのは、少なくとも、左右対称であることの意味で)。しかし、それはあなたが尋ねていることではありません(私は推測します)。expXバツ
Glen_b -Reinstateモニカ

こんにちは。私の質問に興味を持ってくれてありがとう。ここに投稿するのは今回が初めてなので、正しくやっているといいのですが。私は私が試してみて、私がやっているものを伝えるためにRのコードを使用してから文字制限防ぐので、コメント欄に、より詳しく説明します
S.パンキッシュ

はい、私はそれを実現し、さらに詳細を追加しました。このボードの使い方に関して、時間をかけてご案内いただきありがとうございます。ありがとう!
S.パンキー

マルディアの定義のみを満たす方法を見つけることに自分自身を制限しない」-何をする方法?
Glen_b-モニカを復元

回答:


3

多くの検索後、オンラインフォーラムの周りのジャンプ、教授と相談し、文献レビューのA LOTをやって、私はおそらくという結論になってきたこの問題に対処する唯一の方法は確かにつるのコピュラを使用することです。ペアワイズ歪度と尖度(またはそれ以上のモーメント)をある程度制御できます-p変量ランダムベクトルと、コピュラのp-1ペアと残りのp *(p-1)/ 2-( p-1)次元は、ある種の条件付きコピュラで指定できます。

人々が出会ったかもしれない他の方法を歓迎しますが、少なくとも私はこの指針を答えに向けて残すつもりです。


2
つるコピュラとは何ですか?
セクストス・エンペイリコス

1

Ruscio and Kaczetow(2008)アルゴリズムを修正することで、これを解決できるかもしれません。彼らの論文は、実際の周辺形状と意図した周辺形状の違いを最小化する反復アルゴリズム(Rコード付き)を提供しています。多変量(限界ではなく)モーメントをターゲットとするように変更できる場合があります。

Ruscio、J。、およびKaczetow、W。(2008)。反復アルゴリズムを使用した多変量非正規データのシミュレーション。多変量行動研究、43(3)、355-381。doi:10.1080 / 00273170802285693


ああ、神様!ありがとうございました!私はこの質問がちょうど忘却の彼方に飲み込まれるだろうと一瞬考えた
S.パンキッシュ

1
さて... Ruscio&Kaczetow(2008)の記事をレビューしました。悲しいことに、NORTA(NORmal To Anything)アルゴリズムの別の(さらに柔軟な)実装であり、多変量の3番目と4番目の瞬間ではうまく機能しないことが知られています。私はこの1つで1つに戻っていると思います。
S.パンキー

0

Generalized Elliptical Distributionを確認することをお勧めします。これにより、他の機能の柔軟性を備えた「古典的な」形状マトリックスが可能になります。


ありがとうございました!このリンクを必ずチェックしてください。さて、楕円分布は対称ではありませんか?尖度は制御できますが、歪度は0のままにしておく必要がありますか?
S.パンキッシュ

もちろん、GEは楕円を意味しません。いくつかのスキュー楕円変動については、こちらもご覧ください:stat.tamu.edu/~genton/STAT689/TAMU2009SE.pdf
Quartz

0

コプラや他の複雑な設計を伴わない、これを行うための簡単な方法を思いつきました。この方法は非常に効果的であるように見えますが、正式な参考資料はありません。

アイデアはシンプルです。1.ジョイント正規分布から任意の数の変数を描画します。2.変数の単変量正規CDFを適用して、各変数の確率を導き出します。3.最後に、分布の逆CDFを適用して、その分布からの描画をシミュレートします。

2012年にこの方法を思いつき、Stataを使用してデモンストレーションを行いました。Rを使用した同じ方法を示す最近の投稿も書いています。


(1)「スピアマン正規分布」とは何ですか?(2)CDFと「通常のCDF」を区別しますか?(3)この方法がどのように相関関係を導入するかを説明してもらえますか?「変数」と「分布」の一般的な使用は説明を曖昧にするので、実際に何をしているのかを伝えるのは難しいと思います。もっと正確に答えを言い換えることはできますか?
whuber

投稿ありがとうございます!リンクをたどると、メソッドの詳細が表示されます。それは私が達成したいと思っていたこと(つまり、分布の高次、高次元のモーメントを制御すること)をまったく行いませんが、それでも非常に価値のあるアプローチです。
S.パンキー14

1
当然のことながら、私は新しい方法を思いつきませんでした。カリオ、マルヌC.、およびバリーL.ネルソンを参照してください。任意の周辺分布と相関行列を持つランダムベクトルのモデリングと生成。技術報告書、産業工学および管理科学、ノースウェスタン大学、エバンストン、イリノイ州、1997。ヤハブ、インバル、およびガリットシュムエリ。「経営科学アプリケーションでの多変量ポアソンデータの生成について」ロバートH.スミススクールリサーチペーパーNo. RHS(2009):06-085。
フランシススマート14

それは新しい方法」ではないのです場合でも、私はまだのような私の質問に目を通すと洞察に満ちた:)何か追加して時間を割いてあなたに感謝します
S.パンキッシュ

0

以下の論文で提示されている方法により、平均、分散、歪度、尖度の任意の(実行可能な)組み合わせでランダム多変量を生成できると思います。

  1. スタンフィールド、PM、ウィルソン、JR、およびミルカ、ジョージア1996。ジョンソン分布による多変量入力モデリング、1996年冬季シミュレーション会議の議事録、編。Charnes、JM、Morrice、DJ、Brunner、DT、およびSwain、JJ、1457-1464。
  2. Stanfield、PM、Wilson、JR、およびKing 、RE2004。製品の再利用施設でのアプリケーションとの相関動作時間の柔軟なモデリング、International Journal of Production Research、Vol 42、No 11、2179–2196。

免責事項:私は著者の一人ではありません

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.