方向独立変数による正規分布DVの関連付けのテスト?


10

正規分布従属変数が方向分布変数に関連付けられているかどうかの仮説検定はありますか?

たとえば、時刻が説明変数である場合(そして、曜日、月などのようなものは無関係であると想定)、つまり、午後11時が午前1時より 22時間進んでいること、および2が2 であることを説明する方法です。時間の背後にある関連のテストで午前1時?真夜中の12:00が午後11:59の1分後に続かないと仮定せずに、連続した時刻が従属変数を説明するかどうかをテストできますか?

このテストは、離散方向(モジュラー)の説明変数にも適用されますか?それとも別のテストが必要ですか?たとえば、従属変数がによって説明されるかどうかをテストする方法(日と季節、および特定の年または10年は無関係であると想定)。年の月を処理すると、順序は無視されます。ただし、月を標準の序数変数として扱う(たとえば、Jan = 1 ... Dec = 12)と、1月が11月の2か月後に来ることは無視されます。


1
答えは本をいっぱいにするかもしれません(そしてそこにいくつかあります)。質問をより具体的にすることは、あなたにとって重要なことに的を絞って回答に役立つ可能性があります。
whuber

@whuberええと...うーん...狭める方法を教えてくれませんか?DVの分布を指定しますか?回帰ではなく、単一のテストに限定しますか?私は少し困惑していて、どこから始めればいいのか分かりません...
Alexis

@whuber私はかなり質問を絞り込もうとしましたが、それをより有用にするための指針に感謝します(本当に、モジュラー予測子について考えるための出発点が欲しいだけです)。これがまともな形になっている場合、DVでの配布のないテストについて同様の質問を私はフォローアップする可能性があります。
Alexis

@whuber離散モジュラーIVを回帰コンテキストでMulling:離散モジュラーIVをレベル2識別子として使用する2レベル混合モデルは、各レベル2ユニットがランダム効果の前後の変数を数値システムの前後の値は正しい軌道にありますか?
Alexis

ここを参照してくださいjstatsoft.org/article/view/v031i10/v31i10.pdf、16ページを
アメーバは回復モニカ言う

回答:


9

一般的に、より広く異なる質問をすることから始めるのが科学的および統計的に実り多いと思います。ここでは、指向性ではなく円形と言います。これは、後者には球状でさらに素晴らしい空間が含まれているためであり、単一の回答ですべてをカバーすることはできません。そして一部のため、あなたの例で、一日の時間年の時は、両方の円形です。さらなる主な例は、コンパスの方向(風、動物または人間の動き、配置などに関連する)です。これは、多くの円形の問題で特徴付けられます。実際、一部の科学者にとっては、これはより明白な出発点です。

あなたがそれをうまくやることができるときはいつでも、ある種の回帰モデルで時間の正弦関数と余弦関数を使用することは、モデリング方法を実装するのが単純で簡単です。これは、多くの生物学的および/または環境の例を求める最初の寄港地です。(季節性を示す生物現象は通常、直接的または間接的に気候や天候に反応するため、この2種類はしばしば結びついています。)

具体的には、24時間または12か月の時間測定を想像してください。

sin[2π(hour/24)],  cos[2π(hour/24)]

sin[2π(month/12)],  cos[2π(month/12)]

それぞれが1日または1年全体の1サイクルを表します。測定またはカウントされた応答といくつかの循環時間との間に関係がないという正式なテストは、正弦と余弦が予測子として適切なリンクとファミリを使用する一般化線形モデルで、正弦と余弦の係数が一緒にゼロであるかどうかの標準テストになります応答の性質に応じて選択されます。

応答の限界分布(正常またはその他)の問題は、このアプローチでは二次的であり、および/または家族の選択によって処理されます。

サインとコサインのメリットは、周期的で自動的に折り返されることです。そのため、各日または年の最初と最後の値は、必ず1つと同じになります。境界がないため、境界条件に問題はありません。

このアプローチは、円形、周期的、三角関数、およびフーリエ回帰と呼ばれています。入門チュートリアルのレビューについては、こちらをご覧ください

実際には、

  1. このようなテストは通常​​、季節性が予想される場合は常に、従来のレベルで圧倒的に重要な結果を示します。より興味深い質問は、推定された正確な季節曲線と、他の正弦波項を含むより複雑なモデルが必要かどうかです。

  2. 他の予測子を除外するものもありません。その場合、他の予測子を含むより包括的なモデルが必要です。たとえば、季節性の正弦と余弦、その他すべての予測子などです。

  3. ある時点で、データ、問題、および研究者の好みと経験に応じて、問題の時系列の側面を強調し、明示的な時間依存性を持つモデルを構築することがより自然になる場合があります。実際、統計学に関心のある人々は、それに取り組む他の方法があることを否定するでしょう。

傾向として簡単に名前が付けられるもの(ただし、必ずしも簡単に識別できるとは限りません)は、#2または#3のいずれか、あるいはその両方に分類されます。

市場の季節性、国内および国際経済、またはその他の人間現象に関心を持つ多くのエコノミストやその他の社会科学者は、通常、毎日または(より一般的には)年内のより複雑な変動の可能性に感銘を受けます。多くの場合、常にではありませんが、季節性は、プロジェクトの主な焦点でさえ、季節性を興味深く重要であると頻繁に考える生物学者や環境科学者とは対照的に、削除または調整すべき厄介なものです。とは言っても、経済学者や他の人たちもしばしば回帰型のアプローチを採用していますが、弾薬ではインジケーター(ダミー)変数のバンドル、最も単純にはか月ごとまたは1四半期ごとの変数0,1。これは、指定された休日、休暇期間、学年の副作用などの影響だけでなく、気候や天候の影響や衝撃を捉えようとする実用的な方法です。これらの違いを指摘すると、上記のコメントのほとんどは経済学や社会科学にも当てはまります。

罹患率、死亡率、入院、通院などの変動に関係する疫学者や医療統計学者の態度やアプローチは、これら2つの極端な状況の間にある傾向があります。

私の見解では、比較するために日または年を半分に分割することは、通常、恣意的で、人為的であり、せいぜいぎこちないです。また、データに通常存在する滑らかな構造も無視しています。

編集これまでの説明では、離散時間と連続時間の違いについては触れていませんが、私の経験では、これを実際に大きな問題と見なしていません。

しかし、正確な選択は、データの到着方法と変更のパターンによって異なります。

データが四半期ごとで人間の場合、指標変数を使用する傾向があります(たとえば、四半期3と4はしばしば異なる)。月次で人間の場合、選択は明確ではありませんが、ほとんどのエコノミストに正弦と余弦を販売するために努力する必要があります。毎月またはより細かく、生物学的または環境的である場合、間違いなく正弦と余弦。

編集2三角回帰の詳細

三角回帰の特徴的な詳細(必要に応じて他の方法で名前を付けます)は、ほとんどの場合、サイン項とコサイン項がペアでモデルに提示されるのが最適であることです。最初に、時刻、年、またはコンパスの方向をスケーリングします。これにより、ラジアンでの円上の角度、つまり、間隔として表され ます。次に、モデルで必要なのペアを使用します。(循環統計では、三角規則が統計規則に勝る傾向があるため、変数だけでなくパラメーターにもなどのギリシャ語の記号が使用されます。)θ[0,2π]sinkθ,coskθ,k=1,2,3,θ,ϕ,ψ

などの予測子のペアを回帰のようなモデルに提供すると、モデルの項、つまり係数推定、たとえばが得られます。。これは、周期信号の位相と振幅を合わせる方法です。そうでなければ、などの関数は次のように書き直すことができます。sinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)

sinθcosϕ+cosθsinϕ,

ただし、位相を表すおよびは、モデルフィッティングで推定されます。そうすることで、非線形推定の問題を回避できます。cosϕsinϕ

円の変動をモデル化するためにを使用すると、自動的にその曲線の最大値と最小値が半円離れます。多くの場合、これは生物学的または環境的変動の非常に優れた近似ですが、逆に、特に経済の季節性を把握するには、さらにいくつかの用語が必要になる場合があります。これは、代わりにインジケータ変数を使用する非常に良い理由かもしれません。これは、係数の簡単な解釈にすぐにつながります。b1sinθ+b2cosθ


@Kelvinからの回答といくつかの驚くべき重複があったことに気づきました。
Nick Cox

+1(特に、あなたがしたように「すばらしい」を使用したことについて!))ニック・コックス、私の質問のように、離散円形変数の場合も明示的にするように親切にしてくれませんか?それは、時間の離散測定を使用して説明する「三角法モデリング」アプローチと同じくらい簡単でしょうか?それとも、何らかの「継続性の修正」が必要でしょうか?
Alexis

私の知る限りでは、非円形変数と同様に、離散循環変数と連続循環変数の唯一の違いは、値を離散点に丸めることです(たとえば、午後2時と14.12345時間)。したがって、大きな違いはありません。全体の期間に対して小さいステップで少ない丸めを適用する限り。基本的には、丸め誤差があるかどうかだけの問題です。あなたがそれを避けることができるなら、最高ではありません。
ケルビン

離散と連続は大した違いはないことに同意します。実際には、多くの測定は、四半期、半年、月、日など、または(N. S)から(N、E、S、W)からより細かい解像度までの範囲で報告することにより、多少粗くなります。コンパスの方向。詳細には、ポイント測定(正確な時間の温度)と間隔測定(例:月次総売上高)には違いがあります。集約や平均化ほどのエラーがないこともあるので、丸め誤差としてそのような詳細すべてをまとめることはしません。
Nick Cox

4

とにかく探しているように見えるので、これは配布不要のオプションです。これは循環統計の分野に固有のものではありませんが、私はかなり無知ですが、ここや他の多くの設定に適用できます。

方向変数をます。X

他の変数をとします。これは、任意の(または、実際に、有用なカーネルを定義できる任意のタイプのオブジェクト:グラフ、文字列、画像、確率分布、サンプル)のにあります。確率分布から、...)YRdd1

定義し、観測値ます。Z:=(X,Y)mzi=(xi,yi)

ここで、次の論文のように、ヒルベルトシュミットの独立基準(HSIC)を使用してテストを実行します。

Gretton、Fukumizu、Teo、Song、Schölkopf、Smola。独立性のカーネル統計テスト。NIPS2008。(pdf

あれは:

  • カーネルを定義します。ここでは、カーネルメソッドという意味のカーネル、つまりRKHSのカーネルを意味します。kX

    • 1つの選択肢は、(ケルビンの編集のように)で単位円上のを表し、ガウスカーネル。ここでは空間の滑らかさを定義します。ポイント間の中央距離に設定すると、多くの場合十分です。XR2k(x,x)=exp(12σ2xx2)σX
    • 別のオプションは、をように角度として表し、フォンミーゼスカーネル。ここでは滑らかさのパラメータです。1X[π,π]k(x,x)=exp(κcos(xx))κ
  • 同様に、カーネルを定義します。でガウスカーネル、上記の、合理的なデフォルトです。lYYRn

  • LET、、およびでありよう行列、、及びあるセンタリング行列。次に、検定統計は、独立性検定として使用すると、いくつかの優れた特性を持ちます。そのnull分布は、ガンマ分布へのモーメントマッチング(計算上効率的)またはブートストラップ(小さいサンプルサイズの場合により正確)のいずれかによって概算できます。K L m ×HKLm×mKij=k(xi,xj)Lij=l(yi,yj)H H=I1m11T1m2tr(KHLH)

RBFカーネルでこれを実行するためのMatlabコードは、最初の著者からここにあります


このアプローチは一般的であり、パフォーマンスが高い傾向があるため、優れています。主な欠点は次のとおりです。

  • m2テスト統計量を計算するための計算の複雑さ。これは、問題がある場合はカーネル近似で減らすことができます。
  • 複雑なヌル分布。大規模な場合、ガンマ近似は適切であり、面倒ではありません。小さな場合、ブートストラップが必要です。mm
  • カーネルの選択。上記のように、カーネルとカーネルはヒューリスティックに選択する必要があります。このペーパーでは、カーネルを選択するための最適ではない基準を示します。この論文は、残念ながら統計的検出力を失う大量のデータバージョンのテストに適した方法を示しています。この設定でほぼ最適な基準を求める作業が現在進行中ですが、残念ながら、まだ一般消費する準備ができていません。kl


1.これは循環データのスムージングカーネルとして頻繁に使用されますが、これをRKHSカーネルとして使用している人をすぐに見つけたところはありません。それにもかかわらず、シフト不変形式は平均0のフォンミーゼス分布の確率密度関数に比例するため、ボクナーの定理によって正定値となります。平均0のフォンミーゼス分布の pdfに比例します。。[ π π ]k(xx)[π,π]


3

たとえば、午前12時から午後12時までの平均値を午後12時から午前12時までの平均値と比較することにより、期間の反対側の「半分」からの平均の間でt検定を実行できます。次に、午後6時から午前6時までの平均値を午前6時から午後6時までの平均値と比較します。

または、十分なデータがある場合は、期間をより小さい(たとえば、1時間ごとの)セグメントに分割し、複数の比較を修正しながら、セグメントの各ペア間でt検定を実行できます。

または、より「連続的な」分析(つまり、任意のセグメンテーションなし)の場合、(正しい周期で)方向変数の正弦関数と余弦関数に対して線形回帰を実行すると、データが自動的に「循環」されます。

x=sin(x2π/period)
x=cos(x2π/period)

このようなアプローチの主な問題は、モデルのフェーズが最大の相関関係を選択するように設定されていることを確認することが困難になることです。そのため、いくつかの異なるフェーズを試すか、または公式でフェーズを選択して公式化する必要があるあなたの仮想値:a

x=sin((x+a)2π/period)

ただし、理想的には、仮説を立て(たとえば、午後は朝よりも活動的です)、データを確認前に適切な設定する必要あります。a

編集:もう1つの考えは、方向変数の正弦関数と余弦関数の両方に対して同時に(つまり、通常の変数とと)重回帰を実行できるということです真の「方向」は、正弦関数と余弦関数が一緒になって完全な円のx座標とy座標を定義するのとほぼ同じです。そうすれば、フェーズの問題が自動的に処理されるため、フェーズの問題を個別に気にする必要はありません。私はこれが以前に行われたのを見たことがありませんが、なぜそれがうまくいかないのかわかりません。x x yxx

いずれにせよ、あなたは期間についていくつかの仮定をして、それに応じてテストする必要があると思います。


ケルビン、あなたが説明するように循環データを「壊す」ことは、モジュールの順序付けについて私が提起した問題を正確に無視しているようです。
Alexis

重回帰による継続的分析を説明する私の回答の後半を読みましたか?
ケルビン

サインとコサインを一緒にするのは正しいです。これについては、私の回答と2006年の論文でさらに詳しく説明されています。
Nick Cox

@Nick-最後の編集後に投稿したとおり、私はあなたの答えを見ていませんでしたが、私は創造的であり(事実上大声で考えていた)、実際にこれが行われたのを見たことがないので、独立して同じ答えを得ました。
ケルビン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.