タグ付けされた質問 「multivariate-analysis」

同時に分析される複数の変数があり、これらの変数が依存(応答)変数であるか、分析で唯一の変数である場合に分析します。これは、「複数」または「多変数」分析と対照的です。これは、複数の予測子(独立)変数を意味します。

4
時系列の説明をどうするか?
これまで、主に横断データを扱い、ごく最近では、一連の入門的な時系列文献をつまづいてスキャンしてきました。時系列分析で説明変数がどのような役割を果たしているのでしょうか。 トレンド除去ではなくトレンドを説明したいと思います。序論として私が読んだことのほとんどは、シリーズが何らかの確率論的プロセスに由来していることを前提としています。AR(p)とMAプロセス、およびARIMAモデリングについて読みました。自己回帰プロセスだけではなく、より多くの情報を処理したいので、VAR / VECMを見つけていくつかの例を実行しましたが、断面図での説明とより密接に関連するケースがあるかどうか疑問に思います。 この背後にある動機は、私のシリーズの分解が傾向が主要な貢献者であることを示している一方で、残りと季節効果がほとんど役割を果たすことはないということです。この傾向を説明したいと思います。 複数の異なるシリーズでシリーズを後退させることはできますか?直感的には、シリアル相関のためにglsを使用します(cor構造についてはよくわかりません)。偽の回帰について聞いて、これが落とし穴であることを理解していますが、それでも傾向を説明する方法を探しています。 これは完全に間違っているのですか、それとも珍しいのですか?それとも、これまでのところ正しい章を逃しただけですか?

1
単変量時系列と多変量時系列の違いは何ですか?
次の時系列データがあります。 index Time value_1 value_2 value_3 0 2016-04-01 06:00:10 1 5 2 1 2016-04-01 06:00:20 2 9 8 2 2016-04-01 06:00:30 3 5 1 3 2016-04-01 06:00:40 4 4 4 4 2016-04-01 06:00:50 3 4 5 6 2016-04-01 06:01:00 4 3 2 これは一変量または多変量時系列ですか?単変量時系列と多変量時系列の違いは何ですか?

2
異常検出:使用するアルゴリズムは?
コンテキスト:私は、臨床データを分析して、タイプミスの可能性がある妥当ではないデータを除外するシステムを開発しています。 これまでに行ったこと: 妥当性を定量化するために、これまでの私の試みは、データを正規化し、セットD(=トレーニングセット)の既知のデータポイントまでの距離に基づいてポイントpの妥当性値を計算することでした: plausibility(p)=∑q∈DGauss(distance(p,q))plausibility(p)=∑q∈DGauss(distance(p,q))\text{plausibility}(p)=\sum_{q\in D}\text{Gauss}(\text{distance}(p,q)) その定量化により、妥当なデータと妥当でないデータを区別するしきい値を選択できます。私はpython / numpyを使用しています。 私の問題: このアルゴリズムは、独立した次元を検出できません。理想的には、レコードについて知っていることなら何でもアルゴリズムに入れて、次元Xがレコードの妥当性に影響を及ぼさないことをそれ自体で見つけることができます。 このアルゴリズムは、ブール値や選択入力などの離散値には実際には機能しません。それらは連続値にマッピングできますが、選択1が選択3よりも選択2に近いというのは直観に反しています。 質問: このタスクにはどのようなアルゴリズムを検討する必要がありますか?最近傍に基づく、クラスタリングに基づく、および統計的アプローチを含む多くのオプションがあるようです。また、この複雑さの異常検出に関する論文を見つけるのも困難です。 アドバイスは大歓迎です。 [編集]例: データが人の身長、人の体重、タイムスタンプで構成されているとしましょう。つまり、3Dデータです。体重と身長は相関していますが、タイムスタンプは完全に独立しています。ユークリッド距離を考慮する場合、交差検証データのほとんどに適合するように小さなしきい値を選択する必要があります。タイムスタンプは他のディメンションとまったく相関しないため、レコードが妥当であるかどうかを判断することは重要ではないため、アルゴリズムはタイムスタンプディメンションを無視するのが理想的です。どんなタイムスタンプももっともらしいです。 一方、タイムスタンプが重要な例を構成することができます。たとえば、フィーチャXの値Yは、特定の日付より前ではなく特定の日付より後に測定された場合に妥当である可能性があります。

2
多くの変数の散布図行列の探索
多くのパラメーター(たとえば、50〜200)を含むデータセットを分析していて、変数間の関係(たとえば、2変数散布図または2次元ヒストグラム)に興味があります。ただし、この数のパラメーターでは、200x200の配列のプロットを描画するのは現実的ではないようです(それを印刷して壁に掛けない限り)。 一方、相関行列のみを実行しても、2変数関係に関するすべての情報が得られるわけではありません。 多くの変数の2変数関係を探索する方法(ライブラリまたはワークフロー)はありますか? 私は特に他の人に結果を示すことに興味があります(おそらくいくつかのデータ前処理の後)。たとえば、JavaScriptでインタラクティブな何か、相関行列から選択したフィールドの散布図行列を見ることができたとします。 散布図行列とは、次のようなものです。 (から取らpandasplottingブログ ;でaviable パイソン/パンダ、R、D3.js、など)。

2
変数が完全な同時依存性を示す場合、多変量中心極限定理(CLT)は成り立ちますか?
タイトルは私の質問を要約したものですが、明確にするために、次の簡単な例を検討してください。ましょう、I = 1、...、N。定義: \ begin {equation} S_n = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i \ end {equation} および \ begin {equation} T_n = \ frac {1} {n} \ sum_ ^ N(X_I ^ 2 - 1の){I 1 =} \端{式} 私の質問:にもかかわらずS_NとT_Nがときに完全に依存しており、N = 1、DO \ SQRT {N} …

1
全体的な切片なしでlme4の多変量混合モデルの係数を解釈する方法は?
多変量(つまり、複数の応答)の混合モデルをで近似しようとしていRます。ASReml-rおよびSabreRパッケージ(外部ソフトウェアが必要)を除いて、これはでのみ可能であるようMCMCglmmです。パッケージに付属する論文MCMCglmm(pp.6)で、Jarrod Hadfieldは、そのようなモデルを複数の応答変数を1つの長い形式の変数に再形成し、全体的なインターセプトを抑制するようにフィッティングするプロセスについて説明しています。私の理解では、切片を抑制すると、応答変数の各レベルの係数の解釈がそのレベルの平均になるように変更されます。したがって、上記を前提として、多変量混合モデルを当てはめることは可能lme4ですか?例えば: data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # Formula: value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)) …

1
逆共分散行列の仮説検定
私が観察仮定IID 、及び試験たい vechため適合行列およびベクトル。この問題に関する既知の作業はありますか?H 0:A (Σ - 1) = A A Aバツ私〜N(μ 、Σ )xi∼N(μ,Σ)x_i \sim \mathcal{N}\left(\mu,\Sigma\right)H0:A H0:A H_0: A\ (Σ− 1) =a(Σ−1)=a\left(\Sigma^{-1}\right) = aあAAaaa (私にとって)明らかな試みは、尤度比テストによるものですが、の制約のを受ける可能性を最大化するには、SDPソルバーが必要であり、かなりかもしれません。H0H0H_0

1
ピライトレースとホテリングローリートレースの一般化はありますか?
多変量多重回帰(ベクトル回帰と回帰)の設定では、一般的な仮説(Wilkのラムダ、Pillai-Bartlett、Hotelling-Lawley、およびRoyの最大根)の4つの主要な検定はすべて、行列固有値に依存します。、ここで、及び「説明」および「合計」変化行列です。HE−1HE−1H E^{-1}HHHEEE ピライとホテリングローリーの統計はどちらも それぞれ。と母集団類似体に対して定義されたこのトレースの分布が場合に重要であるアプリケーションを探しています。(私の作業におけるモジュロエラー。)一般的なサンプル統計の既知の統一、または4つの古典的な検定の2つ以上を取り込む他の一般化があるかどうか知りたいです。がまたは等しくないことを理解していますψκ=Tr(H[κH+E]−1),ψκ=Tr(H[κH+E]−1),\psi_{\kappa} = \mbox{Tr}\left(H\left[\kappa H + E\right]^{-1}\right),κ=1,0κ=1,0\kappa = 1, 0HHHEEEκ=2κ=2\kappa = 2κκ\kappaκκ\kappa000111、分子はヌルの下でカイ二乗のように見えなくなったため、中央のF近似が疑わしいと思われるため、おそらくこれは行き止まりです。 ヌル(つまり、回帰係数の真の行列がすべてゼロ)の下と代替の下での分布についていくつかの研究があったことを願っています。私は特にケースに興味がありますが、一般的なケースで作業がある場合は、もちろんそれを使用できます。ψκψκ\psi_{\kappa}κ=2κ=2\kappa = 2κκ\kappa

2
合計が正常ではない2つの*相関した*正規変数の例
私は、わずかに正常であるが共同して正常ではない相関ランダム変数のペアのいくつかの素晴らしい例を知っています。参照してください、この答えによってディリップSarwate、およびこれによって枢機卿を。 また、合計が正常でない2つの正規確率変数の例も認識しています。Macroによるこの回答を参照してください。ただし、この例では、2つの確率変数は相関していません。 非ゼロの共分散を持ち、合計が正規でない2つの正規確率変数の例はありますか?あるいは、2変量正規ではない場合でも、相関する2つの正規確率変数の合計が正常でなければならないことを証明することは可能ですか? [コンテキスト:分布を求める宿題があります。ここで、とは相関標準法線です。私はそれらが二変量正常であることを指定することを意図した質問だと思います。しかし、私は non-zero に対するこの追加の仮定なしに何かが言えるかどうか疑問に思っています。]aX+bYaX+bYaX+bYXXXYYYρρ\rhoρρ\rho ありがとう!

1
多くの左にゆがんだ分布の視覚化
表示したい一連の左スキュー/ヘビーテール分布があります。(AS標識三つの要因を横切る42点の分布がありA、BそしてC以下が)。また、変動は因子全体で縮小していBます。 私が抱えている問題は、結果のスケール(比率または倍率変化)全体で分布を区別するのが難しいことです。 データをログに記録すると、左の歪度が過度に強調され、より多くのサンプルが裾に移動します(異常値ポイントのマッシュが作成されます)。 これらのデータを視覚化するための他の手法についての提案はありますか?


1
線形、二次、フィッシャーの判別分析における出典の不一致
私は判別分析を勉強していますが、いくつかの異なる説明を調整するのに苦労しています。私は何かを見逃しているに違いないと私は信じています。これまでこのレベルの矛盾に遭遇したことがないからです。とはいえ、このWebサイトでの判別分析に関する質問の数は、その複雑さを証明しているようです。 いくつかのクラスのLDAとQDA 私の主な教科書は、Johnson&Wichern Applied Multivariate Statistical Analysis(AMSA)とこれに基づく私の先生のメモです。2つのグループの設定は無視します。これは、この設定の簡略化された式が少なくともいくつかの混乱を引き起こしているためです。この情報源によると、LDAとQDAは、予想誤分類コスト(ECM)に基づく分類ルールのパラメトリック(多変量正規性を想定)拡張として定義されています。ECMは、新しい観測値xを任意のグループに分類するための条件付き予想コストを合計し(誤分類コストと事前確率を組み込んで)、これを最小化する分類領域を選択します。ここでECM=∑i=1groupspi[∑k=1; i≠kgroupsP(k|i)c(k|i)]ECM=∑i=1groupspi[∑k=1; i≠kgroupsP(k|i)c(k|i)]ECM = \sum_{i=1}^{groups} p_i [\sum_{k=1;\space i \ne k}^{groups}P(k|i)c(k|i)]P(k|i)=P(classifying item as group k | item is group i)=∫Rkfi(x)dxP(k|i)=P(classifying item as group k | item is group i)=∫Rkfi(x)dxP(k|i) = P(\text{classifying item as group k } | \text{ item is group i}) = \int_{R_k} f_i(\boldsymbol{x})d\boldsymbol{x}、fi(x)fi(x) …


2
ガウス混合モデルのコンポーネントは何ですか?
ガウス混合モデルのディメンションとコンポーネントの関係は何ですか?そして、寸法とコンポーネントの意味は何ですか?ありがとうございました。 私が間違っている場合は修正してください:私の理解は、観測されたデータには多くの次元があることです。各次元は、収集されたデータの特徴/側面を表し、独自のガウス分布を持っています。「コンポーネント」がこの図のどこに当てはまるのか、そしてそれが何を意味するのかわかりません。

2
2つの信号が一緒に正規分布しているかどうかを確認するにはどうすればよいですか?
このウィキペディアのページで説明されているように、2つの確率変数XとYが無相関で、一緒に正規分布している場合、それらは統計的に独立しています。 XとYが相関しているかどうかを確認する方法を知っていますが、それらが一緒に正規分布しているかどうかを確認する方法がわかりません。私は統計をほとんど知りません(数週間前に正規分布が何であるかを学びました)ので、いくつかの説明的な答え(そしておそらくチュートリアルへのリンク)が本当に役立つでしょう。 だから私の質問はこれです:2つの信号を有限回数N回サンプリングした場合、2つの信号サンプルが一緒に正規分布しているかどうかを確認するにはどうすればよいですか? 例:次の画像は、2つの信号s1とs2の推定された同時分布を示しています。 x=0.2:0.2:34; s1 = x*sawtooth(x); %Sawtooth s2 = randn(size(x,2)); %Gaussian ジョイントpdfは、この2Dカーネル密度推定器を使用して推定されました。 画像から、接合部pdfがほぼ原点を中心とする丘のような形状であることがわかります。これは、それらが実際に共同で正規分布していることを示していると思います。ただし、数学的に確認する方法を教えてください。使用できる数式はありますか? ありがとうございました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.