タグ付けされた質問 「multivariate-analysis」

同時に分析される複数の変数があり、これらの変数が依存(応答)変数であるか、分析で唯一の変数である場合に分析します。これは、「複数」または「多変数」分析と対照的です。これは、複数の予測子(独立)変数を意味します。

1
素人が自分のデータについて不正確な結論を出すのを防ぐ方法は?
私は主にSQLのデータアナリストとして、内部顧客に運用データを提供しています。統計分析はめったに行いません。 最近、内部顧客が不適切に設計されたプロジェクト(制御グループなし、計画された方法論なしなど)のデータを使用して来て、ビジネスプラクティスを形作るためにそれを使用できるように、結果のデータ分析を行うように求めています。 「研究」は非常に初歩的であり、研究方法や統計の知識がなく、重要なビジネス慣行に影響を与えようとする人々によって実行されます。最初から設計されていなかったため、統計分析はできません。 関係する人口を超えて彼らの「研究」を一般化することができないことを彼らに知らせるために彼らにどんな資源を向けることができますか?これにはどの言語を使用しますか?

1
マルチレベルの多変量メタ回帰
背景: (1)いくつかの結果/構造(=多変量)と(2)異なる測定値のためにこれらの結果のすべてに複数の効果サイズがある研究を使用してメタ回帰を実行したいと思います。うまくいけばそれを最もよく説明するスキームがあります: 研究1、結果A、効果サイズ1 研究1、結果A、効果サイズ2 研究1、結果B、効果サイズ3 研究2、結果A、効果サイズ4 研究2、結果C、効果サイズ5 研究2、結果C、効果サイズ6 ... 研究は、異なる結果について2つのグループの平均を比較し、効果の大きさはヘッジのgです。 実用的な例は「ワーキングメモリー」であり、「音韻ループ」、「視覚空間スケッチパッド」、「中央エグゼクティブ」など、さまざまな結果に分割できます(Baddeley、1974)。 たとえば、スタディ1は2つの異なるメジャー(=効果サイズ1および2)で「音韻ループ」(結果A)を評価し、1つのメジャー(=効果サイズ3)で「中央エグゼクティブ」(結果B)を評価します。 問題: 適切な多変量アプローチでは、共分散を推定するために、効果サイズと結果の間のすべての相関関係を知る必要があります。ただし、(1)同じ研究内の異なる効果サイズ間の相関関係、および(2)異なる研究の結果間の相関関係はわかりません。それらを推定したり、少なくともいくつかの相関関係を見つけて作業したりすることはできますが、それは避けたい多くの追加の文献検索を意味します。 解決策(これまでのところ): 私は同様の問題を扱ういくつかの方法に出くわしました。 ロバストな分散推定(Hedges、2010)は、複数の効果サイズを処理するための優れたアプローチです。ただし、まだ相関関係を推測して感度分析を実行する必要があり、いくつかの結果を比較することもできないようです(つまり、単変量メタ回帰のみ)。 Van den Noorgateのマルチレベルアプローチ(2014)は、研究内の効果サイズ間および効果サイズ間での変動を可能にすることで相関を推定する必要がないため、有望です。マルチレベルの多変量メタ分析(=異なる結果と上記のスキームのような複数の効果サイズ)とマルチレベルの単変量メタ回帰(=複数の効果サイズですが、結果間の区別なし)について説明します。 Rでmetaforパッケージを使用して、両方のマルチレベルアプローチを組み合わせて、マルチレベルの多変量メタ回帰を実行できるかどうか疑問に思っています。metaforがここに与えられている使用してマルチレベルのメタ分析と多変量メタ回帰の例http://www.metafor-project.org/doku.php/analyses:konstantopoulos2011ここ(マルチレベル)とのhttp://www.metafor- project.org/doku.php/analyses:berkey1998(多変量)。(上にリンクされたマルチレベルの例は、実際には階層的な依存関係に対処するアプローチを説明していることに注意してください(たとえば、同じ研究室で実施された研究)。代わりに、Van den Noorgateによって説明されたマルチレベルのアプローチを使用します。) 変数: ES:効果サイズ(ヘッジのg) VI:効果サイズの分散 Pub_Year:メタ回帰の予測子としての発行年 ES_ID:すべての効果サイズには、所属する研究または結果に関係なく、一意のIDがあります。 Outcome_ID:所属する研究に関係なく、同じ結果のIDは同じです(たとえば、「Phonological Loop」= 1、「Central Executive」= 2)。 Study_ID:同じ研究の効果サイズは、それらが属する結果に関係なく、同じIDを持ちます(例:研究1の効果サイズ= 1、研究2 = 2の効果サイズ)。 多レベルの多変量メタ分析のためのメタフォーのRコード: rma.mv(ES、VI、mods =〜Outcome_ID -1、random = list(〜1 | Study_ID、〜1 | ES_ID)、data = data.set) …

1
MCMC for PDFのcdfsに相当するものは何ですか?
特定のコピュラ、つまりで定義された多変量cdfからのシミュレーションに関する相互検証された質問と共に、私はより大きな図、つまり、そのような関数が与えられた場合、対応する確率分布からシミュレーションする一般的なアルゴリズムを計算できますか?、[ 0 、1 ]C(u1,…,uk)C(u1,…,uk)C(u_1,\ldots,u_k)[0,1]k[0,1]k[0,1]^k 明らかに、一つの解決策は、区別することである対応するPDF生成するために時間をし、その後からのサンプルを生成するメトロポリス・ヘイスティングスような一般的なMCMCアルゴリズムを呼び出す(又は)。k個のκ (U 1、... 、U K)C κCCC kkkκ(u1,…,uk)κ(u1,…,uk)\kappa(u_1,\ldots,u_k)CCCκκ\kappa 余談:別の解決策は、シミュレーションにラプラススティエルス変換を使用して、アルキメデスのコピュラに固執することですが、これは実際には常に可能であるとは限りません。上記の質問を解決しようとしたときに私が見つけたように。 私の質問は、可能であれば、この差別化ステップを一般的な方法で回避することです。

1
与えられた相関関係を持つ二項確率変数の生成
独立した二項確率変数を生成する方法を知っているとします。どのように生成することができる2つのランダム変数とようにXXXYYYX∼Bin(8,23),Y∼Bin(18,23) and Corr(X,Y)=0.5X∼Bin(8,23),Y∼Bin(18,23) and Corr(X,Y)=0.5X\sim \text{Bin}(8,\dfrac{2}{3}),\quad Y\sim \text{Bin}(18,\dfrac{2}{3})\ \text{ and }\ \text{Corr}(X,Y)=0.5 とは独立しているという事実を使おうと考えましたが、が二項分布であるため、この方法は使用できません。これが機能した場合、2つの二項確率変数、たとえばと、とつまり、、ペア。しかし、は二項分布ではないためこれを行うことはできません。Y - ρ X ρ = C O R R (X 、Y )X - ρ Y A B X = A Y - ρ X = B Y = B + ρ A (X 、Y )Y - ρ …

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

5
ランダムな量の信頼区間?
仮定a⃗ a→\vec{a}未知であるppp -ベクトル、及び一方が観察。観測されたと既知のパラメーターのみに基づいて、ランダムな量信頼区間を計算したいと思います。つまり、与えられた、ような見つけます。b⃗ ∼N(a⃗ ,I)b→∼N(a→,I)\vec{b} \sim \mathcal{N}\left(\vec{a}, I\right)b⃗ ⊤a⃗ b→⊤a→\vec{b}^{\top} \vec{a}b⃗ b→\vec{b}pppα∈(0,1)α∈(0,1)\alpha \in (0,1)c(b⃗ ,p,α)c(b→,p,α)c(\vec{b}, p, \alpha)Pr(b⃗ ⊤a⃗ ≤c(b⃗ ,p,α))=αPr(b→⊤a→≤c(b→,p,α))=αPr\left(\vec{b}^{\top}\vec{a} \le c(\vec{b},p,\alpha)\right) = \alpha 信頼区間に寄与するランダム性も影響するため、これは奇妙な質問です。単純明快なアプローチは、、として、、は、これはの期待値です。(は、最大スケーリングでは、非中心カイ二乗RVであり、非中心パラメーターはb⃗ b→\vec{b}b⃗ b→\vec{b}a⃗ ∼N(b⃗ ,I)a→∼N(b→,I)\vec{a} \sim\mathcal{N}\left(\vec{b}, I\right)b⃗ ⊤a⃗ ∼N(b⃗ ⊤b⃗ ,b⃗ ⊤b⃗ I)b→⊤a→∼N(b→⊤b→,b→⊤b→I)\vec{b}^{\top}\vec{a} \sim\mathcal{N}\left(\vec{b}^{\top}\vec{b}, {\vec{b}^{\top}\vec{b}}I\right)b⃗ ⊤b⃗ b→⊤b→\vec{b}^{\top}\vec{b}a⃗ ⊤a⃗ a→⊤a→\vec{a}^{\top}\vec{a}b⃗ ⊤a⃗ b→⊤a→\vec{b}^{\top}\vec{a}b⃗ ⊤b⃗ b→⊤b→\vec{b}^{\top}\vec{b}a⃗ ⊤a⃗ a→⊤a→\vec{a}^{\top}\vec{a} ; …

3
演習を伴う数学的多変量統計の推奨事項
私自身を強化するために、多変量解析と推論に関する大学院レベルの数学的に厳密な教科書が必要です。Elements of Statistical Learningを読んで問題を解決してきましたが、他の焦点を絞った本が必要です。有名な分布(ウィシャート、ウィルクスラムダなど)、仮説検定、推定に関する理論(点、間隔)、およびその他の最新の資料などのトピックを歓迎します。私はこの質問をチェックしましたが、OPは彼の心理分析に役立つ何かを探していました。現在、私は多変量統計分析入門を持っているので、この本とその演習についてのコメントも聞きたいです。ありがとうございました。

1
非正規データのマハラノビス距離
マハラノビス距離は、分類の目的で使用される場合、通常、多変量正規分布を想定しており、重心からの距離は分布に従う必要があります(自由度は次元/特徴の数に等しい)。マハラノビス距離を使用して、新しいデータポイントがセットに属する確率を計算できます。χ2χ2\chi^2ddd 多変量正規分布に従わないデータセットがあります()。理論的には、各特徴はポアソン分布に従う必要があり、経験的にこれは多くの()特徴に当てはまるようで、ノイズに含まれていない特徴で、分析から削除できます。このデータの新しいポイントをどのように分類できますか?d≈1000d≈1000d \approx 1000≈200≈200\approx 200 2つのコンポーネントがあると思います。 このデータの適切な「マハラノビス距離」式は何ですか(つまり、多変量ポアソン分布)。他の分布への距離の一般化はありますか? 通常のマハラノビス距離を使用しても、別の定式化を使用しても、これらの距離の分布はどうなりますか?仮説検定を行う別の方法はありますか? あるいは... 各クラスの既知のデータポイントのは、(少なすぎます。経験的に最小値を決定します)から約まで幅広く変化します。マハラノビス距離はでスケーリングされるため、1つのモデル/クラスから次のモデル/クラスまでの距離を直接比較することはできません。データが正常に分布している場合、カイ2乗検定は、さまざまなモデルからの距離を比較する方法を提供します(臨界値または確率を提供することに加えて)。「マハラノビスのような」距離を直接比較する別の方法がある場合、たとえそれが確率を提供していなくても、私はそれで作業することができます。nnnn=1n=1n=1n=6000n=6000n=6000nnn

5
2Dデータの平滑化
データは、さまざまな時間に記録された光学スペクトル(周波数に対する光強度)で構成されています。ポイントは、x(時間)、y(周波数)の通常のグリッドで取得されました。特定の周波数での時間発展を分析するために(急上昇、続いて指数関数的減衰)、データに存在するノイズの一部を削除したいと思います。このノイズは、固定周波数の場合、ガウス分布のランダムとしてモデル化できます。ただし、一定の時間に、データは異なる種類のノイズを示し、大きなスプリアススパイクと高速振動(+ランダムガウスノイズ)を伴います。2つの軸に沿ったノイズは物理的な起源が異なるため、相関関係がないはずです。 データを平滑化するための合理的な手順は何ですか?目標は、データを歪めることではなく、「明白な」ノイズの多いアーティファクトを削除することです。(そして、過度のスムージングは​​調整/定量化できますか?)1つの方向に沿って他の方向から独立してスムージングすることが意味があるのか​​、それとも2Dでスムージングする方が良いのかわかりません。 2Dカーネル密度推定、2D多項式/スプライン補間などについて読みましたが、専門用語や基礎となる統計理論に精通していません。 私はRを使用していますが、関連しているように見える多くのパッケージ(MASS(kde2)、フィールド(smooth.2d)など)が表示されますが、どの手法を適用するかについてのアドバイスはここでは見つかりません。 あなたが私を指摘する特定の参照があれば、私はもっと学ぶことができて嬉しいです(MASSは良い本だと思いますが、おそらく非統計家には技術的すぎるかもしれません)。 編集:データを表すダミーのスペクトログラムは、時間と波長の次元に沿ったスライスです。 ここでの実際的な目標は、各波長(またはノイズが多すぎる場合はビン)の指数関数的減衰率を時間で評価することです。

1
多変量正規分布と分類の一般化
期待値および共分散行列と単調減少関数密度が 、ここで はマハラノビス距離です。もちろん、多変量法線はによって回復されます。 ΣG(D)P( → X)αG(Δ( → X、 → μ))Δ( →、 → B)=√μ⃗ μ→\vec \muΣΣ\Sigmag(d)g(d)g(d)p (x⃗ )∝ g( Δ (x⃗ 、μ⃗ ))p(x→)∝g(Δ(x→,μ→)) p(\vec x) \propto g \left ( \Delta(\vec x, \vec \mu) \right ) G(D)=EXP(- 1Δ (a⃗ 、b⃗ )= (a⃗ − b⃗ )TΣ− 1(a⃗ − b⃗ )−−−−−−−−−−−−−−−√Δ(a→,b→)=(a→−b→)TΣ−1(a→−b→) \Delta(\vec a, \vec …

4
距離としてのp値?
複数のペアワイズテスト間のp値を類似性/距離の測定と見なすことができ、多次元スケーリングをp値のペアワイズマトリックスに適用して次元を削減できますか?これはソフトな質問ですが、ここで最大の問題は何でしょうか、それをどのようにして克服するのが最善でしょうか?(例:三角不等式?)

3
不確実性と感度分析
次の問題があります。 スカラーの入力(次元ベクトル)、順序付けられた整数と順序付けされていない整数(つまり、ラベル)、および1つまたは複数の出力が与えられると、私は推定したいと思います。xxxnnnyyy どの入力が出力を最もよく説明しています。 1つの入力の変動が出力の変動をどの程度意味します。 これは非常に広い分野である不確実性と感度分析に関連していると思われます。私の問題に関連するアプローチを持つメソッド/リソースを知っていますか?

5
多変量およびメソッド固有の結果の再現性を評価する方法は?
方法「A」は、約30の異なる変数からなる多変量「フィンガープリント」を使用して生体サンプルを記述します。異なる変数は異なる典型的な分布を示し、それらの多くは互いに密接に相関しています。以前の経験から、変数の多くを正規分布に変換できないと想定されています。 方法「B」は方法「A」の改良版になるように設計されており、これら2つの方法の再現性を比較したいと思います。単一の変数を扱っている場合は、メソッド内とメソッド間の変動性を比較するために、いくつかのサンプルの独立した分析を実行し、分散分析を使用します。しかし、ここでは多変量出力を扱っており、変数ごとに1つの分析を実行したくありません。この質問への正しいアプローチは何ですか? 解決 gui11aumeの回答による 回答は、有用で貴重な情報を提供します。AdamOの提案に従って、gui11aumeの回答に続く7つの一方向分析によって、「ダウンストリームアプリケーション」を適合 させます。

4
重回帰を使用してデータの「因果関係」関係を見つける場合、何に注意する必要がありますか?
まず第一に、重回帰は、実際にはデータについて「因果関係」の推論を実際には与えないことに気付きます。私の現在のケースを説明しましょう: 4つの独立変数があり、測定しているものの駆動に関与していることを望みます(ただし、確実ではありません)。重回帰を使用して、これらの各変数が従属変数にどの程度寄与しているかを確認したかったのです。おそらく、変数「4番」は私のアウトカム測定に非常に強く影響しています(ベータの重みが0.7に近い)。 ただし、「独立した」変数の一部は実際には相互に相関している可能性があるため、これでは不十分だと言われています。その場合、実際には3と4の両方が等しく貢献している可能性があるときに、「変数4」が従属変数を駆動していると考えることができます。これは正しいようですが、私はこれに慣れていないので、よくわかりません。 将来的にこの問題を体系的に回避するにはどうすればよいですか?多重回帰を使用して、「独立した」データに非表示の相関がまだ含まれていないことを確認する場合、どの特定の手順をお勧めしますか? 編集:データ自体は、特定の神経学的状態の一連のネットワーク(グラフ)モデルです。各ネットワーク全体のトポロジー(ここでは従属変数)を表す「クラスタリング係数」を測定し、より大きな100以上のネットワーク内の4つのノードの個々の接続性がグローバルクラスタリング値(4つの独立した変数)を駆動しているかどうかを確認しています。変数)。ただし、これらのノードはネットワークの一部であるため、ある程度定義すると、ある程度相関している可能性があります。

2
複数のサイトの時系列温度データを1つのサイトのデータの関数としてモデル化する方法は?
私は時系列分析に不慣れです。次の時系列回帰問題にどのように対処するのが最善かについての提案をいただければ幸いです。1か所のサイト全体で約20か所の1時間ごとの温度測定と静的な補助情報(勾配、標高、アスペクト、キャノピーカバー)。サイトのサイズは数ヘクタールで、温度記録デバイスは、20〜50 m間隔で、いくつかのトランセクトに沿ってサイト全体に広がっています。約1 km先の気象観測所からの時間別データがあり、風速、風向、湿度、太陽照度などの測定値も提供しています。 ウェザーステーションからのデータのみを使用して、サイトの温度(最小、最大、平均)を(一般的に)予測できるようにしたいと思います。半永久的に設置されているのに対し、現場の温度記録計は3年間しか設置されていませんでした。つまり、本質的に、1つの場所(気象観測所)に複数の独立変数(温度、湿度、風など)がありますが、複数の場所に1つの従属変数(温度)があり、それぞれに複数の時間不変属性があります:勾配、標高、アスペクトなど 私は、サイト内の各温度記録場所の1時間ごとの温度ではなく、サイト全体の毎日の最低気温と最高気温を予測することに最も関心があります。ただし、これらの時間ごとの予測は確かに価値があります。 私の最初のアプローチは、サイトの温度から毎日の平均、最小、および最大を計算し、ウェザーステーションで利用可能な測定を独立変数として使用して、これらを単純な線形回帰の従属変数として使用することでした。これは適度に機能します(2つの予測子でR2> 0.50)。しかし、多くの理由でかなり単純すぎるように思われます。これを行うには、より洗練された(そして強力な)方法が必要だと思います。 まず、私は回帰における毎日の値の時系列の性質については何も明示していませんが、ある日から次の日までの最小または平均気温は、1時間から次に、これらの日次データの独立性に関する問題について疑問に思います(時間ごとの気温を予測しようとした場合は、確かに時間ごとです)。第2に、サイト全体でいくらか相関のある複数の温度測定があることに懸念があるため(気象ステーションのデータと比べて、それらの間の温度測定は非常に類似しています)、サイト全体のすべての測定値の平均または最小値または最大値を使用しています。と比較して、個々の測定場所からのデータを直接含めます。しかし、これにより、各温度測定場所(勾配、標高、アスペクト、キャノピーカバー)、おそらくサイトの場所間の温度差のかなりの部分を説明します。第三に、回帰が気温の非常に強い日周サイクルによって支配されているという懸念のために、私は時間単位ではなく日単位の値のみを調べています。 これを行うためのより良い方法(特にRの場合)、またはどこから探し始めるかについての提案は、最も高く評価されます!時系列を扱うRパッケージがたくさんあることに気づきましたが、このような問題から始めるのに最適な場所を見つけるのに苦労しています。ここでモデル化しようとしています。 更新:これについてもう少し考えます。時系列モデルが本当に適切かどうかは、将来の特定の時点で何が起こるかを予測する必要がないため、ここではわかりません。むしろ、私は単にサイトの温度がウェザーステーションの温度(および他の環境変数)にどのように関連しているかに単に興味があります。後の温度測定が十分に独立していないのではないかと心配したため、おそらく時系列分析は価値があると思いました。確かに、1時間の温度は前の時間に大きく依存しますが、日次データの依存性は弱くなります。どちらの場合も、時系列データの時間相関/非依存性は、時系列予測に関心がない場合に対処する必要がある有効な懸念事項ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.