タグ付けされた質問 「multivariate-analysis」

同時に分析される複数の変数があり、これらの変数が依存(応答)変数であるか、分析で唯一の変数である場合に分析します。これは、「複数」または「多変数」分析と対照的です。これは、複数の予測子(独立)変数を意味します。


3
異なる共分散の2つの2変量分布間のマハラノビス距離
質問はタイトルにかなり含まれています。異なる共分散行列の2つの分布のマハラノビス距離はどれくらいですか?これまでに見つけたものは、両方の分布に対して同じ共分散、つまり次のようなものを想定しています。 ΔTΣ−1ΔΔTΣ−1Δ\Delta^T \Sigma^{-1} \Delta 2つの異なるがある場合はどうなりΣΣ\Sigmaますか? 注:-問題はこれです。同じ次元であるが、互いに回転および平行移動する2変量分布が2つあります(申し訳ありませんが、統計的なものではなく、純粋な数学的背景に由来します)。それらの重なり具合/距離を測定する必要があります。 * 更新:* 2つの分布の平均値の間の距離が必要だということを、私が尋ねていることで暗黙的であるかどうかはわかりません。平均がどこにあるかはわかっていますが、2つの分布は互いに対して回転しているため、異なる方向に異なる重みを割り当てる必要があるため、平均間の単純なユークリッド距離では機能しません。さて、私が理解しているように、分布が異なる形の場合、マハラノビス距離を使用してこの情報を測定することはできません(明らかに、同一の共分散の2つの多変量正規分布で機能しますが、一般的なケースでは機能しません)。異なる重みで向きをエンコードするというこの願いをエンコードする良い方法はありますか?

2
駐車場での自動車交通をモデル化するための一般的なアプローチ
私の友人から、中型の駐車場での車の交通量の予測モデリングを手伝ってくれるように頼まれました。ガレージには、忙しくて平穏な日、ピーク時、デッドタイムの​​営業時間があります(平日は12時間、週末は8時間営業しています)。 目標は、特定の日(たとえば、明日)に何台の車がガレージに入るか、およびこれらの車が1日を通してどのように分布するかを予測することです。 戦略とテクニックの一般的なリファレンス(できれば、一般公開されているもの)を参照してください。 ありがとうございました

4
rpartはデフォルトで多変量分割を使用しますか?
Rのrpart関数が多変量分割を実装するために必要なデータを保持することは知っていますが、実際に多変量分割を実行しているかどうかはわかりません。私はrpartドキュメントを見てオンラインで調べてみましたが、それを実行できる、または実行しているという情報はありません。誰もが確かに知っていますか?


2
ウェブサイト最適化のための多変量テストの背後にある数学
多変量のウェブサイトコンバージョンデータから(十分な数の)与えられた適切な統計的推論を行うための理論的なリソース(本、チュートリアルなど)を探しています。 私は数学が関係しているので、ウェブ上でマーケティング以外の優れたものを見つけることができません。私が回答したい種類の質問:単一の変数(例:テキストの色)はどのくらいの影響がありますか?変数間の相関関係は何ですか?モデリングにはどのタイプの分布が使用されていますか(ガウス、二項など)?統計を使用して結果を分析する場合-確率変数と見なす必要があるもの-異なるバリエーションまたはインプレッションのバイナリコンバージョンまたは非コンバージョンの結果を取得するWebページ要素? さまざまなウェブサイト最適化テスト方法とその利点\落とし穴に関する情報はたくさんあります。多変量統計一般に関する情報はたくさんあります。ウェブサイト最適化のこの特定のコンテキストにおける技術統計について説明しているリソースを知っていますか? 情報ありがとうございます!

1
与えられたカテゴリーを持つマルチカテゴリー選択モデル
3つの製品カテゴリがあります。各カテゴリには2つの製品ます。私は、さまざまな種類の選択状況を提供します。1)被験者に単一のカテゴリーが提示され、製品を選択させます。2)被験者に2つのカテゴリーが提示され、2つのカテゴリーから製品を選択させます。3 )被験者には3つのカテゴリすべてが提示され、それぞれから製品を選択するように作成されます。製品の選択は、個々の製品のいくつかの測定された共変量、提示された製品カテゴリー、および他のカテゴリーの選択(そのような選択が可能な場合)に依存すると私は信じています。A 、B 、Cあ、B、CA,B,C0 、10、10,1 たとえば、酢の製品カテゴリがあり、2つのブランドがあるとします。最初のブランドは、高価なバルサミコ酢です。2番目のブランドは、安価なストアブランドのリンゴ酢です。ここで、他に2つの製品カテゴリがあるとします。サラダグリーンとキッチングローブには、それぞれ高価で高品質のブランドと安価で一般的なブランドが含まれています。消費者が酢のカテゴリのみ、または酢とサラダのカテゴリからのみ選択するように求められたときに高価な酢を選択したとしても、酢とキッチングローブのカテゴリから製品を選択するように求められれば、安価な酢を選択すると期待できます。また、安価な酢を選択した人は、酢とサラダグリーンのカテゴリから選択するように求められたときに、安価なサラダグリーンも選択することを期待するかもしれません。 この状況は、PB Seetharamanなどがレビューした「買い物かご」の問題に似ています。al。「複数カテゴリの選択行動のモデル」。ただし、私が見たモデルは、製品カテゴリの発生率を、消費者の関数として、多くの場合ステージモデルとして考えています。 チューザーが選択する必要のあるカテゴリーを選択しない場合、測定された共変量の係数をどのように推定しますか?

1
なぜ多くの問題があるときにPCAを使用するのですか?
(これは簡単な質問です)最近、主成分分析を学んでいますが、多くの問題があるようです: PCAを適用する前に、データをほぼ同じスケールに変換する必要がありますが、機能スケーリングの実行方法は指定されていません。標準化?ユニット長へのスケーリング?対数変換?Box-Cox変換?私はそれらのすべてが何らかの方法で機能すると信じていますが、それらはさまざまな質問に答えます。そして、問題が与えられたときの変化を理解することは重要です。 PCAを実行するには、固有値と固有ベクトルを計算する必要がありますが、固有ベクトルの符号は不明です。一見すると、SVDは異なる実装間で同じ結果をもたらすため、優れたソリューションである可能性があります。しかし、私が理解しているように、SVDの結果は、任意の、しかし再現可能な固有ベクトルの選択にすぎません。 主成分は変数の線形結合ですが、意味がありますか?つまり、サルの体温は単位が異なるため、尾の長さの10倍にはできません。(単位といえば、どちらの単位系を使うべきかということは、私の最初のポイントの別の側面です) 主成分を解釈しようとするとき、番目の要素上の番目の主成分の負荷(係数)、またはそれらの相関を検査する必要がありますか?レンチャー(1992)は、係数のみを見ることを推奨していますが、私の知る限り、この問題についてコンセンサスはありません。iiiyiyiy_ijjjXjXjX_jcorr(yi,Xj)corr(yi,Xj)\text{corr}(y_i, X_j) 要約すると、PCAはプロセス全体に多数の主観性とバイアスを導入するため、私には非常に未熟に見える統計的(または間違いなく数学的)メソッドです。それにもかかわらず、それは依然として最も広く使用されている多変量分析法の1つです。それはなぜです?私が提起した問題を人々はどのように克服しますか?彼らも気づいていますか? 参照: レンチャー、AC「正準判別関数、正準変量および主成分の解釈」アメリカ統計学者、46(1992)、217–225。

2
多変量時系列クラスタリング
多変量時系列のグループを収集しています。たとえば、2000の時系列があります。各時系列は12次元です。 多変量時系列をクラスター化できる体系的なモデル/アルゴリズムはありますか?たとえば、他とは非常に異なる時系列を特定したいと思います。 さらに、オンライン監視では、このアルゴリズムを時間どおりに実行する場合があります。たとえば、10分ごとに、この種のアルゴリズムを10分をカバーする時系列に対して実行します。これに関して効率的なアルゴリズムはありますか?

2
多変量バイナリ応答-回帰戦略に関するアドバイス
次の状況にどのように取り組むかについてアドバイスをいただければ幸いです:カウント変数Xと4つのバイナリ変数A、B、C、Dがあります。カウント変数は独立変数です(これは、小児期の有害な経験の数を指します)とバイナリは従属変数です(それらは成人期の特定の有害な結果を指します)。データセット内の回答者は、A、AC、BCDなどの結果の任意の組み合わせを持つことができます。カウント変数Xと結果のA、B、C、Dの間の関連の強さを測定します。他の結果。 これにどのように取り組むのが最善かわかりません。変数の役割を逆転させ、カウント変数Xを結果として、ADを予測子として扱うことは正当化されますか?したがって、これは負の二項回帰になります(過剰分散があります)。このようにして、XとA(B、C…)間の関連付けは、他のバイナリ変数を一定に保持して推定されます。しかし、私は、以前に起こったことと後で起こることを予測しているので、論理的にそれは危険だと思われます。 または、代わりにMANOVAを使用する必要があります(ただし、結果の解釈が簡単ではないことをどこかで読んだことがあります)。 または、https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2798811/で提案されているように、一般化された線形混合モデル(これまでに試したことがない)を使用する必要があります。

1
PCAで、2つの母集団の分離を最大化するために変数を削除する体系的な方法はありますか?
私は主成分分析を使用して、新しいデータポイントがどの母集団( "Aurignacian"または "Gravettian")からのものであるかを確信を持って推測できるかどうかを調査しています。データポイントは28の変数で記述され、そのほとんどは考古学上の人工物の相対的な頻度です。残りの変数は、他の変数の比率として計算されます。 すべての変数を使用して、母集団は部分的に分離されます(サブプロット(a))が、それらの分布にはまだ重複があります(90%のt分布予測楕円、母集団の正規分布を想定できるかどうかはわかりません)。したがって、新しいデータポイントの起源を確信を持って予測することは不可能だと思いました。 1つの変数(r-BE)を削除すると、対になったPCAプロットで母集団が分離されないため、オーバーラップがはるかに重要になります(サブプロット(d)、(e)、および(f))。1-2、3- 4、...、25-26、および1-27。これは、2つの母集団を分離するためにr-BEが不可欠であることを意味します。これらをまとめると、これらのPCAプロットはデータセット内の「情報」(分散)の100%を表すと考えたからです。 したがって、私は、ほんの一握りの変数を除いてすべてを削除した場合、母集団が実際にはほぼ完全に分離したことに気づいて、非常に驚​​きました。 すべての変数に対してPCAを実行すると、このパターンが表示されないのはなぜですか?28個の変数を使用すると、268,435,427通りの方法で変数をドロップできます。人口分離を最大化し、新しいデータポイントの起源の人口を推測するのに最適なものをどのように見つけることができますか?より一般的には、このような「隠された」パターンを見つける体系的な方法はありますか? 編集:アメーバのリクエストに従って、PCをスケーリングしたときのプロットを以下に示します。パターンはより明確です。(私は変数をノックアウトし続けることでいたずらであることを認識していますが、今回のパターンはr-BEのノックアウトに抵抗し、「非表示」パターンがスケーリングによってピックアップされることを意味します):

1
2つの多項分布の比較
背景:ピザを8つのスライスに切ったところを想像してみてください。 [ スライスの各直線エッジに、反対の極性を外側に向けた磁石を挿入します。これらのコンポーネントを分離して、ひっくり返さないようにして振ると、完全なピザになります。 ここで、追加のスライス(同じサイズ、フルピザの1/8)を入れても、フルピザが常に形成されるとは限りません。4&5、3&6、2&7および1&8のクラスターを形成できます。 モデル(Hosokawa et al。(1994)により提供)は、各クラスターが形成される確率を示します。モデルを検証するために、いくつかの物理実験を行います。実験条件ごとに20回試行しています。 私の結果は次のようになります: Cluster Theoretical Physical 3,6: 6.01961132827 4 1,8: 2.77455224377 5 4,5: 6.62198848501 5 2,7: 4.58384794294 6 上記のデータは多項分布です(ダイスを振ったときに得られる分布に似ています)。9つのスライスがある場合、各試行は4つの状態のいずれかで終了できます。 9スライスの実験に加えて、40スライス(およびその他いくつか)の実験のデータも持っています。(ここに含めたい場合はお知らせください) 問題:適合度をテストするために、ピアソンのカイ2乗検定を実行します。ただし、両方の分布の平均は「近い」ため、帰無仮説を棄却できません。ただし、帰無仮説も受け入れられません。 質問:モデルが物理実験にどの程度「近づく」かを示すより良い方法はありますか?「標準偏差」に相当する多項式、またはおそらく信頼区間?信頼区間のある回帰? 更新:私の同僚は、Rでの回帰分析のために次のアプローチを提案しました: d=read.csv("data.csv") length(unique(d$abs_state)) nrow(d) d$n_componentsf=as.factor(d$n_components) ncomps=9 dsubs=d[d$n_components==ncomps,] # using exact multinomial test in EMT (better) library(EMT) # using Chi square test statistics EMT::multinomial.test(dsubs$freq_obs, …

1
多変量回帰またはいくつかの回帰分析を使用する必要がありますか?
私はそれぞれ96変数を持つ45人の参加者のデータセットを持っています(ただし、一部の測定値はありません)。年齢や障害など、一部の変数は単純ですが、他の測定値は特定のテストのスコアです(たとえば、1つのテストの結果として5つの値がある)。私は5つのテストのデータを持っています。3つの異なる時点で与えられ、前述のとおり、テストごとに複数のスコアが時々あります。 データセットは非常に大きいので(参加者の数に対する特徴の量が与えられた場合)、以前のすべての結果(年齢、障害、同じ以前のテストのすべてのスコアなど)を前提として、テストのスコアを予測することにしました。つまり、これは基本的に、回帰を使用して45人の参加者で約10の特徴を与えて5つの特徴を予測したいということです(正確な係数、p値、R二乗測定値を表示したい)。 予測したい特徴のそれぞれに対して定期的な回帰を行うべきですか、それとも一度に予測したいすべての特徴に対して多変量回帰を使用すべきですか?違いはなんですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.