タグ付けされた質問 「compositional-data」

3
等尺性の対数比変換を実行する方法
移動行動(睡眠、座りがち、および身体活動の実行に費やした時間)に関するデータがあり、合計は約24時間(1日あたりの時間)です。これらの各動作に費やされた相対的な時間をキャプチャする変数を作成します-等尺性のログ比変換がこれを達成すると言われました。 Rでilr関数を使用する必要があるように見えますが、コードで実際の例を見つけることができません。どこから始めますか? 私が持っている変数は、睡眠時間、平均座りがちな時間、平均的な軽い身体活動、平均的な中程度の身体活動、平均的な激しい身体活動です。睡眠は自己申告でしたが、その他は有効な加速度計データの平均です。したがって、これらの変数の場合、ケースの合計は正確に24にはなりません。 私の推測:私はSASで働いていますが、このパートではRの方がはるかに使いやすいようです。そのため、最初に目的の変数のみを含むデータをインポートします。次に、acomp()関数を使用します。すると、ilr()関数の構文がわかりません。どんな助けでも大歓迎です。

1
確率シンプレックスのいくつかの分布は何ですか?
ましょう次元の確率単純である、すなわち、ようであると。 K - 1 のx ∈ Δ K X I ≥ 0 Σ I X 、I = 1△KΔK\Delta_{K}K− 1K−1K-1X ∈ ΔKx∈ΔKx \in \Delta_{K}バツ私≥ 0xi≥0x_i \ge 0∑私バツ私= 1∑私バツ私=1\sum_i x_i = 1 介して頻繁に(またはよく知られている、または過去に定義された)分布は何ですか?△K△K\Delta_{K} 明らかに、ディリクレ分布とロジット正規分布があります。この文脈で自然に出てくる他の分布はありますか?

2
CLR(集中ログ比変換)を使用してPCAのデータを準備できますか?
スクリプトを使用しています。コアレコード用です。特定の深さ(最初の列)の列に異なる元素組成を示すデータフレームがあります。PCAを実行したいのですが、選択しなければならない標準化方法について混乱しています。 あなたの誰もがのclr()ためにあなたのデータを準備するために使用しましたprcomp()か?または、ソリューションを悪化させますか。で属性スケールをclr()使用するprcomp()ことに加えて、関数を使用する前にデータのon を使用してみましたprcomp()。 data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html スケールはデータをスケーリングするために記述されているため、単位分散があります。私のデータは私が望んでいたものとは非常に異なるスケールを持っているので、私は思う。問題は、上記のコードを使用するとき、またはスキップするときclr()(より望ましい結果が得られる)、別のソリューションを受け取ることです。しかし、私はなぜclr()その場合に邪魔なのか知りたいですか?

3
kmeansを実行する前に、相関/共線の変数を削除する必要がありますか?
顧客のクラスターを識別するためにkmeansを実行しています。クラスターを識別する変数は約100個あります。これらの各変数は、カテゴリに対する顧客の支出の割合を表します。そのため、100個のカテゴリがある場合、これらの変数の合計が各顧客に対して100%になるように、これらの100個の変数があります。現在、これらの変数は互いに強く相関しています。kmeansを実行する前に、これらのいくつかをドロップして共線性を除去する必要がありますか? サンプルデータは次のとおりです。実際には、100個の変数と1,000万人の顧客がいます。 Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

2
非常に歪んだカウントデータのクラスタリング:実行するための提案(変換など)?
基本的な問題 これが私の基本的な問題です。非常にゆがんだ変数とカウントを含むデータセットをクラスター化しようとしています。変数には多くのゼロが含まれているため、私のクラスタリング手順(K平均アルゴリズムの可能性が高い)ではあまり情報がありません。 細かいことは、平方根、ボックスコックス、または対数を使用して変数を変換するだけです。しかし、私の変数はカテゴリー変数に基づいているので、(カテゴリー変数の1つの値に基づいて)変数を処理し、他の変数(カテゴリー変数の他の値に基づいて)をそのままにして、バイアスを導入するのではないかと心配しています。 。 もう少し詳しく見ていきましょう。 データセット 私のデータセットはアイテムの購入を表します。アイテムには、たとえば色:青、赤、緑など、さまざまなカテゴリがあります。購入は、たとえば顧客ごとにグループ化されます。これらの各顧客は、データセットの1行で表されるため、顧客に対する購入を何らかの方法で集計する必要があります。 私がこれを行う方法は、アイテムが特定の色である購入の数を数えることです。だからではなく、単一の変数のcolor、私は三つの変数で終わるcount_red、count_blueとcount_green。 以下に例を示します。 ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 | …

4
コミュニティの構成を比較するためのテストは何ですか?
この初心者の質問がこのサイトの正しい質問であることを願っています: 2つのサイトA、Bの生態系コミュニティの構成を比較したいとします。3つのサイトすべてに犬、猫、牛、鳥がいることを知っているので、各サイトでその存在量をサンプリングします(実際には「各サイトの各動物の予想される存在量)。 たとえば、各サイトで各動物の5匹を数えると、AとBは非常に「類似」しています(実際、それらは「同じ」です)。 しかし、サイトAで100匹の犬、5匹の猫、2頭の牛、および3羽の鳥を見つけた場合、サイトBで5匹の犬、3匹の猫、75頭の牛、および2羽の鳥を見つけます。サイトAとBは「異なる」と言えます。 、彼らは正確に同じ種の組成を持っているにもかかわらず。 (私はSorensenとBray-Curtisのインデックスを読みましたが、それらは犬や猫などの不在/存在のみを考慮し、それらの存在量は考慮していないようです。) これを決定する統計的検定はありますか?


1
時系列予測の問題
Rでの時系列のモデリングについて質問を受けました。私のデータは次のマトリックスで構成されています。 1 0.03333333 0.01111111 0.9555556 2 0.03810624 0.02309469 0.9387991 3 0.00000000 0.03846154 0.9615385 4 0.03776683 0.03119869 0.9310345 5 0.06606607 0.01201201 0.9219219 6 0.03900325 0.02058505 0.9404117 7 0.03125000 0.01562500 0.9531250 8 0.00000000 0.00000000 1.0000000 9 0.04927885 0.01802885 0.9326923 10 0.06106870 0.02290076 0.9160305 11 0.03846154 0.00000000 0.9615385 12 0.00000000 0.00000000 1.0000000 13 …

3
等尺性対数比変換が、組成データを使用して、加算(alr)または中央(clr)よりも好ましいのはなぜですか?
国勢調査データを使用して対数比変換を使用して、構成データの線形回帰を行っています。IVは構成的です(パーセントの合計は100)。DVは非構成的かつ連続的です。 alrとclrの結果は、より簡単に解釈されます。それらはすべて同じ適合度を生成します。私はalr(またはclr)を使用する傾向があります。Aitchisonはilrを「純粋な数学」アプローチとして特徴付けていますが、私の聴衆は統計学者や数学者ではありません。 私の目的が分析からの洞察を伝えることだけである場合、なぜilr(天びんあり)の解釈がはるかに難しいアプローチを採用する必要があるのですか? 私は、Aitchison、Juan Jose Egozcue、Vera Pawlosky-Glahnによる研究の山を読みましたが、議論するつもりはありません。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.