合計が1になる複数の比率を含むデータセットがあります。勾配に沿ったこれらの比率の変更に興味があります(データの例については以下を参照)。
gradient <- 1:99
A1 <- gradient * 0.005
A2 <- gradient * 0.004
A3 <- 1 - (A1 + A2)
df <- data.frame(gradient = gradient,
A1 = A1,
A2 = A2,
A3 = A3)
require(ggplot2)
require(reshape2)
dfm <- melt(df, id = "gradient")
ggplot(dfm, aes(x = gradient, y = value, fill = variable)) +
geom_area()
追加情報: 必ずしも線形である必要はありません。例の簡単さのためにこれを行いました。これらの比率を計算する元のカウントも利用できます。実際のデータセットには、最大1個の変数(B1、B2およびB3、C1からC4など)が追加されているため、多変量ソリューションのヒントも役立ちます。しかし、今のところは単変量に固執します統計の側面。
質問: このような種類のデータを分析するにはどうすればよいですか?少し読みましたが、おそらく多項モデルまたはGLMが適していますか?-3(または2)glmsを実行する場合、予測値の合計が1になるという制約をどのように組み込むことができますか?そのような種類のデータだけをプロットするのではなく、分析のようなより深い回帰を行いたいです。Rを使用したい-Rでこれを行うにはどうすればよいですか?
proprcspline
のStataでは、あなたは(私はあなたが使用したい知って探しているものかもしれませんR
が、多分これは、開始時点することができる):proprcsplineは、制限されたキュービックスプラインがyvar与えXVARの各カテゴリでの観測の割合の円滑計算し、積み上げ面積プロットとしてグラフ化します。オプションで、これらの平滑化された比率は、制御変数(cvar)のセットに対して調整できます。