私はWeb開発者であり、初心者の統計学者です。
私のデータはこのようなものです
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
x1変数の積としてy1を予測しようとしています。ただし、y1に対する複数のx変数の影響に遅れがある可能性があると私は信じる理由があります。
すべての被験者が毎週データポイントを持っているわけではないことに注意してください(実際にはほとんどありません)。被験者は、1、2、3、4週目などのデータポイントを持ち、その後ドロップして7、8、9週目まで再び表示されない傾向があります。ラグに関する私の仮説を踏まえて、過去N週間のデータがあるデータポイントに分析を制限することをいとわない。
私が言ったように、私は初心者であり、この形式のデータセットを処理する最良の方法がわかりません。この分析をR、Python、またはこの2つの組み合わせで実行したいと思っています。今週のx変数は効果がないとは思いません。それらは、おそらく前の週よりも大きな効果があると思います。先週はある程度の効果があると思います。
2週間から3週間の遅れが予想されます。少し説明すると、私がここで試みている分析は、オンライントラフィックの品質を判断することに関するものです。毎週、特定のWebサイトに送信する特定のユーザーストリームの品質をスコアで評価します。ブラウザーの分布、重複したクリックアウトの割合などの二次的な指標を見つけようとしています。これにより、そのスコアが事前に何になるかを予測できます。