私の質問は、ロジスティック回帰を当てはめる前に、すべての変数が[0,1]の間で同じスケールを持っていることを確認するためにデータセットを標準化する必要があるかどうかです。式は次のとおりです。
私のデータセットには2つの変数があり、2つのチャネルについて同じことを記述していますが、ボリュームは異なります。これは、2つの店舗での顧客の訪問数です。ここで、顧客が購入するかどうかを示します。顧客は両方の店、または最初の店を2回、2番目の店を1回訪れてから購入できます。しかし、1店舗目の顧客の合計訪問数は2店舗目の10倍です。標準化せずにこのロジスティック回帰に適合すると coef(store1)=37, coef(store2)=13
、私はその後、データを標準化する場合coef(store1)=133, coef(store2)=11
。このようなもの。どのアプローチがより理にかなっていますか?
決定木モデルをフィッティングしている場合はどうなりますか?モデル自体が何らかの形でモデルを調整するため、ツリー構造モデルは標準化を必要としません。しかし、すべての人に確認してください。
C
変更を意味します。そのためC
、データを標準化した後に選択する必要があります。