タグ付けされた質問 「centering」

センタリングでは、元のスコアからサンプル全体の平均スコアを差し引きます。標準化は同じことを行い、続いてサンプル全体の標準偏差で除算します。

7
重回帰を実施する場合、予測変数をいつ中央に配置し、いつ標準化する必要がありますか?
いくつかの文献では、異なる単位の場合、複数の説明変数による回帰を標準化する必要があることを読みました。(標準化とは、平均値を減算し、標準偏差で除算することです。)他のどの場合にデータを標準化する必要がありますか?データを中央揃えするだけの場合(つまり、標準偏差で除算しない場合)がありますか?

1
データのセンタリングは、回帰およびPCAでインターセプトをどのように取り除きますか?
インターセプトを削除するために、データを中央に配置するインスタンス(正則化またはPCAなど)について読み続けます(この質問で述べたように)。私はそれが簡単であることを知っていますが、私はこれを直感的に理解するのに苦労しています。誰かが私が読むことができる直観または参照を提供できますか?

1
センタリングはPCAにどのように違いをもたらしますか(SVDおよび固有分解の場合)?
データのセンタリング(または軽for)はPCAに対してどのような違いがありますか?数学が簡単になる、または最初のPCが変数の手段に支配されるのを防ぐと聞いたことがありますが、まだ概念をしっかりと把握できていないように感じます。 たとえば、ここで一番の答えは、どのようにデータをセンタリングすることで、回帰とPCAのインターセプトを取り除きますか?センタリングしないと、点群の主軸ではなく、原点を介して最初のPCAがどのように引き出されるかを説明します。PCが共分散行列の固有ベクトルからどのように取得されるかについての私の理解に基づいて、私はこれがなぜ起こるのか理解できません。 さらに、センタリングがある場合とない場合の私自身の計算はほとんど意味がないようです。 irisR のデータセットのsetosa花について考えます。サンプルの共分散行列の固有ベクトルと固有値を次のように計算しました。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 最初にデータセットを中央に配置すると、まったく同じ結果が得られます。センタリングは共分散行列をまったく変更しないため、これは非常に明白なようです。 df.centered <- scale(df,scale=F,center=T) e.centered<- …
30 r  pca  svd  eigenvalues  centering 

3
なぜ独立変数を中央揃えすると、節度によって主効果が変わるのでしょうか?
このCVスレッドに触発された重回帰と相互作用に関連する質問があります:中心変数階層回帰分析を使用した相互作用項?どの変数を中心にすべきか? 節度効果を確認するとき、相互作用項を計算するために、独立変数を中央に配置し、中央に配置した変数を乗算します。次に、回帰分析を実行し、主効果と相互作用効果を確認します。 センタリングせずに分析をやり直した場合、明らかに決定係数()は変わりませんが、回帰係数()は変わります。それは明確で論理的なようです。R2R2R^2ββ\beta 理解できないこと:主効果のp値はセンタリングによって大幅に変化しますが、相互作用はそうではありません(正しい)。したがって、私の主な効果の解釈は劇的に変わる可能性があります-センタリングによって決定されるだけです。(両方の分析で同じデータです!) 誰かが明らかにできますか?-それは、変数を中央に配置するオプションが必須であり、誰もが同じデータで同じ結果を得るためにそれを行う必要があることを意味するためです。 その問題と包括的な説明を配布してくれてありがとう。あなたの助けが非常に高く評価されることを保証してください! 私にとって、センタリングの最大の利点は、多重共線性を回避することです。中央に配置するかどうかに関係なく、ルールを確立することは依然としてかなり混乱しています。私の印象では、ほとんどのリソースが集中することを示唆していますが、それを行う際に「リスク」がいくつかあります。繰り返しますが、同じ資料とデータを扱う2人の研究者が異なる結果を結論付ける可能性があるという事実を出したいと思います。私はちょうどボルツの本の一部を読みました(彼は教授であり、ドイツとヨーロッパの統計スターの一種でした)。彼はその手法についても言及していません。変数が相互作用に関与している場合、変数の主な効果を解釈する際には注意が必要であると指摘しています。 結局、1つのIV、1つのモデレーター(または2番目のIV)、およびDVを使用して回帰を実行する場合、中央に配置することをお勧めしますか?

2
ランダムフォレストでは、入力変数をスケーリングまたは中央揃えする必要がありますか?
入力変数の次元は異なります。一部の変数は10進数ですが、一部の変数は数百です。ランダムフォレストを使用する場合、データを無次元化するために、これらの入力変数を中央に置く(平均を引く)か、スケーリング(標準偏差で除算)することが不可欠ですか?

3
ダミー変数のセンタリングとスケーリング
カテゴリ変数と連続変数の両方を含むデータセットがあります。カテゴリ変数を各レベルのバイナリ変数(A_level1:{0,1}、A_level2:{0,1}など)に変換することをお勧めしました-一部の人はこれを「ダミー変数」と呼んでいると思います。 そうは言っても、新しい変数を使用してデータセット全体を中央に配置してスケーリングするのは誤解を招くでしょうか?変数の「オン/オフ」の意味を失うかのようです。 誤解を招く場合、それは連続変数を個別に中央揃えおよびスケーリングし、それをデータセットに再度追加する必要があることを意味しますか? TIA。

1
サンプルのブートストラップ時にセンタリングが必要ですか?
サンプル平均の分布を近似する方法について読んでいると、ノンパラメトリックブートストラップ法に出くわしました。明らかに一つの分布近似することができるの分布によってˉ X * N - ˉ X N、ˉ X * nは、ブートストラップサンプルのサンプルの平均を意味します。X¯n−μX¯n−μ\bar{X}_n-\muX¯∗n−X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯∗nX¯n∗\bar{X}_n^* 私の質問は、「センタリングが必要ですか?」です。何のために? 私だけでおおよそのことができませんでしたによるP (ˉ X * N ≤ X )?P(X¯n≤x)P(X¯n≤x)\mathbb{P}\left(\bar{X}_n \leq x\right)P(X¯∗n≤x)P(X¯n∗≤x)\mathbb{P}\left(\bar{X}_n^* \leq x\right)

1
標準化されたベータを元の変数に戻す
これはおそらく非常に単純な質問だと思いますが、検索した後、探している答えが見つかりません。 ベータのリッジ推定値を計算するために変数を標準化する必要がある(リッジ回帰)必要があるという問題があります。 次に、これらを元の変数スケールに戻す必要があります。 しかし、どうすればよいですか? 私は二変量のケースの式を見つけました β∗=β^SxSy.β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. これは、D。グジャラート語、Basic Econometrics、175ページ、式(6.3.8)で与えられました。 ここで、は標準化された変数で実行された回帰からの推定量であり、は同じ推定量を元のスケールに変換して戻し、はの標本標準偏差、は標本標準偏差です。* β S 、Y S 、Xβ∗β∗\beta^*β^β^\hat\betaSySyS_ySxSxS_x 残念ながら、この本では、重回帰の類似の結果については説明していません。 また、私は二変量のケースを理解しているのかわかりませんか?単純な代数操作により、元のスケールでの式が得られます。β^β^\hat\beta β^=β∗SySxβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 既にによってデフレートされている変数で計算されたが、再度変換するためにによってデフレートするますか?(さらに、平均値が追加されないのはなぜですか?) SXSXβ^β^\hat\betaSxSxS_xSxSxS_x では、結果を理解できるように、多変量のケースでこれをどのように導関数を使用して理想的に説明することができますか?

1
標準化されたVS中心変数
stats.stackexchange.comで、標準化された独立変数と中心化された独立変数に関する多くの役立つ投稿を見つけましたが、それでも少し混乱しています。私が理解したことの評価をお願いします。また、以下が正しくない場合は、訂正していただけませんか。 標準化する方法。標準化された変数は、変数の平均を減算し、その同じ変数の標準偏差で割ることによって取得されます。 センタリングする方法。中央に配置された独立変数は、変数の平均を引くだけで得られます。 標準化する理由。変数を標準化して、回帰の変数の測定単位が異なる場合に推定係数の解釈を容易にします。標準化する場合は、回帰のすべての変数を標準化する必要があります。これは、定数(つまり、B0または切片)の推定値を取得できないことを意味します。 センタリングの理由。推定された定数の意味のある解釈を得たい場合は、変数を中央揃えにします。この場合、必要な変数の量を中央揃えにすることができます。すべての独立変数をモデルの中央に配置する必要はありません。 独立変数Y.(単純な質問)Yを中央揃えまたは標準化したことはありますか? 自然対数の利用。1つ以上の変数が正規分布していない場合は、自然対数を使用して変数を変換できます。この変換の後でのみ、すべての変数を標準化するか、中央に配置する必要がある変数を中央に配置できます。一般に、標準化またはセンタリングの前に変数の変換を行う必要があります(ここでは自然対数について説明しますが、変数を2乗したり、別の変数で除算したりできます(たとえば、population / km2)。 解釈係数標準化変数。「X1の標準偏差が1増加すると、Yが-number-増加または減少します。」 解釈係数中心の変数。確率変数の係数:「X1の平均から-number-の増加は、Yを-number-だけ増加(または減少)させます。」定数:「非中心の変数がゼロで、中心の変数がそれらの平均にあるとき、それはYの期待値を表します。」 相互作用の用語。相互作用項の係数の解釈は、変数を標準化したか、またはそれらを中央に配置したか(相互作用の1つの変数のみ、または両方)のどちらでも問題になりません。基本的に、解釈は通常、相互作用項に与えるものです(たとえば、Yに対するX1の効果に興味があり、X1はX2と相互作用します。X1の全体の効果は、その係数+相互作用の係数によって与えられます。 X2が修正された場合の用語)、行った変換のタイプに応じて、ポイント7または8の後に続く解釈をコンテキスト化することを忘れないでください。

3
とを回帰に含める方法、およびそれらを中央に配置するかどうか
私は長期含めるとその広場、私は低い値と仮定しているため回帰に(予測変数)を従属変数にプラスの効果を有し、高い値が負の効果を持ちます。高い値の影響を捉える必要があります。したがって、の係数は正になり、係数は負になると思います。ほかに、他の予測変数も含めます。x 2 x x 2 x x 2 xxxxx2x2x^2xxxx2x2x^2xxxx2x2x^2xxx 私はここでいくつかの投稿を読みましたが、多重共線性を回避するために、この場合は変数を中央に配置することをお勧めします。 重回帰を実行するとき、いつ予測変数を中心に置く必要があり、いつ標準化する必要がありますか? 両方の変数を別々に(平均で)中央揃えする必要がありますか、それとものみを中央から正方形をとるか、またはのみを中央て元のを含める必要がありますか?x 2 xxxxx2x2x^2xxx がカウント変数である場合、それは問題ですか?xxx がカウント変数になるのを避けるために、理論的に定義された面積、たとえば5平方キロメートルで除算することを考えました。これは、点密度の計算に少し似ているはずです。xxx ただし、この状況では、およびx²= 4の場合のように、係数の符号に関する私の最初の仮定はもう成り立たないと思います。x=2x=2x=2x²=4x²=4x²=4 x=2/5 km2x=2/5 km2x= 2 / 5 \text{ km}^2 = 0.4 km20.4 km20.4 \text{ km}^2 ただし、x ^ 2 =(2/5)^ 2 = 0.16であるため、x2x2x^2は小さくなり ます。x2=(2/5)2=0.16x2=(2/5)2=0.16x^2= (2/5)^2= 0.16

1
中心変数の階層回帰分析を使用した相互作用項?どの変数を中心にすべきですか?
私は階層回帰分析を実行していますが、少し疑問があります: 中心に置かれた変数を使用して交互作用項を計算しますか? 従属変数を除いて、データセットにあるすべての連続変数を中央に配置する必要がありますか? いくつかの変数をログに記録する必要がある場合(それらのsdは平均よりもはるかに高いため)、次に、記録されたばかりの変数または最初の変数を中央に配置しますか? 例:変数 "ターンオーバー" --->ログされたターンオーバー(sdが平均と比較して高すぎるため)---> Centered_Turnover? または、直接ターンオーバー-> Centered_Turnoverになります(そして、これを使用します) ありがとう!!

6
Rで変数をグループ化/標準化する方法は?
ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 私は精通してる機能は、スケールをベースRから再スケール ARMから。 おそらく、最良の方法は、グループ化変数として使用する1つ以上の変数を指定して、applyのバリアントを使用することです。

2
それらの変数との相互作用も含めるときに、線形および二次の項を含める方法は?
カテゴリカル予測子とそれらの交互作用を持つ数値予測子を追加する場合、通常、事前に変数を0に集中させる必要があると考えられています。推論は、主な効果が0の数値予測子で評価されるため、他の方法では解釈が難しいためです。 私の質問は、元の数値変数(線形項として)だけでなく、この変数の2次項も含める場合、どのように中心に置くかです。ここでは、2つの異なるアプローチが必要です。 両方の変数をそれぞれの平均値に集中させます。これには、元の変数を考慮して、両方の変数の0が異なる位置にあるという不幸な欠点があります。 両方の変数を元の変数の平均に合わせます(つまり、線形項の元の変数から平均を減算し、2次項から元の変数の平均の2乗を減算します)。このアプローチでは、0は元の変数と同じ値を表しますが、2次変数は0を中心としていません(つまり、変数の平均は0ではありません)。 結局のところセンタリングの理由を考えると、アプローチ2は合理的だと思います。しかし、私はそれについて何も見つけることができません(関連する質問にもありません:aおよびb)。 または、線形項と二次項、およびモデル内の他の変数との相互作用を含めることは、一般的に悪い考えですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.