タグ付けされた質問 「standardization」

通常、データのシフトと再スケーリングを行って、平均値と単位分散がゼロであることを保証する「Z標準化」を指します。その他の「標準化」も可能です。

7
重回帰を実施する場合、予測変数をいつ中央に配置し、いつ標準化する必要がありますか?
いくつかの文献では、異なる単位の場合、複数の説明変数による回帰を標準化する必要があることを読みました。(標準化とは、平均値を減算し、標準偏差で除算することです。)他のどの場合にデータを標準化する必要がありますか?データを中央揃えするだけの場合(つまり、標準偏差で除算しない場合)がありますか?

5
正規化と標準化の違いは何ですか?
職場では、上司が正規化について聞いたことがないので、これについて議論していました。線形代数では、正規化はベクトルをその長さで除算することを指しているようです。また、統計では、標準化は平均を差し引いてからそのSDで割ることを指すようです。しかし、それらは他の可能性とも互換性があるようです。 ある種のユニバーサルスコアを作成するとき、それは異なるメトリックを構成します。これらは異なる手段と異なるSDを持ち、正規化しますか、標準化しますか。ある人は、各メトリックを取得し、それらをSDで個別に分割するだけの問題だと言った。次に、2つを合計します。そして、それは両方のメトリックを判断するために使用できる普遍的なスコアになります。222 たとえば、地下鉄に乗って仕事をする人の数(NYCの場合)と、車で仕事に行く人の数(NYCの場合)があるとします。 車⟶ yのTrain⟶xTrain⟶x\text{Train} \longrightarrow x Car⟶yCar⟶y\text{Car} \longrightarrow y 交通量の変動をすばやく報告するためにユニバーサルスコアを作成する場合、および追加することはできません。電車に乗る人が多くなるからです。NYCには800万人が住んでおり、さらに観光客もいます。車で毎日何十万人もの人々が電車に乗っている何百万人もの人々です。したがって、それらを比較するには、同様のスケールに変換する必要があります。平均(y )mean(x)mean(x)\text{mean}(x)mean(y)mean(y)\text{mean}(y) 場合mean(x)=8,000,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 およびmean(y)=800,000mean(y)=800,000\text{mean}(y) = 800,000 とを正規化し、合計しますか?とを標準化し、合計しますか?または、それぞれをそれぞれのSDで割り、合計しますか?変動するとき、合計のトラフィック変動を表す数値に到達するため。y x yxxxyyyxxxyyy 参考のために本の記事または章をいただければ幸いです。ありがとう! また、私がやろうとしていることの別の例もあります。 あなたが大学の学部長であり、入学要件について話し合っていると想像してください。少なくとも特定のGPAと特定のテストスコアを持つ学生が必要な場合があります。それらが両方とも同じ規模であれば、2つを加算して、「少なくとも7.0を持っている人なら誰でも認められる」と言うことができるのでいいでしょう。そうすることで、入学希望者が4.0 GPAを取得している場合、3.0のテストスコアを取得しても、入学することができます。逆に、3.0のGPAがあったとしても、4.0のテストスコアで入院することができます。 しかし、それはそうではありません。ACTは36ポイントスケールであり、ほとんどのGPAは4.0です(一部は4.3で、いらいらします)。ACTとGPAを追加して、ある種のユニバーサルスコアを取得することはできないため、それらを追加できるように変換して、ユニバーサルアドミッションスコアを作成するにはどうすればよいですか。そして、学部長として、特定のしきい値を超えるスコアを持つ人を自動的に受け入れることができました。または、スコアが上位95%以内にある全員を自動的に受け入れます。 それは正規化でしょうか?標準化?または、それぞれをSDで割ってから合計しますか?


3
モデルの検証前または検証内で機能の正規化を実行しますか?
機械学習の一般的なグッドプラクティスは、予測変数の特徴の正規化またはデータの標準化を行うことです。つまり、データを中心に減算し、平均値を分散(または標準偏差)で割って正規化します。自己封じ込めと私の理解のために、これを行って主に2つのことを達成します。 数値の安定性のために、余分な小さなモデルの重みを避けます。 共役勾配などの最適化アルゴリズムの迅速な収束を確保し、1つの予測子次元の大きさが他の予測子次元よりも大きい場合、収束が遅くならないようにします。 通常、データはトレーニング、検証、テストセットに分割されます。文献では、通常、特徴の正規化を行うには、予測変数のセット全体の平均と分散(または標準偏差)を使用することがわかります。ここで見た大きな欠点は、それを行うと、実際にはトレーニング予測変数に将来の情報、つまり平均と分散に含まれる将来の情報が導入されることです。 したがって、トレーニングデータの正規化を行い、平均と分散を保存します。次に、トレーニング平均と分散を使用して、検証およびテストデータセットの予測変数に特徴の正規化を適用します。これに根本的な欠陥はありますか?誰もがより良い代替案を推奨できますか?

1
予測が目標である場合、標準化/正規化をトレーニングおよびテストセットに適用する方法は?
すべてのデータまたはフォールド(CVが適用されている場合)を同時に変換しますか?例えば (allData - mean(allData)) / sd(allData) trainsetとtestsetを別々に変換しますか?例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) または、トレインセットを変換し、テストセットで計算を使用しますか?例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 3は正しい方法だと思います。3が正しい場合、平均が0でないこと、または範囲が[0;の間にないことを心配する必要があります。1]または[-1; 1]テストセットの(正規化)?

3
ロジスティック回帰をフィッティングする前に標準化が必要ですか?
私の質問は、ロジスティック回帰を当てはめる前に、すべての変数が[0,1]の間で同じスケールを持っていることを確認するためにデータセットを標準化する必要があるかどうかです。式は次のとおりです。 xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} 私のデータセットには2つの変数があり、2つのチャネルについて同じことを記述していますが、ボリュームは異なります。これは、2つの店舗での顧客の訪問数です。ここで、顧客が購入するかどうかを示します。顧客は両方の店、または最初の店を2回、2番目の店を1回訪れてから購入できます。しかし、1店舗目の顧客の合計訪問数は2店舗目の10倍です。標準化せずにこのロジスティック回帰に適合すると coef(store1)=37, coef(store2)=13、私はその後、データを標準化する場合coef(store1)=133, coef(store2)=11。このようなもの。どのアプローチがより理にかなっていますか? 決定木モデルをフィッティングしている場合はどうなりますか?モデル自体が何らかの形でモデルを調整するため、ツリー構造モデルは標準化を必要としません。しかし、すべての人に確認してください。

2
線形回帰で標準化された説明変数を使用するタイミングと方法
線形回帰について2つの簡単な質問があります。 説明変数を標準化することが推奨されるのはいつですか? 標準化された値で推定が実行されたら、新しい値でどのように予測できますか(新しい値を標準化する方法)。 いくつかの参考文献が役立ちます。

3
LASSOのインジケータ/バイナリ/ダミー予測子を再スケールするかどうか
LASSO(およびその他のモデル選択手順)の場合、予測変数を再スケーリングすることが重要です。一般的な 推奨 私が従うは 0平均、連続変数の1つの標準偏差正規化を使用するだけです。しかし、ダミーとどう関係があるのでしょうか? 例えば、私がリンクした同じ(優秀な)サマースクールのいくつかの応用例は、連続変数を0から1の間にスケールし直します(ただし、外れ値にはあまり適していません)。しかし、それでも係数が同じ桁であることを保証するものではなく、したがって同様にペナルティを課されることを保証しません。

2
Lassoの前の標準化は本当に必要ですか?
Lasso回帰などの前に変数を標準化する3つの主な理由を読みました。 1)係数の解釈可能性。 2)収縮後の係数推定値の相対的な大きさにより、係数の重要度をランク付けする機能。 3)傍受の必要はありません。 しかし、私は最も重要な点について疑問に思っています。標準化によってモデルのサンプル外の一般化が改善されると考える理由はありますか?また、モデルにインターセプトが必要ないかどうかは気にしません。追加しても問題はありません。


3
「正規化」とは何を意味し、サンプルまたは分布が正規化されていることを確認する方法は何ですか?
一様分布()が正規化されているかどうかを確認する質問があります。Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) 1つは、分布が正規化されるとはどういう意味ですか? 2つ目は、分布が正規化されているかどうかを確認する方法です。 X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} を計算 することで、正規化されたデータを取得することがわかりますが、ここでは、分布が正規化されているかどうかを確認しています。

2
リッジ回帰の標準化に関する質問
ねえ、私はリッジ回帰を使用する1つまたは2つの論文を見つけました(バスケットボールのデータ用)。リッジ回帰を実行した場合は常に変数を標準化するように言われましたが、リッジはスケールバリアントであるため、単にこれを行うように言われました(リッジ回帰は実際にはコースの一部ではなかったので、講師はそれをざっと読みました)。 私が読んだこれらの論文は変数を標準化していませんでした。また、クロスバリデーションによってラムダの値が大きくなり(2000〜4000レベル付近)、変数の標準化を行わなかったためだと言われました。 変数を標準化されていないままにしておくと、どのようにラムダ値が高くなりますか?また、一般的に変数を標準化しないとどうなりますか?それは本当にそんなに大したことですか? どんな助けも大歓迎です。

2
パネル/縦断データを使用して回帰分析でデータを標準化することをお勧めしますか?
一般に、係数を適切に比較するために、回帰の独立変数を標準化します(このように、それらは同じ単位:標準偏差を持ちます)。ただし、パネル/縦断データでは、特に階層モデルを推定する場合、データを標準化する方法がわかりません。 それが潜在的な問題になる理由を見るために、期間に沿って個人があり、従属変数と1つの独立変数を測定したと仮定します。。完全なプーリング回帰を実行する場合、次のようにデータを標準化しても構いません:、t-統計。一方、プールされていない回帰、つまり個人ごとに1つの回帰を当てはめる場合は、データセット全体(Rコード)ではなく、個人のみでデータを標準化する必要があります。i = 1 、… 、n私=1、…、ni = 1, \ldots, nt = 1 、… 、Tt=1、…、Tt=1,\ldots, Ty私、ty私、ty_{i,t}バツ私、tバツ私、tx_{i,t}x 。z= (x − 平均(x ))/ sd (x )バツ。z=(バツ−平均(バツ))/SD(バツ)x.z = (x- \text{mean}(x))/\text{sd}(x) for (i in 1:n) { for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,]) } ただし、個人によるさまざまな切片を持つ単純な階層モデルに適合する場合、収縮推定量を使用します。つまり、プール回帰と非プール回帰の間でモデルを推定します。データを標準化するにはどうすればよいですか?プールされた回帰のようにデータ全体を使用していますか?プールされていない場合のように、個人のみを使用していますか?

1
回帰におけるデータのセンタリングと標準化の必要性
いくつかの正則化を伴う線形回帰を考えてみましょう:例えばを最小化するを見つけますxxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 通常、Aの列は平均と単位ノルムがゼロになるように標準化され、は平均がゼロになるように中央揃えされます。標準化とセンタリングの理由についての私の理解が正しいかどうかを確認したいと思います。bbb と列の平均をゼロにすることにより、切片項はもう必要ありません。そうでなければ、目的はます。Aの列のノルムを1にすることにより、Aの1つの列が非常に高いノルムを持っているために係数が低くなり、その列が誤って結論付けられる可能性を排除します。 Aはxをうまく「説明」しません。AAAbbb||Ax−x01−b||2+λ||x||1||Ax−x01−b||2+λ||x||1||Ax-x_01-b||^2+\lambda||x||_1xxxxxx この推論は厳密ではありませんが、直感的には正しいと思いますか?

2
ランダムフォレストでは、入力変数をスケーリングまたは中央揃えする必要がありますか?
入力変数の次元は異なります。一部の変数は10進数ですが、一部の変数は数百です。ランダムフォレストを使用する場合、データを無次元化するために、これらの入力変数を中央に置く(平均を引く)か、スケーリング(標準偏差で除算)することが不可欠ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.