タグ付けされた質問 「normalization」

通常「正規化」とは、データを再表現して、値を指定された範囲内に収めることを意味します。

6
データを0-1の範囲に正規化する方法は?
私はノーマライズに迷っています。誰でも私を案内してくれますか。 最小値と最大値、それぞれ-23.89と7.54990767があります。 5.6878の値を取得した場合、この値を0から1のスケールでスケーリングするにはどうすればよいですか。

5
正規化と標準化の違いは何ですか?
職場では、上司が正規化について聞いたことがないので、これについて議論していました。線形代数では、正規化はベクトルをその長さで除算することを指しているようです。また、統計では、標準化は平均を差し引いてからそのSDで割ることを指すようです。しかし、それらは他の可能性とも互換性があるようです。 ある種のユニバーサルスコアを作成するとき、それは異なるメトリックを構成します。これらは異なる手段と異なるSDを持ち、正規化しますか、標準化しますか。ある人は、各メトリックを取得し、それらをSDで個別に分割するだけの問題だと言った。次に、2つを合計します。そして、それは両方のメトリックを判断するために使用できる普遍的なスコアになります。222 たとえば、地下鉄に乗って仕事をする人の数(NYCの場合)と、車で仕事に行く人の数(NYCの場合)があるとします。 車⟶ yのTrain⟶xTrain⟶x\text{Train} \longrightarrow x Car⟶yCar⟶y\text{Car} \longrightarrow y 交通量の変動をすばやく報告するためにユニバーサルスコアを作成する場合、および追加することはできません。電車に乗る人が多くなるからです。NYCには800万人が住んでおり、さらに観光客もいます。車で毎日何十万人もの人々が電車に乗っている何百万人もの人々です。したがって、それらを比較するには、同様のスケールに変換する必要があります。平均(y )mean(x)mean(x)\text{mean}(x)mean(y)mean(y)\text{mean}(y) 場合mean(x)=8,000,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 およびmean(y)=800,000mean(y)=800,000\text{mean}(y) = 800,000 とを正規化し、合計しますか?とを標準化し、合計しますか?または、それぞれをそれぞれのSDで割り、合計しますか?変動するとき、合計のトラフィック変動を表す数値に到達するため。y x yxxxyyyxxxyyy 参考のために本の記事または章をいただければ幸いです。ありがとう! また、私がやろうとしていることの別の例もあります。 あなたが大学の学部長であり、入学要件について話し合っていると想像してください。少なくとも特定のGPAと特定のテストスコアを持つ学生が必要な場合があります。それらが両方とも同じ規模であれば、2つを加算して、「少なくとも7.0を持っている人なら誰でも認められる」と言うことができるのでいいでしょう。そうすることで、入学希望者が4.0 GPAを取得している場合、3.0のテストスコアを取得しても、入学することができます。逆に、3.0のGPAがあったとしても、4.0のテストスコアで入院することができます。 しかし、それはそうではありません。ACTは36ポイントスケールであり、ほとんどのGPAは4.0です(一部は4.3で、いらいらします)。ACTとGPAを追加して、ある種のユニバーサルスコアを取得することはできないため、それらを追加できるように変換して、ユニバーサルアドミッションスコアを作成するにはどうすればよいですか。そして、学部長として、特定のしきい値を超えるスコアを持つ人を自動的に受け入れることができました。または、スコアが上位95%以内にある全員を自動的に受け入れます。 それは正規化でしょうか?標準化?または、それぞれをSDで割ってから合計しますか?

6
ニューラルネットワークの適切な初期重みとは何ですか?
聞いたところでは、ニューラルネットワークの初期重みを範囲から選択するのは良い考えだと思います。ここでは特定のニューロンへの入力の数。セットは正規化されていると想定されます-平均0、分散1(これが重要かどうかわからない)。d(− 1d√、1d√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt d})ddd なぜこれが良い考えですか?

9
正規化と機能のスケーリングはどのようにそしてなぜ機能しますか?
多くの機械学習アルゴリズムは、平均相殺と共分散等化でより良く機能することがわかります。たとえば、ニューラルネットワークはより速く収束する傾向があり、K-Meansは通常、前処理された機能を使用してより良いクラスタリングを提供します。これらの前処理ステップの背後にある直感がパフォーマンスの向上につながるとは思いません。誰かがこれを私に説明できますか?

3
モデルの検証前または検証内で機能の正規化を実行しますか?
機械学習の一般的なグッドプラクティスは、予測変数の特徴の正規化またはデータの標準化を行うことです。つまり、データを中心に減算し、平均値を分散(または標準偏差)で割って正規化します。自己封じ込めと私の理解のために、これを行って主に2つのことを達成します。 数値の安定性のために、余分な小さなモデルの重みを避けます。 共役勾配などの最適化アルゴリズムの迅速な収束を確保し、1つの予測子次元の大きさが他の予測子次元よりも大きい場合、収束が遅くならないようにします。 通常、データはトレーニング、検証、テストセットに分割されます。文献では、通常、特徴の正規化を行うには、予測変数のセット全体の平均と分散(または標準偏差)を使用することがわかります。ここで見た大きな欠点は、それを行うと、実際にはトレーニング予測変数に将来の情報、つまり平均と分散に含まれる将来の情報が導入されることです。 したがって、トレーニングデータの正規化を行い、平均と分散を保存します。次に、トレーニング平均と分散を使用して、検証およびテストデータセットの予測変数に特徴の正規化を適用します。これに根本的な欠陥はありますか?誰もがより良い代替案を推奨できますか?

1
予測が目標である場合、標準化/正規化をトレーニングおよびテストセットに適用する方法は?
すべてのデータまたはフォールド(CVが適用されている場合)を同時に変換しますか?例えば (allData - mean(allData)) / sd(allData) trainsetとtestsetを別々に変換しますか?例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) または、トレインセットを変換し、テストセットで計算を使用しますか?例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 3は正しい方法だと思います。3が正しい場合、平均が0でないこと、または範囲が[0;の間にないことを心配する必要があります。1]または[-1; 1]テストセットの(正規化)?

4
正規化とスケーリング
データ「正規化」とデータ「スケーリング」の違いは何ですか?今まで、両方の用語が同じプロセスを指していると思っていましたが、今では、私が知らない/理解していないものがあることに気付きました。また、正規化とスケーリングに違いがある場合、スケーリングではなく正規化をいつ使用する必要がありますか? 例を挙げて詳しく説明してください。




8
無制限の変数を0から1の間の数で表す方法
変数を0から1の間の数として表現したい。変数は固有の境界のない非負の整数です。0から0にマッピングしますが、1または0から1の間の数値に何をマッピングできますか? その変数の履歴を使用して制限を提供できます。これは、最大値が増加した場合、古い統計を再度説明する必要があることを意味します。これを行う必要がありますか、または他に知っておくべきトリックがありますか?

2
Lassoの前の標準化は本当に必要ですか?
Lasso回帰などの前に変数を標準化する3つの主な理由を読みました。 1)係数の解釈可能性。 2)収縮後の係数推定値の相対的な大きさにより、係数の重要度をランク付けする機能。 3)傍受の必要はありません。 しかし、私は最も重要な点について疑問に思っています。標準化によってモデルのサンプル外の一般化が改善されると考える理由はありますか?また、モデルにインターセプトが必要ないかどうかは気にしません。追加しても問題はありません。

2
コサイン類似度はl2正規化ユークリッド距離と同一ですか?
同一の意味。ベクトルuとベクトルVのセット間の類似度ランキングで同一の結果を生成します。 パラメータとして距離測度(ユークリッド距離、コサイン類似度)および正規化手法(なし、l1、l2)を持つベクトル空間モデルがあります。私の理解では、設定[cosine、none]の結果は[euclidean、l2]と同じか、少なくとも実際には似ているはずですが、そうではありません。 実際には、システムにまだバグがある可能性が十分にあります。または、ベクターに関して重大な問題がありますか? 編集:ベクトルはコーパス内のドキュメントの単語数に基づいていることを忘れていました。クエリドキュメント(ワードカウントベクトルで変換する)が与えられた場合、コーパスから最も類似したドキュメントを見つけたいと思います。 それらのユークリッド距離を計算することは簡単な測定ですが、私が取り組んでいる種類のタスクでは、長さのみが異なるベクトルは依然として等しいと見なされるため、コサイン類似度が類似度インジケータとしてしばしば好まれます。距離/コサインの類似性が最小のドキュメントが最も類似していると見なされます。

5
バイナリ変数を標準化する必要がありますか?
一連の機能を備えたデータセットがあります。それらのいくつかはバイナリアクティブまたは起動、(1=(1=(1=0=0=0=非アクティブまたは休止)であり、残りはなどの実際の値。4564.3424564.3424564.342 私は私、機械学習アルゴリズムには、このデータを送りたいのすべての実数値の特徴-score。私はそれらを範囲と間で取得します。現在、バイナリ値もスコア化されているため、ゼロはなり、1はなり。zzz333−2−2-2zzz−0.222−0.222-0.2220.55550.55550.5555 このようなバイナリ変数の標準化は意味がありますか?

1
行と列の長さに制約があるランダム行列
行と列、平均= 0でランダムに分布し、各行の長さ(L2ノルム)がで各列の長さがように制約された要素を持つランダムな非正方行列を生成する必要があります。同様に、平方値の合計は各行で1、各列でです。RRR1 √CCC111 RRC−−√RC\sqrt{\frac{R}{C}}RCRC\frac{R}{C} これまでのところ、これを達成する方法の1つを見つけました。単純に行列要素をランダムに初期化し(たとえば、平均、任意分散がゼロの均一分布、正規分布、またはラプラス分布から)、次に行と列を交互に正規化します、行の正規化で終わる。これは、目的の結果にかなり迅速に収束するようです(たとえば、および場合、列の長さの分散は、回の反復後、通常です)が、この高速収束率に依存できるかどうかはわかりません一般的に(さまざまなマトリックス次元と初期要素分布用)。R = 40 C = 80 0.00001 2l e n g t h =1length=1{\rm length} = 1R = 40R=40R=40C= 80C=80C=80 0.00001 0.00001~0.00001222 私の質問はこれです:目的の結果(、)を直接反復することなく達成する方法はあり行/列の正規化?たとえば、ランダムなベクトルを正規化するアルゴリズムのようなもの(要素をランダムに初期化し、二乗和の値を測定し、共通のスカラーで各要素をスケーリングします)。そうでない場合、上記の反復法の収束率(たとえば、エラーまでのnum回の繰り返し)の簡単な特性評価はありますか?c o l u m n l e n g t h s = √R O のw l e n g t h s …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.