データサイエンス normalization

2

均一な初期化で通常の初期化（HeまたはGlorot）を使用する場合また、バッチ正規化の影響は何ですか？

Residual Network（ResNet）により、彼は通常の初期化が一般的になったことを知っていました。ResNetでは、He通常の初期化が使用されますが、最初の層はHeの初期化を使用します。 ResNetペーパーと「Delving Deep into Rectifiers」ペーパー（He初期化ペーパー）を調べましたが、通常の初期化と均一な初期化についての言及はありません。また：バッチ正規化により、はるかに高い学習率を使用でき、初期化にあまり注意を払う必要がなくなります。 Batch Normalization論文の要約では、Batch Normalizationを使用すると、初期化にあまり注意を払わなくて済むと言われています。 ResNet自体は、通常の初期化と均一な初期化のどちらを使用するか（均一な初期化ではなく）を常に考慮しています。そう：均一な初期化ではなく、（HeまたはGlorot）正規分布初期化を使用する場合バッチ正規化による正規分布初期化効果とは何ですか？脇のメモ： Batch Normalizationで通常のinitを使用することは韻を踏んでいますが、この事実を裏付ける論文は見つかりませんでした。 Resnetは、Glorot initよりもHe initを使用することを知っていました。なぜなら、彼はinitが深いネットワークでより良い結果をもたらすからです。 Glorot init対He initについて理解しました。私の質問は、Normal vs Uniform initについてです。

51 neural-network deep-learning normalization

1

論文：レイヤーの正規化、繰り返しバッチ正規化（2016）、およびバッチ正規化RNN（2015）の違いは何ですか？

そのため、最近、レイヤーの正規化に関する論文があります。Kerasにも実装されています。しかし、Recurrent Batch Normalization（Cooijmans、2016）とBatch Normalized Recurrent Neural Networks（Laurent、2015）というタイトルの論文があることを覚えています。これら3つの違いは何ですか？私が理解できないこの関連作業セクションがあります：以前、バッチ正規化はリカレントニューラルネットワークに拡張されていました[Laurent et al。、2015、Amodei et al。、2015、Cooijmans et al。、2016]。前の研究[Cooijmans et al。、2016]は、時間ステップごとに独立した正規化統計を保持することにより、反復バッチ正規化の最高のパフォーマンスが得られることを示唆しています。著者は、反復バッチ正規化レイヤーのゲインパラメーターを0.1に初期化すると、モデルの最終的なパフォーマンスに大きな違いが生じることを示しています。私たちの仕事は、重量の正規化にも関係しています[Salimans and Kingma、2016]。重み正規化では、分散の代わりに、着信重みのL2ノルムを使用して、加算された入力をニューロンに正規化します。。予想される統計を使用して重み正規化またはバッチ正規化を適用することは、元のフィードフォワードニューラルネットワークの異なるパラメーター化を持つことと同等です。ReLUネットワークでの再パラメーター化は、Pathnormalized SGDで研究されました[Neyshabur et al。、2015]。ただし、提案されているレイヤーの正規化方法は、元のニューラルネットワークの再パラメーター化ではありません。したがって、層の正規化モデルには、他の方法とは異なる不変性特性があります。これについては、次のセクションで説明します

30 deep-learning rnn normalization batch-normalization

1

経度/緯度機能を扱う方法[終了]

閉じた。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。この質問を改善したいですか？詳細を追加し、この投稿を編集して問題を明確にします。閉じた3年前。 25個の機能を持つ架空のデータセットに取り組んでいます。特徴の2つは場所の緯度と経度であり、その他はさまざまな範囲のpH値、標高、windSpeedなどです。他の機能で正規化を実行できますが、緯度/経度機能にどのようにアプローチしますか？編集：これは、農業の収量を予測する問題です。緯度/経度は非常に重要だと思います。ロケーションは予測に不可欠であるため、ジレンマになります。

18 machine-learning python feature-engineering feature-scaling normalization

4

符号付き整数の配列を0から1の範囲にスケーリングする方法は？

私は脳を使用して、正と負の両方の値を含む機能セットでニューラルネットワークをトレーニングしています。しかし、脳には0〜1の入力値が必要です。データを正規化する最良の方法は何ですか？

14 machine-learning neural-network feature-scaling normalization javascript

2

標準スケーラーを使用する場合とノーマライザを使用する場合

私は、標準的なスカラーが何をするのかとノーマはscikitドキュメントごとに、何をするかを理解する：ノーマ、標準スケーラーを。標準スケーラーがいつ適用されるか知っています。しかし、どのシナリオでノーマライザが適用されますか？一方が他方よりも優先されるシナリオはありますか？

12 python scikit-learn data-cleaning normalization

3

ゼロ平均と単位分散

私はデータスケーリング、特に標準化手法を研究しています。私はその背後にある数学を理解しましたが、特徴にゼロ平均と単位分散を与えることが重要である理由がはっきりしません。説明して頂けますか？

10 machine-learning feature-scaling normalization

2

ニューラルネットワークとディシジョンフォレストのデータを正規化する方法

20000サンプルのデータセットがあり、それぞれに12の異なる機能があります。各サンプルは、カテゴリ0または1のいずれかにあります。ニューラルネットワークと決定フォレストをトレーニングしてサンプルを分類し、結果と両方の手法を比較できるようにします。最初に遭遇したのは、データの適切な正規化です。一つの特徴は、範囲内にある、で別の[ 30 、40 ]、ほとんどが、私は異なるソースに読み取るように、入力データの適切な正規化を時々値8と7を取ることが一つの特徴がありますニューラルネットワークにとって重要です。私が知ったように、データを正規化する多くの可能な方法があります、例えば：[ 0 、106][0、106][0,10^6][ 30 、40 ][30、40][30,40] ミニマックス正規化：入力範囲は直線区間に変換され（または[ - 1 、1 ]、その問題していますか？）[ 0 、1 ][0、1][0,1][- 1 、1 ][−1、1][-1,1] Zスコアの正規化：データは平均がゼロで分散が単位に変換されます： yん E W= yo l d−意味するVar−−−√yんew=yold−平均Vary_{new}=\frac{y_{old}-\text{mean}}{\sqrt{\text{Var}}} どの正規化を選択する必要がありますか？意思決定フォレストにも正規化が必要ですか？Zスコアの正規化では、テストデータのさまざまな機能が同じ範囲内にありません。これは問題でしょうか？すべての機能を同じアルゴリズムで正規化して、すべての機能にMin-Maxを使用するか、すべての機能にZスコアを使用するかを決定する必要がありますか？データがマップされる組み合わせがあるまた、ゼロ平均（データの非線形変換を意味し、したがって分散の変化と入力データの他の特徴であろう）を有しているが。[ - 1 、1 ][−1、1][-1,1] これらの質問に答える参考文献が見つからないので、少し迷っています。

10 neural-network decision-trees normalization

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

入力データをゼロ平均に正規化し、単位分散が適切でない、または有益でない場合、どのような状況がありますか？

機械学習で、入力データの平均をゼロ平均、単位分散に何度も正規化しました。これは常に実行するのに良い方法ですか、それとも適切でない、または有益でない場合がありますか？

7 machine-learning feature-scaling normalization

5

格付けシステムによる反対投票者の影響の軽減

ユーザーが1つ星から5つ星のシステムで評価するサイトを持っています。アイテムがチャートの一番上に達すると、それがどこにあるかを取得するために4〜5つ星の過半数を得たとしても、一部のユーザーは1つ星の評価を開始する傾向があります。それは蔓延しているわけではありません、私は新しい投票の10-20％が1です。明らかに彼らは評価システムを操作しようとしているので、私はそれを防ぎたいのです。私が現在行っている方法は、正当な投票だと私が考えるものの「妥当なウィンドウ」を持つことです。投票数が10未満のアイテムの場合。私は現在何もせず、評価なので平均値をとります。アイテムの投票数が10を超えたら、平均値のウィンドウに結び付けます。このウィンドウは次のように定義されています Window = 4.5 - Log(TotalVotes, 10); したがって、妥当な投票範囲は (Mean - Window) thru (Mean + Window) 妥当な投票範囲が見つかると、「レーティング」はすべての妥当な投票（妥当な範囲に該当するもの）の平均にすぎません。これは、100票で4.2の真の平均値を持つアイテムがのウィンドウを持つことを意味します4.5-Log(100,10) = 2.5。したがって、そのアイテムが1つ星の票を獲得した場合、評価では無視されます。ただし、1つ星は基になる平均に影響します。これは一般的にはうまくMean - Windowいきましたが、問題は、アイテムが1.0の瀬戸際にあり、1つ星の投票ごとに1.0を下回るとすぐに評価に含まれ、前後の差でさえも大幅に低下することです。 1つ星の評価がもう1つあります。私はこれらの1つ星の評価をフィルターで除外するためのより良いシステム/方法を必要としていますが、それだけでなく、誰かが友達にアイテムを10票と5つ星すべてに賛成させ、その真の評価がもっと高い状況に対処する必要があります3つ星。ユーザー主導の評価システムを処理し、外れ値投票を正規化する方法の推奨事項を探します。

7 statistics normalization

タグ付けされた質問 「normalization」

タグ付けされた質問「normalization」