タグ付けされた質問 「normalization」

通常「正規化」とは、データを再表現して、値を指定された範囲内に収めることを意味します。

4
行の正規化の目的は何ですか
列の正規化の背後にある理由を理解します。これは、同じスケールで測定されていなくてもフィーチャに均等に重み付けされるためです。ただし、最近接文献では、列と行の両方が正規化されていることがよくあります。行の正規化とは何ですか?なぜ正規化するのですか?具体的には、行の正規化の結果は行ベクトル間の類似性/距離にどのように影響しますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

4
確率行列のスパース性を誘発する正則化
L1L1L_1AAAb⃗ b→\vec{b}fA,b⃗ (x⃗ )=∥Ax⃗ −b⃗ ∥22+λ∥x⃗ ∥1fA,b→(x→)=‖Ax→−b→‖22+λ‖x→‖1f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1λ>0λ>0\lambda>0AAAb⃗ b→\vec{b}λλ\lambdax⃗ x→\vec{x} ただし、エントリが正で合計がになるという条件に従ってを最小化すると、項は効果がありません( by fiat)。結果のがスパースであることを促進するためにこの場合に機能する類似のタイプの正規化はありますか?fA,b⃗ fA,b→f_{A,\vec{b}}x⃗ x→\vec{x}111L1L1L_1∥x⃗ ∥1=1‖x→‖1=1\|\vec{x}\|_1=1L1L1L_1x⃗ x→\vec{x}

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
KNNでどのタイプのデータ正規化を使用する必要がありますか?
正規化には2種類以上あることを知っています。 例えば、 1- zスコアまたはtスコアを使用してデータを変換します。これは通常、標準化と呼ばれます。 2- 0と1の間の値を持つようにデータを再スケーリングします。 正規化が必要かどうかの質問 KNNでどのタイプのデータ正規化を使用する必要がありますか?なぜ?


1
ReLUニューロンの入力正規化
LeCun et al(1998)による「Efficient Backprop」によれば、すべての入力が0を中心とし、最大2次導関数の範囲内になるように正規化することをお勧めします。たとえば、「Tanh」関数には[-0.5,0.5]を使用します。これは、ヘッセ行列がより安定したときの逆伝播の進行を助けるためです。 しかし、max(0、x)である整流器ニューロンをどうするかわかりませんでした。(それ以降、ロジスティック関数でも[0.1,0.9]のようなものが必要になりますが、0を中心としていません)

1
LDAを前処理ステップとして使用する場合の機能の標準化
次元削減(またはPCAによる次元削減後の変換)にマルチクラス線形判別分析(または、多重判別分析をときどき読む)を使用する場合、一般的に、完全に異なるスケールで測定されていても、機能は必要ありませんよね?LDAには、すでに正規化されたユークリッド距離を意味するマハラノビス距離に類似した用語が含まれているためですか? したがって、それは必要ではないだけでなく、標準化された機能と標準化されていない機能のLDA後の結果はまったく同じになるはずです!?

2
データの正規化に関連する混乱
私は線形回帰モデルを学ぼうとしています。ただし、データの正規化に関して混乱しています。特徴/予測子をゼロ平均および単位分散に正規化しました。ターゲットについても同じようにする必要がありますか?もしそうなら、なぜですか?

1
動的タイムワーピングと正規化
私は動的時間ワーピングを使用して「クエリ」と「テンプレート」の曲線を一致させ、これまでのところ妥当な成功を収めていますが、いくつかの基本的な質問があります。 DTWの結果がヒューリスティックに思いついたあるしきい値よりも小さいかどうかを評価することで、「一致」を評価しています。これは、DTWを使用して「一致」を決定するための一般的なアプローチですか?そうでない場合は、説明してください... (1)の答えが「はい」であるとすると、DTWの結果はa)曲線の振幅の違いとb)クエリベクトルの長さと "テンプレート」ベクトル。 私は対称ステップ関数を使用しているため、(b)については、DTWの結果をM + N(DTWマトリックスの幅+高さ)で除算することで正規化しています。これはある程度効果的であるようですが、対角線から遠い(つまり、DTWマトリックスを通るパスが長い)DTWの一致にペナルティを課すようです。これは、「正規化」アプローチにとっては恣意的なようです。マトリックスを介してステップ数で除算することは直感的に理解できるようですが、文献によるとそれを行う方法とは思われません。 では、DTWの結果をクエリベクトルとテンプレートベクトルのサイズに合わせて調整するより良い方法はありますか? 最後に、クエリとテンプレートベクトル間の振幅の差についてDTW結果を正規化するにはどうすればよいですか? 確かに、信頼できる正規化手法の欠如(または私の理解の欠如)を考えると、「一致」を定義するための最適なしきい値レベルを特定するためのサンプルデータの操作には、多くの手作業が伴うようです。何か不足していますか?

1
加速度センサーのデータを正規化するにはどうすればよいですか?
私は、多くの被験者が身に着けている複数のセンサーで収集された加速度計データの大規模なセットを扱っています。残念ながら、ここでは誰もデバイスの技術仕様を知らないようで、デバイスが再調整されたことはないと思います。デバイスに関する情報があまりありません。私は修士論文に取り組んでいます。加速度計は別の大学から借りたもので、全体として少し不透明な状況でした。では、デバイスに搭載されている前処理はどうでしょうか?全く分からない。 私が知っているのは、それらが20Hzサンプリングレートの3軸加速度計であることです。デジタルとおそらくMEMS。私は非言語的行動と身振りに興味があります。私の情報源によると、これらは主に0.3〜3.5 Hzの範囲の活動を生成するはずです。 データの正規化はかなり必要だと思われますが、何を使用すればよいかわかりません。データの非常に大きな部分は残りの値(重力からの未加工値〜1000)に近いですが、一部のログでは最大8000、他のログでは最大29000のような極端なものもあります。下の画像を参照してください。これは、正規化するためにmaxまたはstdevで除算するのは悪い考えだと思います。 このような場合の通常のアプローチは何ですか?中央値で割りますか?パーセンタイル値?他に何か? 副次的な問題として、極端な値をクリップする必要があるかどうかもわかりません。 アドバイスをありがとう! 編集:これは、約16分のデータ(20000サンプル)のプロットであり、データが通常どのように分布しているかがわかります。

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
周波数が大きく異なる点プロセスの四角形を構築する方法は?
複数のポイントプロセス(または1つのマークされたポイントプロセス)でクアドラットカウント分析を実行し、いくつかの次元削減手法を適用したいと考えています。 マークは均等に分散されていません。つまり、非常に頻繁に表示されるマークもあれば、非常にまれなマークもあります。したがって、2Dスペースを通常のグリッドで単純に分割することはできません。マークの頻度が高くなると、頻度の低いマークが「圧倒」され、外観がマスクされてしまうためです。 したがって、各セルに最大N個のポイントが含まれるようにグリッドを構築しようとしました(これを行うには、各セルを4つの小さい(同じサイズの)セルに再帰的に分割し、セルがN個を超えるポイントがなくなるまで再帰的にそれ)。 この「正規化」手法についてどう思いますか?そのようなことをする標準的な方法はありますか?


2
ダミー変数の正規化
私のデータは、いくつかの連続測定と、測定が行われた年を表すいくつかのダミー変数で構成されています。今、私はデータを使ってニューラルネットワークを学びたいです。したがって、ダミー変数を含むすべての変数をzScoreで正規化しています。ただし、ダミー変数を正規化するとその範囲が変更されるため、これが妥当な方法であるかどうか疑問に思います。これは、分布が異なる場合に比較可能性を低くするためです。一方、ダミー変数を正規化しないと、ネットワーク出力への影響が最適化されない可能性があるため、疑わしいかもしれません。 ダミー変数を処理し、それらを正規化(zScore)するか、そのままにしておくための最良のアプローチは何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.