タグ付けされた質問 「standardization」

通常、データのシフトと再スケーリングを行って、平均値と単位分散がゼロであることを保証する「Z標準化」を指します。その他の「標準化」も可能です。

2
スケーリングが線形SVM分類にとって重要なのはなぜですか?
線形SVM分類を実行する場合、たとえば平均を減算して標準偏差で除算するなどして、トレーニングデータを正規化し、その後、トレーニングデータの平均と標準偏差でテストデータをスケーリングすることが役立ちます。このプロセスが分類パフォーマンスを劇的に変える理由は何ですか?

1
パネルデータモデルのグループ内の標準化された従属変数?
識別グループ内の従属変数の標準化は意味がありますか? 次のワーキングペーパー(リーガルアマゾンでの森林破壊の減速、価格またはポリシー?、pdf)では、標準化された従属変数を使用して、森林破壊に対するブラジルの一般的な政策変更の影響を分析しています。 標準化は次のように行われます: YN E W私トン= Y私トン− Y私¯¯¯¯¯s d(Y私トン)Y私tnew=Y私t−Y私¯sd(Y私t) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} 著者は、これは「自治体内の森林減少の相対的な変動を考慮する」のに役立つと主張している。著者は、パネルデータのFE推定(12ページ)を使用します。新しい法律の後、翌年ごとに政策後ダミーを含める。 従属変数がこのように標準化された場合、係数はどのように解釈されるべきですか? 標準化は、グループ/市町村が時間の経過とともにより低い変動を経験した観測により高い値を与えるため、非正統的ではありませんか?

1
標準化されたベータを元の変数に戻す
これはおそらく非常に単純な質問だと思いますが、検索した後、探している答えが見つかりません。 ベータのリッジ推定値を計算するために変数を標準化する必要がある(リッジ回帰)必要があるという問題があります。 次に、これらを元の変数スケールに戻す必要があります。 しかし、どうすればよいですか? 私は二変量のケースの式を見つけました β∗=β^SxSy.β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. これは、D。グジャラート語、Basic Econometrics、175ページ、式(6.3.8)で与えられました。 ここで、は標準化された変数で実行された回帰からの推定量であり、は同じ推定量を元のスケールに変換して戻し、はの標本標準偏差、は標本標準偏差です。* β S 、Y S 、Xβ∗β∗\beta^*β^β^\hat\betaSySyS_ySxSxS_x 残念ながら、この本では、重回帰の類似の結果については説明していません。 また、私は二変量のケースを理解しているのかわかりませんか?単純な代数操作により、元のスケールでの式が得られます。β^β^\hat\beta β^=β∗SySxβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 既にによってデフレートされている変数で計算されたが、再度変換するためにによってデフレートするますか?(さらに、平均値が追加されないのはなぜですか?) SXSXβ^β^\hat\betaSxSxS_xSxSxS_x では、結果を理解できるように、多変量のケースでこれをどのように導関数を使用して理想的に説明することができますか?

4
歪んだ非通常のデータでZスコアを使用できますか?[閉まっている]
閉じた。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善したいですか?詳細を追加し、この投稿を編集して問題を明確にします。 5年前に閉鎖されました。 私はいくつかのプロセスサイクルタイムデータを処理し、フルサイクルタイムの各部分を比較するために、標準のZスコアを使用してスケーリングしています。 データが非常に右に歪んでいる/非正常であるため、他の変換を使用する必要がありますか?(「外れ値」は決して負の時間をとることができず、「平均」よりもはるかに長くかかることがよくあります) Zスコアを使用しても「機能する」ようです... ############### # R code ############### mydata <- rweibull(1000,1,1.5) hist(mydata) hist(scale(mydata))

5
独立変数を標準化すると共線性が低下しますか?
私はベイズ/ MCMCで非常に良いテキストに出くわしました。ITは、独立変数の標準化によってMCMC(メトロポリス)アルゴリズムがより効率的になることを示唆していますが、(マルチ)共線性を低下させる可能性もあります。それは本当ですか?これは私が標準としてやるべきことです(申し訳ありません)。 Kruschke 2011、ベイズデータ分析の実施。(AP) 編集:たとえば > data(longley) > cor.test(longley$Unemployed, longley$Armed.Forces) Pearson's product-moment correlation data: longley$Unemployed and longley$Armed.Forces t = -0.6745, df = 14, p-value = 0.5109 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.6187113 0.3489766 sample estimates: cor -0.1774206 > standardise <- function(x) {(x-mean(x))/sd(x)} …


1
標準化されたVS中心変数
stats.stackexchange.comで、標準化された独立変数と中心化された独立変数に関する多くの役立つ投稿を見つけましたが、それでも少し混乱しています。私が理解したことの評価をお願いします。また、以下が正しくない場合は、訂正していただけませんか。 標準化する方法。標準化された変数は、変数の平均を減算し、その同じ変数の標準偏差で割ることによって取得されます。 センタリングする方法。中央に配置された独立変数は、変数の平均を引くだけで得られます。 標準化する理由。変数を標準化して、回帰の変数の測定単位が異なる場合に推定係数の解釈を容易にします。標準化する場合は、回帰のすべての変数を標準化する必要があります。これは、定数(つまり、B0または切片)の推定値を取得できないことを意味します。 センタリングの理由。推定された定数の意味のある解釈を得たい場合は、変数を中央揃えにします。この場合、必要な変数の量を中央揃えにすることができます。すべての独立変数をモデルの中央に配置する必要はありません。 独立変数Y.(単純な質問)Yを中央揃えまたは標準化したことはありますか? 自然対数の利用。1つ以上の変数が正規分布していない場合は、自然対数を使用して変数を変換できます。この変換の後でのみ、すべての変数を標準化するか、中央に配置する必要がある変数を中央に配置できます。一般に、標準化またはセンタリングの前に変数の変換を行う必要があります(ここでは自然対数について説明しますが、変数を2乗したり、別の変数で除算したりできます(たとえば、population / km2)。 解釈係数標準化変数。「X1の標準偏差が1増加すると、Yが-number-増加または減少します。」 解釈係数中心の変数。確率変数の係数:「X1の平均から-number-の増加は、Yを-number-だけ増加(または減少)させます。」定数:「非中心の変数がゼロで、中心の変数がそれらの平均にあるとき、それはYの期待値を表します。」 相互作用の用語。相互作用項の係数の解釈は、変数を標準化したか、またはそれらを中央に配置したか(相互作用の1つの変数のみ、または両方)のどちらでも問題になりません。基本的に、解釈は通常、相互作用項に与えるものです(たとえば、Yに対するX1の効果に興味があり、X1はX2と相互作用します。X1の全体の効果は、その係数+相互作用の係数によって与えられます。 X2が修正された場合の用語)、行った変換のタイプに応じて、ポイント7または8の後に続く解釈をコンテキスト化することを忘れないでください。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
標準化変数の共分散は相関ですか?
基本的な質問があります。とYの 2つの確率変数があるとします。平均を引いて標準偏差で割ることで標準化できます。つまり、X s t a n d a r d i z e d = (X − E (X ))バツXXYYY。バツs t a n da r d私はze d= (X− E(X))(SD (X))Xstandardized=(X−E(X))(SD(X))X_{standardized} = \frac{(X - E(X))}{(SD(X))} とYの相関、C o r (X 、Y )は、XとYの標準化されたバージョンの共分散と同じですか?つまり、C o r (X 、Y )= C o v (X s …

1
KNNでどのタイプのデータ正規化を使用する必要がありますか?
正規化には2種類以上あることを知っています。 例えば、 1- zスコアまたはtスコアを使用してデータを変換します。これは通常、標準化と呼ばれます。 2- 0と1の間の値を持つようにデータを再スケーリングします。 正規化が必要かどうかの質問 KNNでどのタイプのデータ正規化を使用する必要がありますか?なぜ?


1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
LDAを前処理ステップとして使用する場合の機能の標準化
次元削減(またはPCAによる次元削減後の変換)にマルチクラス線形判別分析(または、多重判別分析をときどき読む)を使用する場合、一般的に、完全に異なるスケールで測定されていても、機能は必要ありませんよね?LDAには、すでに正規化されたユークリッド距離を意味するマハラノビス距離に類似した用語が含まれているためですか? したがって、それは必要ではないだけでなく、標準化された機能と標準化されていない機能のLDA後の結果はまったく同じになるはずです!?

6
Rで変数をグループ化/標準化する方法は?
ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 私は精通してる機能は、スケールをベースRから再スケール ARMから。 おそらく、最良の方法は、グループ化変数として使用する1つ以上の変数を指定して、applyのバリアントを使用することです。

1
標準化された係数を使用して回帰予測子の相対的な重要性を評価するのは間違った考えですか?
例えば、回帰予測因子の重要性を評価するための様々な方法の優劣に話す様々な質問があり、この 1は。 このコメントでは、 @ gung がこの実践を「誤ったアイデア」と呼んでいることに気づきました。この主張を支持するこの回答にリンクしています。回答の最後の段落は関連部分です。 この問題はそれ自身の質問に値するに値すると思います、そしてまた、推論のいくつかの側面について少しわかりません。問題の段落の最も重要な部分は 真のrが正確に0でない限り、推定されるrは、使用される共変量の値の範囲によって主に決定されます。 これは、制限された範囲の値とより広い範囲の値をランダムにサンプリングした可能性があるため、重要度を評価するために標準化された係数を使用すべきではないと言うことと同等ですか?次に、この問題を標準化すると、はよりも弱い予測子であると偽って考えてしまいます。バツ1X1X1バツ2X2X2バツ1X1X1バツ2X2X2 真のが正確に0である場合、なぜ問題は解消するのですか?rrr 他の方法(たとえば、セミパーシャル係数を調べる)は、この問題をどのように解決しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.