タグ付けされた質問 「normalization」

通常「正規化」とは、データを再表現して、値を指定された範囲内に収めることを意味します。

3
Rの列ごとの行列の正規化[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 6年前に閉鎖されました。 Rの行列の列ごとの正規化を実行したいと思います。行列が与えられた場合m、各要素を列の合計で除算して各列を正規化します。これを行う1つの(ハック的な)方法は次のとおりです。 m / t(replicate(nrow(m), colSums(m))) 同じタスクを達成するためのより簡潔/エレガント/効率的な方法はありますか?

1
非常に小さな尤度値を確率に変換(正規化)する
モデルを指定して、データセットのリストの尤度を計算し、各尤度を(確率で)正規化する必要があるアルゴリズムを作成しています。したがって、[0.00043、0.00004、0.00321]のようなものは、[0.2、0.03、0.77]のように変換される可能性があります。 私の問題は、私が取り組んでいる対数尤度が非常に小さいことです(たとえば、ログスペースでは、値は-269647.432、-231444.981などのようになります)。私のC ++コードで、それらを2つ追加しようとすると(指数を取ることで)、「Inf」という答えが返されます。私はそれらをログスペース(ログの合計/減算)に追加しようとしましたが、再び同じ問題に出くわしました。 誰もこれについて専門家の意見を共有できますか?


1
t-SNEを適用する前に、データを中央揃え+スケーリングする必要がありますか?
一部のデータの機能には大きな値があり、他の機能にはもっと小さな値があります。 大きな値への偏りを防ぐために、t-SNEを適用する前にデータを中央+スケールする必要がありますか? Pythonのsklearn.manifold.TSNE実装をデフォルトのユークリッド距離メトリックとともに使用します。

3
「正規化」とは何を意味し、サンプルまたは分布が正規化されていることを確認する方法は何ですか?
一様分布()が正規化されているかどうかを確認する質問があります。Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) 1つは、分布が正規化されるとはどういう意味ですか? 2つ目は、分布が正規化されているかどうかを確認する方法です。 X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} を計算 することで、正規化されたデータを取得することがわかりますが、ここでは、分布が正規化されているかどうかを確認しています。

4
SVD / PCAの変数の「正規化」
我々が持っていると仮定測定可能な変数、、我々は数やる、測定のをしてから実行したい特異値分解をするために最高の分散の軸を見つけるために、結果にポイント次元空間。(注:の平均はすでに減算されていると仮定しているため、すべてのについてです。)(1、2、... 、N)M > N M N A I ⟨ A I ⟩ = 0 INNN(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)M>NM>NM > NMMMNNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ここで、変数の1つ(またはそれ以上)が、他と大きく異なる特性の大きさを持っていると仮定します。たとえば、値はの範囲で、残りはです。これにより、分散が最も大きい軸がの軸に向かって大きくます。 10 − 100 0.1 − 1 a 1a1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 大きさの違いは、測定単位の不幸な選択のためかもしれません(たとえば、物理データ、たとえばキロメートルとメートルの場合)が、実際には異なる変数はまったく異なる次元(たとえば、重量と体積)を持っている可能性があります。それらに「同等の」ユニットを選択する明白な方法はないかもしれません。 質問: この問題を回避するためにデータを正規化する標準/一般的な方法が存在するかどうかを知りたいです。私は、何か新しいものをよりも、この目的のために匹敵する大きさを生成する標準的な手法にもっと興味を持っています。a1−aNa1−aNa_1 - a_N 編集: 1つの可能性は、各変数をその標準偏差または同様のもので正規化することです。ただし、次の問題が発生します。データを次元空間の点群として解釈してみましょう。この点群は回転させることができ、このタイプの正規化は、回転に応じて(SVD後の)最終結果が異なります。(例えば、最も極端な場合、データを正確に回転させて主軸を主軸に合わせると想像してください。)NNN これを行うための回転不変の方法はないだろうと期待していますが、特に結果の解釈の警告に関して、誰かがこの問題についての文献の議論を指摘してくれれば幸いです。

4
交差検証前の正規化
繰り返しk倍交差検定を実行する前にデータを正規化する(平均がゼロで標準偏差が1になる)には、オーバーフィットなどのマイナスの影響がありますか? 注:これは、#cases> total #featuresの状況用です ログ変換を使用して一部のデータを変換し、上記のようにすべてのデータを正規化します。次に、機能の選択を実行しています。次に、選択された特徴と正規化されたデータを繰り返し10倍交差検証に適用して、一般化された分類器のパフォーマンスを試してみて、すべてのデータを使用して正規化することは適切ではないことを懸念しています。各フォールドのトレーニングデータから取得した正規化データを使用して、各フォールドのテストデータを正規化する必要がありますか? 感謝の意を表明しました!この質問が明らかな場合はおApび申し上げます。 編集: これをテストすると(以下の提案に沿って)、CV内の正規化と比較した場合、CV以前の正規化はパフォーマンス面で大きな違いをもたらさないことがわかりました。

1
分位正規化はどのように機能しますか?
マイクロアレイを使用した遺伝子発現研究では、個人間、遺伝子間で強度を比較できるように、強度データを正規化する必要があります。概念的およびアルゴリズム的に、「分位点正規化」はどのように機能しますか?また、これを非統計学者にどのように説明しますか?

3
オンライン学習での正則化と機能スケーリング?
ロジスティック回帰分類器があるとします。通常のバッチ学習では、過剰適合を防ぎ、体重を小さく保つための正規化用語があります。また、機能を正規化およびスケーリングします。 オンライン学習環境では、継続的なデータのストリームを取得しています。各例で勾配降下更新を行い、それを破棄します。オンライン学習で機能スケーリングと正則化用語を使用することになっていますか?はいの場合、どうすればそれができますか?たとえば、スケーリングするトレーニングデータのセットがありません。また、正規化パラメーターを調整するための検証セットもありません。いいえの場合、なぜですか? オンライン学習では、例のストリームを継続的に取得します。新しい例ごとに、予測を行います。次に、次のタイムステップで、実際のターゲットを取得し、勾配降下更新を実行します。

2
CLR(集中ログ比変換)を使用してPCAのデータを準備できますか?
スクリプトを使用しています。コアレコード用です。特定の深さ(最初の列)の列に異なる元素組成を示すデータフレームがあります。PCAを実行したいのですが、選択しなければならない標準化方法について混乱しています。 あなたの誰もがのclr()ためにあなたのデータを準備するために使用しましたprcomp()か?または、ソリューションを悪化させますか。で属性スケールをclr()使用するprcomp()ことに加えて、関数を使用する前にデータのon を使用してみましたprcomp()。 data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html スケールはデータをスケーリングするために記述されているため、単位分散があります。私のデータは私が望んでいたものとは非常に異なるスケールを持っているので、私は思う。問題は、上記のコードを使用するとき、またはスキップするときclr()(より望ましい結果が得られる)、別のソリューションを受け取ることです。しかし、私はなぜclr()その場合に邪魔なのか知りたいですか?

4
特徴スケーリングと平均正規化
私はAndrew Ngの機械学習コースを受講していますが、数回試行してもこの質問に対する答えを正しく得ることができませんでした。レベルを通過しましたが、これを解決してください。 仮定の学生は、いくつかのクラスをとっている、とクラスは中間試験と最終試験を持っていました。次の2つの試験で得点のデータセットを収集しました。m=4m=4m=4 midterm (midterm)^2 final 89 7921 96 72 5184 74 94 8836 87 69 4761 78 多項式回帰を使用して、中間試験の得点から学生の最終試験の得点を予測します。具体的には、フォームのモデルに適合したいと、X 1は、中期スコアで、X 2は、(中期スコア)^ 2です。さらに、フィーチャスケーリング(フィーチャの「最大-最小」または範囲で除算)と平均正規化の両方を使用することを計画します。hθ(x)=θ0+θ1x1+θ2x2hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2x1x1x_1x2x2x_2 正規化された特徴何ですか?(ヒント:中間= 89、最終= 96はトレーニング例1です。)下のテキストボックスに回答を入力してください。該当する場合、小数点以下2桁以上を指定してください。x(4)2x2(4)x_2^{(4)}

3
未知の分布のデータを正規化する方法
特定のタイプの繰り返し測定データの最も適切な特性分布を見つけようとしています。 本質的に、私の地質学の分野では、イベント(岩石がしきい値温度以下に冷却された)が発生するまでの時間を調べるために、サンプル(岩石の塊)からの鉱物の放射年代測定をよく使用します。通常、各サンプルからいくつか(3〜10)の測定が行われます。次に、平均と標準偏差σが取得されます。サンプルの冷却年代から拡張することができますので、これは、地質学である10 5への10 9状況に応じて、年。μμ\muσσ\sigma10510510^510910910^9 ただし、測定値がガウス分布ではないことを信じる理由があります。「外れ値」は、任意に宣言されるか、またはパースの基準[Ross、2003]やディクソンのQ検定[Dean and Dixon、1951]などの基準によって宣言されますよくあり(たとえば、30分の1)、これらはほとんど常に古いものであり、これらの測定値が特徴的に右に歪んでいることを示しています。これが鉱物学的不純物に関係していることには、十分に理解されている理由があります。 μμ\muσσ\sigma これを行う最善の方法は何だろうと思っています。これまでのところ、約600個のサンプルを含むデータベースがあり、サンプルごとに2〜10個程度の測定値を複製しています。それぞれを平均値または中央値で割ってサンプルを正規化し、正規化されたデータのヒストグラムを見てみました。これは妥当な結果を生成し、データが一種の対数ラプラシアンであることを示しているようです: ただし、これが適切な方法なのか、それとも気付いていないのに結果が偏っている可能性があるという警告があるのか​​はわかりません。誰かがこの種のことを経験し、ベストプラクティスを知っていますか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
時系列データのリアルタイム正規化のアルゴリズム?
多数のセンサーストリームから最新のデータポイントのベクトルを取り込み、ユークリッド距離を以前のベクトルと比較するアルゴリズムに取り組んでいます。問題は、異なるデータストリームが完全に異なるセンサーからのものであるため、単純なユークリッド距離をとると、いくつかの値が大幅に強調されることです。明らかに、データを正規化する何らかの方法が必要です。ただし、アルゴリズムはリアルタイムで実行されるように設計されているため、正規化ではデータストリームに関する情報を全体として使用することはできません。これまでのところ、起動段階で各センサーに見られる最大値(最初の500データベクトル)を追跡し、そのセンサーからのすべての将来のデータをその値で除算しました。これは驚くほどうまく機能していますが、非常に洗練されていないように感じます。 このための既存のアルゴリズムを見つけるのにそれほど幸運はありませんでしたが、おそらく適切な場所を探していません。誰か知っていますか?または何かアイデアがありますか?実行平均(おそらくWellfordのアルゴリズムによって計算される)を使用する提案がありましたが、同じ値の複数の読み取り値が同じであると表示されない場合、これはかなり大きな問題のようです何かが欠けています。どんな考えでも大歓迎です!ありがとう!

6
変動係数-IQR /中央値、または代替のような堅牢な(ノンパラメトリック)尺度?
特定のデータセットについて、スプレッドは多くの場合、標準偏差またはIQR(四分位範囲)として計算されます。 a standard deviationは正規化されているため(zスコアなど)、2つの異なる母集団からの広がりを比較するために使用できますが、2つの異なる母集団からのサンプルは2つのまったく異なるスケールで値を持つことができるため、これはIQRには当てはまりません e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... 私が求めているのは、異なる母集団内の変動を比較するために使用できる堅牢な(ノンパラメトリック)尺度です。 選択肢1: IQR / Median-これは、変動係数、つまり。σμσμ \frac{\sigma}{\mu} 選択肢2: Range / IQR 質問:母集団間の変動を比較するためのより意味のある尺度はどれですか?また、選択肢1の場合、選択肢2は何か/意味のあるものに役立ちますか、それとも根本的に欠陥のある尺度ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.