タグ付けされた質問 「data-transformation」

データ値の数学的再表現、多くの場合非線形。多くの場合、データは、統計モデルの仮定を満たすため、または分析の結果をより解釈可能にするために変換されます。

2
季節ごとの分解方法の選択
季節調整は、さらなる研究のためにデータを前処理する重要なステップです。ただし、研究者には、トレンドサイクルと季節性の分解に関する多くのオプションがあります。最も一般的な(経験的文献の引用数から判断する)競合する季節分解法は、X-11(12)-ARIMA、Tramo / Seats(両方ともDemetra +で実装)およびのstlです。上記の分解手法(または季節ダミー変数のような他の単純な手法)間のランダムな選択を回避するために、季節分解手法を効果的に選択するための基本戦略を知りたいと思います。RRR いくつかの重要なサブ質問(ディスカッションへのリンクも歓迎)は次のとおりです。 メソッドの類似点と相違点、長所と短所は何ですか?ある方法が他の方法よりも望ましい特別なケースはありますか? さまざまな分解方法のブラックボックスの中にあるものへの一般的なガイドを提供できますか? メソッドのパラメーターを選択するための特別なトリックはありstlますか? 時系列が効率的に季節的に調整されるいくつかの(統計)基準(コレログラム分析、スペクトル密度、小さなサンプルサイズの基準、ロバストネス)を提案することは可能ですか?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
均一分布から指数分布へ、およびその逆
これはおそらく些細な質問ですが、このウィキペディアの記事や「配布の大要」ドキュメントを含め、これまでのところ私の検索は無益です。 が均一な分布を持つ場合、は指数分布に従うということですか?e XXXXeXeXe^X 同様に、が指数分布に従う場合、は一様分布に従うことを意味しますか?l n (Y )YYYln(Y)ln(Y)ln(Y)

2
ログ変換後の標準エラーの計算
正規分布している数のランダムなセットを考えます: x <- rnorm(n=1000, mean=10) 平均と平均の標準誤差を知りたいので、次のことを行います。 se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 units すばらしいです! ただし、元の分布が正規分布に従うことを必ずしも知らないと仮定します。データをログ変換し、同じ標準誤差計算を実行します。 z <- log(x, base=10) mean(z) # something near 1 log units se(z) # something near 0.001 log units クールですが、ログ単位ではなく単位で答えを得るために逆変換する必要があります。 10^mean(z) # something near 10.0 …

2
ログ変換は、非正規データをt検定するための有効な手法ですか?
著者は、論文をレビューする際に、「正規分布の前提条件を満足するためにtテストが行​​われる前に、自然対数を使用して、歪んだ分布を示す連続的な結果変数が変換された」と述べています。 これは、特に基礎となる分布が必ずしも対数正規分布ではない場合に、非正規データを分析するのに受け入れられる方法ですか? これは非常にばかげた質問かもしれませんが、これを以前に見たことはありません。


3
「正規化」とは何を意味し、サンプルまたは分布が正規化されていることを確認する方法は何ですか?
一様分布()が正規化されているかどうかを確認する質問があります。Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) 1つは、分布が正規化されるとはどういう意味ですか? 2つ目は、分布が正規化されているかどうかを確認する方法です。 X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} を計算 することで、正規化されたデータを取得することがわかりますが、ここでは、分布が正規化されているかどうかを確認しています。

3
等尺性の対数比変換を実行する方法
移動行動(睡眠、座りがち、および身体活動の実行に費やした時間)に関するデータがあり、合計は約24時間(1日あたりの時間)です。これらの各動作に費やされた相対的な時間をキャプチャする変数を作成します-等尺性のログ比変換がこれを達成すると言われました。 Rでilr関数を使用する必要があるように見えますが、コードで実際の例を見つけることができません。どこから始めますか? 私が持っている変数は、睡眠時間、平均座りがちな時間、平均的な軽い身体活動、平均的な中程度の身体活動、平均的な激しい身体活動です。睡眠は自己申告でしたが、その他は有効な加速度計データの平均です。したがって、これらの変数の場合、ケースの合計は正確に24にはなりません。 私の推測:私はSASで働いていますが、このパートではRの方がはるかに使いやすいようです。そのため、最初に目的の変数のみを含むデータをインポートします。次に、acomp()関数を使用します。すると、ilr()関数の構文がわかりません。どんな助けでも大歓迎です。

2
モデルのAICとそのログ変換バージョンの比較
私の質問の本質はこれです: LET平均値を有する多変量正規ランダム変数でと共分散行列。ましょう、すなわち。観測された実現に適合したモデルのAICと、観測された実現に適合したモデルのAICを比較するにはどうすればよいですか?Y∈RnY∈RnY \in \mathbb{R}^nμμ\muΣΣ\SigmaZ:=log(Y)Z:=log⁡(Y)Z := \log(Y)Zi=log(Yi),i∈{1,…,n}Zi=log⁡(Yi),i∈{1,…,n}Z_i = \log(Y_i), i \in \{1,\ldots,n\}YYYZZZ 私の最初のやや長い質問: LET多変量正規確率変数です。適合したモデルとに適合したモデルを比較したい場合、それらの対数尤度を調べることができます。ただし、これらのモデルはネストされていないため、対数尤度(およびAICなど)を直接比較することはできませんが、変換する必要があります。Y∼N(μ,Σ)Y∼N(μ,Σ)Y \sim \mathcal{N}(\mu,\Sigma)YYYlog(Y)log⁡(Y)\log(Y) 私があれば知っている関節のPDFを有するランダム変数であるとIF一対一の変換にと、のpdfは与えられますここで、Jは変換に関連付けられたヤコビアンです。X1,…,XnX1,…,XnX_1,\ldots,X_ng(x1,…,xn)g(x1,…,xn)g(x_1,\ldots,x_n)Yi=ti(X1,…,Xn)Yi=ti(X1,…,Xn)Y_i = t_i(X_1,\ldots,X_n)titit_ii∈{1,…,n}i∈{1,…,n}i \in \{1,\ldots,n\}Y1,…,YnY1,…,YnY_1,\ldots,Y_nf(y1,…,yn)=g(t−11(y),…,t−1n(y))det(J)f(y1,…,yn)=g(t1−1(y),…,tn−1(y))det(J)f(y_1,\ldots,y_n)=g(t_1^{-1}(y),\ldots,t_n^{-1}(y))\det(J)JJJ 単に変換ルールを使用して比較する必要がありますか l(Y)=log(∏i=1nϕ(yi;μ,Σ))l(Y)=log⁡(∏i=1nϕ(yi;μ,Σ))l(Y) = \log(\prod_{i=1}^{n}\phi(y_i;\mu,\Sigma)) to l(log(Y))=log(∏i=1nϕ(log(yi);μ,Σ))l(log⁡(Y))=log⁡(∏i=1nϕ(log⁡(yi);μ,Σ))l(\log(Y))=\log(\prod_{i=1}^{n}\phi(\log(y_i);\mu,\Sigma)) または私にできることは他にありますか? [編集]最後の2つの式に対数を入れるのを忘れました。

4
SVD / PCAの変数の「正規化」
我々が持っていると仮定測定可能な変数、、我々は数やる、測定のをしてから実行したい特異値分解をするために最高の分散の軸を見つけるために、結果にポイント次元空間。(注:の平均はすでに減算されていると仮定しているため、すべてのについてです。)(1、2、... 、N)M > N M N A I ⟨ A I ⟩ = 0 INNN(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)M>NM>NM > NMMMNNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ここで、変数の1つ(またはそれ以上)が、他と大きく異なる特性の大きさを持っていると仮定します。たとえば、値はの範囲で、残りはです。これにより、分散が最も大きい軸がの軸に向かって大きくます。 10 − 100 0.1 − 1 a 1a1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 大きさの違いは、測定単位の不幸な選択のためかもしれません(たとえば、物理データ、たとえばキロメートルとメートルの場合)が、実際には異なる変数はまったく異なる次元(たとえば、重量と体積)を持っている可能性があります。それらに「同等の」ユニットを選択する明白な方法はないかもしれません。 質問: この問題を回避するためにデータを正規化する標準/一般的な方法が存在するかどうかを知りたいです。私は、何か新しいものをよりも、この目的のために匹敵する大きさを生成する標準的な手法にもっと興味を持っています。a1−aNa1−aNa_1 - a_N 編集: 1つの可能性は、各変数をその標準偏差または同様のもので正規化することです。ただし、次の問題が発生します。データを次元空間の点群として解釈してみましょう。この点群は回転させることができ、このタイプの正規化は、回転に応じて(SVD後の)最終結果が異なります。(例えば、最も極端な場合、データを正確に回転させて主軸を主軸に合わせると想像してください。)NNN これを行うための回転不変の方法はないだろうと期待していますが、特に結果の解釈の警告に関して、誰かがこの問題についての文献の議論を指摘してくれれば幸いです。

2
主成分分析を実行する前にデータをログ変換するのはなぜですか?
ここのチュートリアルに従っている:http : //www.r-bloggers.com/computing-and-visualizing-pca-in-r/ PCAの理解を深めるために。 このチュートリアルでは、Irisデータセットを使用し、PCAの前にログ変換を適用します。 次のコードでは、[1]で示唆されているように連続変数に対数変換を適用し、PCAの適用前に変数を標準化するための呼び出しでset centerand scaleequal to TRUEに注意してくださいprcomp。 Irisデータセットの最初の4列で最初にlog関数を使用する理由を説明してください。データを相対的にすることと関係があることは理解していますが、ログ、センター、スケールの正確な機能は混乱しています。 上記の参考文献[1]は、VenablesおよびRipley、ModernがS-PLUSで統計を適用した、セクション11.1で簡単に述べています。 データは物理的な測定値であるため、適切な初期戦略は対数スケールで作業することです。これは全体にわたって行われました。

2
回帰係数の逆変換
変換された従属変数を使用して線形回帰を実行しています。残差の正規性の仮定が保持されるように、次の変換が行われました。変換されていない従属変数は負に歪んでおり、次の変換によりそれが正常に近くなりました。 Y=50−Yorig−−−−−−−−√Y=50−YorigY=\sqrt{50-Y_{orig}} ここで、YorigYorigY_{orig}は元のスケールの従属変数です。 元のスケールに戻るには、ββ\beta係数に何らかの変換を使用するのが理にかなっていると思います。次の回帰式を使用して、 Y=50−Yorig−−−−−−−−√=α+β⋅XY=50−Yorig=α+β⋅XY=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X Xを修正することにより、X=0X=0X=0 α=50−Yorig−−−−−−−−√=50−αorig−−−−−−−−√α=50−Yorig=50−αorig\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}} そして最後に、 αorig=50−α2αorig=50−α2\alpha_{orig}=50-\alpha^2 同じロジックを使用して、私は見つけました βorig=α (α−2β)+β2+αorig−50βorig=α (α−2β)+β2+αorig−50\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50 これで、1つまたは2つの予測子を持つモデルで非常にうまく機能します。逆変換された係数は元の係数に似ていますが、標準誤差を信頼できるようになりました。問題は、次のような相互作用用語を含めるときに発生します Y=α+X1βX1+X2βX2+X1X2βX1X2Y=α+X1βX1+X2βX2+X1X2βX1X2Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2} そうすると、の逆変換は元のスケールの逆変換にそれほど近くなく、なぜ起こるのかわかりません。また、ベータ係数を逆変換するために見つかった式が、3番目のβ(相互作用項)でそのまま使用できるかどうかもわかりません。クレイジー代数に入る前に、私はアドバイスを求めると思いました...ββ\betaββ\beta

2
GLMが変換された変数を持つLMと異なる理由
このコースの配布資料(ページ1)で説明されているように、線形モデルは次の形式で記述できます。 y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, ここで、yyyは応答変数、 xixix_{i}はithithi^{th}説明変数です。 多くの場合、テストの前提を満たす目的で、応答変数を変換できます。たとえば、各yiyiy_i対数関数を適用します。応答変数の変換は、GLMの実行と同等ではありません。 GLMは、次の形式で記述できます(コースの配布資料(3ページ)から) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, ここで、は単なる別の記号であり、コースの配布資料の2ページから理解できます。はリンク関数と呼ばれます。uuuyyyg()g()g() コース内のスライドから変換された変数を使用したGLMとLMの違いを本当に理解していません。それで私を助けてもらえますか?

2
GLMの正規化変換の導出
\newcommand{\E}{\mathbb{E}}どのようにA (⋅ )= ∫ D UV 1 / 3(μ )A(⋅)=∫duV1/3(μ)A(\cdot) = \displaystyle\int\frac{du}{V^{1/3}(\mu)}正規化指数家族のための変換派生した? より具体的には、3ページのスライド1のテイラー展開スケッチを追おうとしましたが、いくつか質問があります。バツXX指数ファミリー、形質転換からh (X )h(X)h(X)、およびκ Iκi\kappa _i示す私はトンの時間ithi^{th}キュムラント、スライドは、と主張している: κ 3(H (ˉ X))≈ H '(μ )3 κ 3(ˉ X)N 2 +3H'(μ)2H"(μ)σ4N +O(N−3)、κ3(h(X¯))≈h′(μ)3κ3(X¯)N2+3h′(μ)2h′′(μ)σ4N+O(N−3), \kappa _3(h(\bar{X})) \approx h'(\mu)^3\frac{\kappa _3(\bar{X})}{N^2} + 3h'(\mu)^2h''(\mu)\frac{\sigma^4}{N} + O(N^{-3}), および上記の評価が0になるようなh(X)を見つけるだけh (X )h(X)h(X)です。 私の最初の質問は算数についてです。私のテイラー展開には異なる係数があり、それらが多くの項を落としたことを正当化することはできません。 h (x )以来 ≈ H (μ )+ …

4
データを変換するときに避けるべき落とし穴?
応答を二重に変換した後、変数XXXとYYY変数の間に強い線形関係を達成しました。モデルとなった Y∼XY∼XY\sim X が、私はそれを変換 YX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X} 改善R2R2R^20.76に0.19から。 明らかに、私はこの関係でいくつかのまともな手術をしました。過度の変換の危険性や統計原則の違反の可能性など、これを行うことの落とし穴について誰でも議論できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.