タグ付けされた質問 「data-transformation」

データ値の数学的再表現、多くの場合非線形。多くの場合、データは、統計モデルの仮定を満たすため、または分析の結果をより解釈可能にするために変換されます。

12
ゼロを含む非負のデータを変換するにはどうすればよいですか?
正のデータに大きな偏りがある場合、ログを取得することがよくあります。しかし、ゼロを含む非常に歪んだ非負データではどうすればよいですか?私は2つの変換が使用されているのを見ました: ログ(x + 1 )log⁡(x+1)\log(x+1)0が0にマッピングされるというきちんとした機能を持つ。 ログ(x + c )log⁡(x+c)\log(x+c)ここで、cは推定されるか、非常に小さな正の値に設定されます。 他のアプローチはありますか?あるアプローチを他のアプローチよりも好む理由はありますか?

9
Rのグループごとにデータを要約するには?[閉まっている]
次のようなRデータフレームがあります。 age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... 次の形式でデータフレームを取得する必要があります。 group mean sd 1 34.5 5.6 2 32.3 4.2 ... グループ番号は異なる場合がありますが、名前と数量は levels(factor(data$group)) 結果を得るには、データをどのように操作する必要がありますか?

2
いつ(そしてなぜ)分布の(数の)ログを取るべきですか?
たとえば、過去の株価、航空券の価格変動、会社の過去の財務データなど、いくつかの履歴データがあるとします... 今、誰か(または何らかの数式)がやって来て、「配布のログを取得/使用しましょう」と言って、ここに行くのはなぜですか? 質問: そもそも分布のログを取るべきなのはなぜですか? ディストリビューションのログは、元のディストリビューションではできなかった/できなかった「与える/単純化する」ものは何ですか? ログ変換は「ロスレス」ですか?すなわち、対数空間に変換してデータを分析するとき、元の分布についても同じ結論が成立しますか?どうして? そして最後に、分布のログを取得するのはいつですか?どのような条件下でこれを行うことにしますか? 私は本当にログベースの分布(たとえばlognormal)を理解したかったのですが、いつ/なぜアスペクトを理解したことがありません-すなわち、分布のログは正規分布です。それは私に何を伝え、何故わざわざしますか したがって、質問! 更新:@whuberのコメントに従って、私は投稿を見ましたが、独立変数と従属変数のログの間に関係を描くことができるので、何らかの理由で線形回帰でのログ変換の使用とその適用を理解しています。ただし、私の質問は、分布そのものを分析するという意味では一般的です。ログを取り、分布を分析する理由を理解するのに役立つと結論付けることができる関係自体はありません。私は理にかなっていると思います:-/ 回帰分析では、データのタイプ/フィット/分布に制約があり、それを変換して、独立変数と(変換されていない)従属変数間の関係を定義できます。しかし、型/適合/分布の制約がフレームワークで必ずしも適用できない場合(回帰のような)分離の分布に対していつ/なぜそうするのか。明確にすることで混乱するよりも明らかになることを願っています:) この質問は、「なぜ、いつ」に関する明確な答えに値します


1
平方根変換がカウントデータに推奨されるのはなぜですか?
カウントデータがある場合は、平方根を取ることをお勧めします。(CVのいくつかの例については、ここで@HarveyMotulskyの答え、またはここで@whuberの答えを参照してください。)一方、ポアソンとして分布した応答変数を使用して一般化線形モデルを近似する場合、ログは正規リンクです。これは、応答データのログ変換を行うようなものです(より正確には、応答分布を制御するパラメーターログ変換を行うことです)。したがって、これら2つの間には緊張があります。 λλ\lambda この(明らかな)矛盾をどのように調整しますか? 平方根が対数よりも優れているのはなぜですか?

5
ゼロのログを取ることを回避するために、xにどのくらいの量を追加する必要がありますか?
データをそのまま分析しました。次に、すべての変数のログを取得した後、分析を確認します。多くの変数には多くのゼロが含まれています。したがって、ゼロの対数をとらないように少量を追加します。 これまでのところ、論理的に根拠なく10 ^ -10を追加しました。これは、任意に選択した数量の影響を最小限に抑えるために、ごく少量を追加することが望ましいと考えたからです。ただし、一部の変数にはほとんどゼロが含まれているため、ほとんどの場合、-23.02に記録されます。私の変数の範囲の範囲は1.33-8819.21で、ゼロの頻度も劇的に変化します。したがって、「少量」という私の個人的な選択は、変数に非常に異なる影響を与えます。すべての変数の分散の大部分はこの任意の「少量」に由来するため、10 ^ -10が完全に受け入れられない選択であることは明らかです。 これを行うためのより正しい方法は何でしょうか。 たぶん、各変数の個々の分布から量を導き出す方が良いでしょうか?この「少量」の大きさに関するガイドラインはありますか? 私の分析は主に、各変数と年齢/性別をIVとする単純なcoxモデルです。変数はさまざまな血中脂質の濃度であり、多くの場合、かなりの変動係数があります。 編集:変数のゼロ以外の最小値を追加すると、私のデータにとって実用的と思われます。しかし、おそらく一般的な解決策はありますか? 編集2:ゼロは単に検出限界以下の濃度を示すので、多分それらを(検出限界)/ 2に設定するのが適切でしょうか?

8
カテゴリデータを連続として扱うのは理にかなっていますか?
離散データと連続データに関するこの質問に答える際、カテゴリデータを連続データとして扱うことはほとんど意味がないと断言しました。 一見すると自明のように思えますが、直観はしばしば統計の貧弱なガイドであり、少なくとも私の場合はそうです。だから今私は疑問に思う:それは本当ですか?または、カテゴリデータから連続体への変換が実際に役立つ分析が確立されていますか?データが序数である場合、違いが生じますか?

3
ログスケールはいつ適切ですか?
時系列グラフのy軸など、特定の状況でグラフ化/グラフ化が適切な場合にログスケールを使用することを読みました。しかし、なぜそうなのか、それが適切な場合についての明確な説明を見つけることができませんでした。私は統計学者ではないので、この点を完全に見逃しているかもしれないことを覚えておいてください。もしそうなら、改善策の方向性に感謝します。


1
Scikit-learnでのワンホットエンコーディングとダミーエンコーディング
カテゴリー変数をエンコードするには、2つの異なる方法があります。たとえば、1つのカテゴリ変数にn個の値があります。ワンホットエンコーディングに変換してN個の変数ながらダミーコードへと変換し、N-1の変数。カテゴリ変数がk個あり、それぞれにn個の値がある場合。1つのホットエンコーディングはkn変数で終わり、ダミーエンコーディングはkn-k変数で終わります。 ワンホットエンコーディングの場合、インターセプトにより共線性の問題が発生し、モデルが正常に機能しないことがあります。誰かがそれを「ダミー変数トラップ」と呼びます。 私の質問: Scikit-learnの線形回帰モデルにより、ユーザーはインターセプトを無効にできます。ワンホットエンコーディングの場合、常にfit_intercept = Falseを設定する必要がありますか?ダミーエンコーディングの場合、fit_interceptは常にTrueに設定する必要がありますか?ウェブサイトに「警告」は表示されません。 ワンホットエンコーディングではより多くの変数が生成されるため、ダミーエンコーディングよりも自由度が高くなりますか?

1
予測が目標である場合、標準化/正規化をトレーニングおよびテストセットに適用する方法は?
すべてのデータまたはフォールド(CVが適用されている場合)を同時に変換しますか?例えば (allData - mean(allData)) / sd(allData) trainsetとtestsetを別々に変換しますか?例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) または、トレインセットを変換し、テストセットで計算を使用しますか?例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 3は正しい方法だと思います。3が正しい場合、平均が0でないこと、または範囲が[0;の間にないことを心配する必要があります。1]または[-1; 1]テストセットの(正規化)?

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
正規化とスケーリング
データ「正規化」とデータ「スケーリング」の違いは何ですか?今まで、両方の用語が同じプロセスを指していると思っていましたが、今では、私が知らない/理解していないものがあることに気付きました。また、正規化とスケーリングに違いがある場合、スケーリングではなく正規化をいつ使用する必要がありますか? 例を挙げて詳しく説明してください。

1
回帰:変数の変換
変数を変換する場合、同じ変換をすべて使用する必要がありますか?たとえば、次のように、さまざまに変換された変数を選択できますか。 、してみましょう年齢、雇用の長さ、住宅の長さ、および収入こと。バツ1、x2、x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) または、変換と一貫性を保ち、すべてを同じように使用する必要がありますか?次のように: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 私の理解では、変換の目標は正常性の問題に対処することです。各変数のヒストグラムを見ると、それらが非常に異なる分布を示していることがわかります。これにより、必要な変換は変数ごとに異なると信じられます。 ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) 最後に、それは使用して変数を変換する方法有効です持っているの値を?この変換は、すべての変数で一貫している必要がありますか、それとも含まない変数でもアドホックに使用されますか?x n 0 0ログ(xn+ 1 )log⁡(xn+1)\log(x_n + 1)バツnxnx_n000000 ## R Code plot(df[1:7])

1
異分散データに対する一元配置分散分析の代替
異なるサイズのサンプル(n_A = 15、n_B = 13、n_C = 12)を含む藻類バイオマスの3つのグループ(、B、C)からのデータがあり、これらのグループが同じ母集団からのものかどうかを比較したいと思います。BAAABBBn A = 15 n B = 13 n C = 12CCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 一元配置分散分析は間違いなく進むべき道ですが、私のデータに対して正規性テストを実施する際には、ヘテロスケダシティーが主な問題のようです。私の生データは、変換なしで、臨界値(F _ {\ rm crit} = 4.16)より非常に高い分散比(Fmax=19.1Fmax=19.1F_{\max} = 19.1)を生成したため、一元配置分散分析を実行できません。Fcrit=4.16Fcrit=4.16F_{\rm crit} = 4.16 また、データを正規化するための変換も試みました。さまざまな変換(対数、平方根、平方)の試行後でも、\ log_ {10}変換による変換後に生成された最低のF _ {\ max}は7.16であり、F _ {\ rm crit}と比較して依然として高かった。FmaxFmaxF_{\max}log10log10\log_{10}7.167.167.16FcritFcritF_{\rm crit} ここから誰がここからどこに行くべきかをアドバイスできますか?データで正規化する他の変換方法は考えられません。一元配置分散分析に代わるものはありますか? PS:私の生データは以下の通りです: A: 0.178 0.195 0.225 0.294 0.315 0.341 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.