統計とビッグデータ data-transformation

12

正のデータに大きな偏りがある場合、ログを取得することがよくあります。しかし、ゼロを含む非常に歪んだ非負データではどうすればよいですか？私は2つの変換が使用されているのを見ました：ログ（x + 1 ）log⁡(x+1)\log(x+1)0が0にマッピングされるというきちんとした機能を持つ。ログ（x + c ）log⁡(x+c)\log(x+c)ここで、cは推定されるか、非常に小さな正の値に設定されます。他のアプローチはありますか？あるアプローチを他のアプローチよりも好む理由はありますか？

191 data-transformation large-data

9

Rのグループごとにデータを要約するには？[閉まっている]

次のようなRデータフレームがあります。 age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... 次の形式でデータフレームを取得する必要があります。 group mean sd 1 34.5 5.6 2 32.3 4.2 ... グループ番号は異なる場合がありますが、名前と数量は levels(factor(data$group)) 結果を得るには、データをどのように操作する必要がありますか？

181 r data-transformation

2

いつ（そしてなぜ）分布の（数の）ログを取るべきですか？

たとえば、過去の株価、航空券の価格変動、会社の過去の財務データなど、いくつかの履歴データがあるとします... 今、誰か（または何らかの数式）がやって来て、「配布のログを取得/使用しましょう」と言って、ここに行くのはなぜですか？質問：そもそも分布のログを取るべきなのはなぜですか？ディストリビューションのログは、元のディストリビューションではできなかった/できなかった「与える/単純化する」ものは何ですか？ログ変換は「ロスレス」ですか？すなわち、対数空間に変換してデータを分析するとき、元の分布についても同じ結論が成立しますか？どうして？そして最後に、分布のログを取得するのはいつですか？どのような条件下でこれを行うことにしますか？私は本当にログベースの分布（たとえばlognormal）を理解したかったのですが、いつ/なぜアスペクトを理解したことがありません-すなわち、分布のログは正規分布です。それは私に何を伝え、何故わざわざしますかしたがって、質問！更新：@whuberのコメントに従って、私は投稿を見ましたが、独立変数と従属変数のログの間に関係を描くことができるので、何らかの理由で線形回帰でのログ変換の使用とその適用を理解しています。ただし、私の質問は、分布そのものを分析するという意味では一般的です。ログを取り、分布を分析する理由を理解するのに役立つと結論付けることができる関係自体はありません。私は理にかなっていると思います：-/ 回帰分析では、データのタイプ/フィット/分布に制約があり、それを変換して、独立変数と（変換されていない）従属変数間の関係を定義できます。しかし、型/適合/分布の制約がフレームワークで必ずしも適用できない場合（回帰のような）分離の分布に対していつ/なぜそうするのか。明確にすることで混乱するよりも明らかになることを願っています:) この質問は、「なぜ、いつ」に関する明確な答えに値します

174 distributions data-transformation logarithm

8

線形回帰では、実際の値の代わりに独立変数のログを使用するのが適切なのはいつですか？

問題の独立変数のより良い振る舞いの分布を探していますか、または外れ値の影響を減らすか、何か他のものを探していますか？

164 regression distributions data-transformation logarithm regression-strategies

1

平方根変換がカウントデータに推奨されるのはなぜですか？

カウントデータがある場合は、平方根を取ることをお勧めします。（CVのいくつかの例については、ここで@HarveyMotulskyの答え、またはここで@whuberの答えを参照してください。）一方、ポアソンとして分布した応答変数を使用して一般化線形モデルを近似する場合、ログは正規リンクです。これは、応答データのログ変換を行うようなものです（より正確には、応答分布を制御するパラメーターログ変換を行うことです）。したがって、これら2つの間には緊張があります。 λλ\lambda この（明らかな）矛盾をどのように調整しますか？平方根が対数よりも優れているのはなぜですか？

57 generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing

5

ゼロのログを取ることを回避するために、xにどのくらいの量を追加する必要がありますか？

データをそのまま分析しました。次に、すべての変数のログを取得した後、分析を確認します。多くの変数には多くのゼロが含まれています。したがって、ゼロの対数をとらないように少量を追加します。これまでのところ、論理的に根拠なく10 ^ -10を追加しました。これは、任意に選択した数量の影響を最小限に抑えるために、ごく少量を追加することが望ましいと考えたからです。ただし、一部の変数にはほとんどゼロが含まれているため、ほとんどの場合、-23.02に記録されます。私の変数の範囲の範囲は1.33-8819.21で、ゼロの頻度も劇的に変化します。したがって、「少量」という私の個人的な選択は、変数に非常に異なる影響を与えます。すべての変数の分散の大部分はこの任意の「少量」に由来するため、10 ^ -10が完全に受け入れられない選択であることは明らかです。これを行うためのより正しい方法は何でしょうか。たぶん、各変数の個々の分布から量を導き出す方が良いでしょうか？この「少量」の大きさに関するガイドラインはありますか？私の分析は主に、各変数と年齢/性別をIVとする単純なcoxモデルです。変数はさまざまな血中脂質の濃度であり、多くの場合、かなりの変動係数があります。編集：変数のゼロ以外の最小値を追加すると、私のデータにとって実用的と思われます。しかし、おそらく一般的な解決策はありますか？編集2：ゼロは単に検出限界以下の濃度を示すので、多分それらを（検出限界）/ 2に設定するのが適切でしょうか？

57 data-transformation chemometrics

8

カテゴリデータを連続として扱うのは理にかなっていますか？

離散データと連続データに関するこの質問に答える際、カテゴリデータを連続データとして扱うことはほとんど意味がないと断言しました。一見すると自明のように思えますが、直観はしばしば統計の貧弱なガイドであり、少なくとも私の場合はそうです。だから今私は疑問に思う：それは本当ですか？または、カテゴリデータから連続体への変換が実際に役立つ分析が確立されていますか？データが序数である場合、違いが生じますか？

57 categorical-data data-transformation ordinal-data continuous-data

3

ログスケールはいつ適切ですか？

時系列グラフのy軸など、特定の状況でグラフ化/グラフ化が適切な場合にログスケールを使用することを読みました。しかし、なぜそうなのか、それが適切な場合についての明確な説明を見つけることができませんでした。私は統計学者ではないので、この点を完全に見逃しているかもしれないことを覚えておいてください。もしそうなら、改善策の方向性に感謝します。

57 data-visualization data-transformation

3

独立変数のBox-Coxのような変換？

独立変数のBox-Coxのような変換はありますか？つまり、変数を最適化して、線形モデルにより適したものにするための変換ですか？バツバツxy~f(x) もしそうなら、これを実行する機能はありRますか？

53 r regression data-transformation normality-assumption

1

Scikit-learnでのワンホットエンコーディングとダミーエンコーディング

カテゴリー変数をエンコードするには、2つの異なる方法があります。たとえば、1つのカテゴリ変数にn個の値があります。ワンホットエンコーディングに変換してN個の変数ながらダミーコードへと変換し、N-1の変数。カテゴリ変数がk個あり、それぞれにn個の値がある場合。1つのホットエンコーディングはkn変数で終わり、ダミーエンコーディングはkn-k変数で終わります。ワンホットエンコーディングの場合、インターセプトにより共線性の問題が発生し、モデルが正常に機能しないことがあります。誰かがそれを「ダミー変数トラップ」と呼びます。私の質問： Scikit-learnの線形回帰モデルにより、ユーザーはインターセプトを無効にできます。ワンホットエンコーディングの場合、常にfit_intercept = Falseを設定する必要がありますか？ダミーエンコーディングの場合、fit_interceptは常にTrueに設定する必要がありますか？ウェブサイトに「警告」は表示されません。ワンホットエンコーディングではより多くの変数が生成されるため、ダミーエンコーディングよりも自由度が高くなりますか？

50 regression categorical-data data-transformation scikit-learn data-preprocessing

1

予測が目標である場合、標準化/正規化をトレーニングおよびテストセットに適用する方法は？

すべてのデータまたはフォールド（CVが適用されている場合）を同時に変換しますか？例えば (allData - mean(allData)) / sd(allData) trainsetとtestsetを別々に変換しますか？例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) または、トレインセットを変換し、テストセットで計算を使用しますか？例えば (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 3は正しい方法だと思います。3が正しい場合、平均が0でないこと、または範囲が[0;の間にないことを心配する必要があります。1]または[-1; 1]テストセットの（正規化）？

47 r cross-validation data-transformation normalization standardization

3

対数変換された予測子および/または応答の解釈

従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのかと思います。の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

4

正規化とスケーリング

データ「正規化」とデータ「スケーリング」の違いは何ですか？今まで、両方の用語が同じプロセスを指していると思っていましたが、今では、私が知らない/理解していないものがあることに気付きました。また、正規化とスケーリングに違いがある場合、スケーリングではなく正規化をいつ使用する必要がありますか？例を挙げて詳しく説明してください。

45 data-transformation scales normality-assumption normalization

1

回帰：変数の変換

変数を変換する場合、同じ変換をすべて使用する必要がありますか？たとえば、次のように、さまざまに変換された変数を選択できますか。、してみましょう年齢、雇用の長さ、住宅の長さ、および収入こと。バツ1、x2、x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) または、変換と一貫性を保ち、すべてを同じように使用する必要がありますか？次のように： Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 私の理解では、変換の目標は正常性の問題に対処することです。各変数のヒストグラムを見ると、それらが非常に異なる分布を示していることがわかります。これにより、必要な変換は変数ごとに異なると信じられます。 ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) 最後に、それは使用して変数を変換する方法有効です持っているの値を？この変換は、すべての変数で一貫している必要がありますか、それとも含まない変数でもアドホックに使用されますか？x n 0 0ログ（xn+ 1 ）log⁡(xn+1)\log(x_n + 1)バツnxnx_n000000 ## R Code plot(df[1:7])

41 r regression logistic data-transformation

1

異分散データに対する一元配置分散分析の代替

異なるサイズのサンプル（n_A = 15、n_B = 13、n_C = 12）を含む藻類バイオマスの3つのグループ（、B、C）からのデータがあり、これらのグループが同じ母集団からのものかどうかを比較したいと思います。BAAABBBn A = 15 n B = 13 n C = 12CCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 一元配置分散分析は間違いなく進むべき道ですが、私のデータに対して正規性テストを実施する際には、ヘテロスケダシティーが主な問題のようです。私の生データは、変換なしで、臨界値（F _ {\ rm crit} = 4.16）より非常に高い分散比（Fmax=19.1Fmax=19.1F_{\max} = 19.1）を生成したため、一元配置分散分析を実行できません。Fcrit=4.16Fcrit=4.16F_{\rm crit} = 4.16 また、データを正規化するための変換も試みました。さまざまな変換（対数、平方根、平方）の試行後でも、\ log_ {10}変換による変換後に生成された最低のF _ {\ max}は7.16であり、F _ {\ rm crit}と比較して依然として高かった。FmaxFmaxF_{\max}log10log10\log_{10}7.167.167.16FcritFcritF_{\rm crit} ここから誰がここからどこに行くべきかをアドバイスできますか？データで正規化する他の変換方法は考えられません。一元配置分散分析に代わるものはありますか？ PS：私の生データは以下の通りです： A: 0.178 0.195 0.225 0.294 0.315 0.341 …

36 r anova data-transformation heteroscedasticity

タグ付けされた質問 「data-transformation」

タグ付けされた質問「data-transformation」