歪んだデータがモデリングに好ましくないのはなぜですか？

16

多くの場合、人々が変数変換（予測変数と応答変数の両方）について話すとき、データの歪度を処理する方法（ログ変換、ボックスおよびcox変換など）について議論します。私が理解できないのは、歪度を除去することがこのような一般的なベストプラクティスと考えられる理由です。歪度は、ツリーベースのモデル、線形モデル、非線形モデルなどのさまざまな種類のモデルのパフォーマンスにどのように影響しますか？どのようなモデルが歪度の影響をより強く受けますか？その理由は？

modeling skewness

— サウラヴ・シェカル
ソース

2

合理的な答えを出すために、a）データ、b）モデリング、c）モデルの意味を明確にしてください。重要な質問-いつものように-あなたがそれでやりたいことです。しかし、それは何ですか？

— ケルブ

回答を更新して、関連する引用を追加し、クレームを拡張しました。

— タヴロック

11

歪度を除去するとき、変換はデータセットがガウス分布に従うようにしようとしています。その理由は、データセットを統計的にガウスデータセットに十分に近い値に変換できる場合、可能な限り最大のツールセットを使用できるからです。例えばANOVAとして試験検定は、検定、および他の多くは、一定の分散を有するデータ依存（）またはガウス分布に従います。¹ $t$ $F$ $\sigma^2$

より堅牢なモデル¹（バートレットのテストの代わりにレバインのテストを使用するなど）がありますが、他のディストリビューションで適切に機能するほとんどのテストおよびモデルでは、使用しているディストリビューションを知っている必要があり、通常は単一のディストリビューションにのみ適しています同様に。

NIST Engineering Statistics Handbookを引用するには：

回帰モデリングでは、多くの場合、変換を適用して次の2つの目標を達成します。

誤差の分散の均一性の仮定を満たすため。

可能な限り近似を線形化する。

これらの2つの目標が矛盾する可能性があるため、注意と判断が必要です。一般に、最初に均一な分散を達成してから、近似を線形化しようとする問題に取り組みます。

そして別の場所で

応答変数と単一の独立変数を含むモデルの形式は次のとおりです。

$Y_{私} = f （ {バツ}_{私} ） + E_{私}$ $Y_i=f\left(X_i\right)+E_i$
ここで、は応答変数、は独立変数、は線形または非線形フィット関数、はランダム成分です。良いモデルの場合、エラーコンポーネントは次のように動作する必要があります。 $Y$ $X$ $f$ $E$

ランダムな描画（つまり、独立した）;

固定配布から。

固定位置で; そして

固定のバリエーション。

さらに、フィッティングモデルの場合、通常、固定分布は正規であり、固定位置はゼロであるとさらに仮定されます。良いモデルの場合、固定変動は可能な限り小さくする必要があります。モデルの適合に必要な要素は、誤差成分のこれらの仮定を検証し、誤差成分の変動が十分に小さいかどうかを評価することです。ヒストグラム、ラグプロット、および正規確率プロットを使用して、誤差成分の固定分布、位置、および変動の仮定を検証します。応答変数と予測値と独立変数のプロットを使用して、変動が十分に小さいかどうかを評価します。独立変数と予測値に対する残差のプロットを使用して、独立性の仮定を評価します。

上記の仮定に基づいて適合の妥当性と品質を評価することは、モデル適合プロセスの絶対に不可欠な部分です。適切なモデル検証ステップがなければ、完全なフィットとは見なされません。

（略称）クレームの引用：
- Breyfogle III、フォレストW。シックスシグマの実装
- Pyzdek、トーマス。シックスシグマハンドブック
- モンゴメリー、ダグラスC. 統計的品質管理入門
- エド。Cubberly、Wilaim HおよびBakerjan、Ramon。ツールおよび製造エンジニアハンドブック：デスクトップ版

— タヴロック
ソース

ご回答ありがとうございますTavrock。しかし、私の知る限り、ANOVAまたはF検定のt検定は決定ツリーでは使用されません（少なくとも分割を実行するため）。また、線形回帰では、分布の形状に関するほとんどの仮定はエラーに関連しています。エラーが歪んでいる場合、これらのテストは失敗します。したがって、これは、予測変数の歪度がこれらのモデルの予測の品質に影響しないことを意味します。私が間違っている場合は修正してください。再度、感謝します！！

— シェカールsaurav

1

あなたの質問を明確にすることができます-応答変数の変換、または予測変数の変換、またはその両方について知りたいですか？

— Groovy_Worm

1

@Groovy_Wormそれを指摘してくれてありがとう。この質問では、予測変数と応答変数の両方が心配です。

— シェカールsaurav

一般化線形モデリング（GLM）を探しているかもしれません。線形回帰では、通常、従属変数は確率変数Xおよびeを条件とするガウス分布に従うと仮定します。GLMを使用すると、ユニバースを拡張して、（指定したリンク関数を介して）従属変数、独立変数の（ほぼ）任意のタイプの分布を可能にすることができます。

— クリスK

7

これは主にパラメトリックモデルに当てはまります。Tavrockが言ったように、歪んでいない応答変数を使用すると、パラメーター推定のガウス近似がよりよく機能します。これは、対称分布が歪んだものよりもガウスにはるかに速く収束するためです。つまり、データが歪んでいる場合、それを変換すると、適切な信頼区間とパラメーターのテストを使用するための最小のデータセットが最小になります（データが対称になったとしても、予測区間はまだ有効ではありません通常、パラメータ推定のみがガウスに収束します）。

このスピーチ全体は、応答変数の条件付き分布に関するものです。エラーについてです。それにもかかわらず、彼の無条件分布を見たときに歪んでいると思われる変数がある場合、それはおそらくそれが歪んだ条件付き分布を持っていることを意味する可能性があります。データにモデルを当てはめると、そのデータに対する思いが明確になります。

デシジョンツリーでは、まず1つのことを指摘します。歪んだ説明変数を変換しても意味がありません。単調関数は変化しません。これは線形モデルでは役立ちますが、決定木では役立ちません。これは、CARTモデルは分散分析を使用して唾を吐き出し、分散は外れ値や歪んだデータに非常に敏感であるため、応答変数を変換するとモデルの精度が大幅に向上する理由です。

— カルロ
ソース

1

これは、その優れた特性のためにガウスに戻る伝統の成果物であると私は信じています。

しかし、素敵な分布の選択肢があります。たとえば、さまざまな歪んだ分布の形や形を包含する一般化されたガンマです。

— 顕著な
ソース

1

他の読者が言ったように、あなたがあなたのデータで達成することを計画していることについてのもう少しの背景は役に立つでしょう。

そうは言っても、統計の領域には、中心極限定理と多数の法則として知られる2つの重要な教義があります。つまり、観測数が多いほど、データセットは、平均、中央値、およびモードが等しい正規分布に近づくと予想されます。多数の法則の下では、十分な観測が行われると、期待値と実際の値との偏差が最終的にゼロに低下することが予想されます。

したがって、正規分布を使用すると、基礎となる分布がわかっている場合、研究者は母集団についてより正確な予測を行うことができます。

歪度は、分布がこれから逸脱する場合、つまり偏差が正または負に歪む可能性がある場合です。ただし、中心極限定理は、十分な大きさの観測セットが与えられると、結果はほぼ正規分布になると主張します。そのため、分布が正常でない場合は、前述の変換手順を介して分布の基本構造を変更しようとする前に、まずより多くのデータを収集することを常にお勧めします。

— マイケル・グローガン
ソース

1

歪度が悪いのはいつですか？対称分布（通常、ただし常にではありません。たとえば、Cauchy分布ではありません）は、中央値、モード、および平均が互いに非常に近いものです。そのため、母集団の位置を測定する場合は、中央値、最頻値、平均値を互いに近くすると便利です。

$\ln 0=-\infty$

wwwから購入した25ドルの収入（キロドル）の例

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

最初の列の歪度は0.99で、2番目の列の歪度は-0.05です。最初の列は正常ではない可能性が高く（Shapiro-Wilk p = 0.04）、2番目の列はそれほど正常ではありません（p = 0.57）。

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

$\exp[\text{mean}\ln(k\$)]\text{ }$

明らかに、ここの対数正規はより良いモデルであり、平均対数は位置のより良い尺度を与えます。これが完全に理解されていない場合でも、よく知られていることは、「5桁の給与を取得する予定です」というフレーズで示されています。

— カール
ソース

0

ほとんどの結果はガウスの仮定に基づいています。分布が歪んでいる場合は、ガウス分布ではないため、必然的にそれを変換する必要があります。

しかし、もちろん、GLMで試すことができます。

— レッドノイズ
ソース

0

それは単なるモデリングではなく、私たちの脳は非常に歪んだデータを扱うために使われていないと思います。たとえば、行動ファイナンスでは、非常に低い確率または高い確率を推定するのが得意ではないことがよく知られています。

— アクサカル
ソース