左に歪んだ分布を持つことの欠点は何ですか?


7

現在、分類の問題に取り組んでおり、数値列が歪んでいます。左歪度を修正するためにログ変換またはボックスコックス変換を行うことを人々が推奨している多くの投稿を読んだことがあります。

それで、歪度をそのままにしてモデルの構築を続行するとどうなるのだろうと思いましたか。分類問題(knn、ロジスティック回帰)の歪度を修正する利点はありますか?

回答:


4

データの特定の機能と分析アプローチに依存する問題がありますが、一般に、データが(どちらかの方向に)歪んでいると、発生するはるかにまれなケースに対処するために、より「典型的な」ケースを説明するモデルの機能の一部が低下します。極端な値を取る。

「典型的な」ケースは、歪んだデータセットの極端なケースよりも一般的であるため、まれにしか表示されないケースに対応するために、最も頻繁に表示されるケースでは精度がいくらか失われます。[0,10]の間のすべての1000観測の係数を決定することは、[0,10]の間の990観測と[1,000、1,000,000]の間の10観測よりも正確である可能性があります。これにより、モデル全体の有用性が低下する可能性があります。

「固定」歪度は、データがほぼ正規分布されているかどうかに応じて分析を行うことなど、さまざまな利点を提供できます。また、適切なスケールで報告される結果(非常に状況に依存します)を生成し、予測された分類に対する歪んだ予測子の影響を(他の予測子と比較して)極端な値で過大または過小に見積もることを防ぎます。

データのさまざまなサブセットを使用してモデルをトレーニングすることにより、これをいくらか(確実ではない方法で)テストできます。つまり、得られたすべてのデータを、そのままの状態で、歪んだ変数なしで、その変数を使用してデータを取得します。ただし、「典型的な」範囲外の値は除外します(ただし、その定義には注意が必要です)、歪んだ変数の分布が変換または再スケーリングされたデータなど。

それを修正することに関しては、変換と再スケーリングはしばしば意味があります。しかし、私は十分に強調することはできません:

変数とその分布をいじるには、モデリングの利便性ではなく、それらの変数のプロパティを使用する必要があります。

対数変換スキュー変数は、この主な例です。

  • 変数が幾何学的なスケールで動作することを本当に考えており、モデルを算術的なスケールで動作させたい場合、対数変換は非常に理にかなっています。
  • 変数が算術スケールで動作すると思いますが、その分布が不便であり、対数変換がより便利な分布を生成すると考える場合、変換することは理にかなっています。これにより、モデルの使用方法と解釈方法が変わり、通常はモデルの密度が高くなり、明確に解釈することが難しくなりますが、それでも価値がある場合とそうでない場合があります。たとえば、数値結果のログと数値予測子のログを取得する場合、結果はそれらの間の弾性として解釈する必要があります。これは、扱いにくい場合があり、多くの場合望ましいものではありません。
  • 変数には対数変換が望ましいと思われるが、値が0である多くの観測値がある場合、対数変換は、便利かどうかにかかわらず、実際にはオプションではありません。(0の観測値に「小さい値」を追加すると、多くの問題が発生します。1〜10のログを取ってから、0.0〜1.0にします)

私は価格などの数値列を持っていると仮定し、それは大幅に歪んでいます。いくつかの基本的な分類アルゴリズムを使用することを考えています。私のアプローチはどうあるべきですか?対数変換またはボックスコックス変換のどちらを使用する必要がありますか?
user_6396

@ user214左に傾いた価格情報?面白そうですね!(私の研究データは一般的に右に大きく歪んでいます)。研究のコンテキストには常にばらつきがありますが、私は通常、お金は対数変換が適切である(または少なくとも強く防御可能である)「幾何学的に十分」と考えています。それが理想的な変換であるかどうかは答えるのが非常に難しい質問ですが、ここではログ変換が問題になることはほとんどありません。その予測子についてのすべてが対数スケールで報告され、それに応じて解釈されることを覚えておく必要があります。
Upper_Case

4

@Upper_Caseの要点によく同意します。質問の「機械学習」の側面に重点を置く視点を提示したいと思います。

kNN、ロジスティック回帰、カーネルSVM、または非線形ニューラルネットワークを使用する分類タスクの場合、懸念される主な欠点は、検証セットのAUCスコアの低下など、モデルのパフォーマンスの低下です。

結果の品質に対する歪度損傷を評価することが困難な場合、歪度の他の欠点がよく調査されます。ّただし、分類の問題では、元の(歪んだ)モデルと変換された機能を使用してモデルを一度トレーニングして検証できます。 、 その後

  1. パフォーマンスが低下した場合、私たちは変形しません、
  2. パフォーマンスが向上したら変革します。

言い換えれば、歪度の損傷は簡単かつ客観的に評価できるため、これらの正当化は私たちの決定は影響せず、パフォーマンスのみが影響します。

対数変換を使用することの正当性を詳しく見てみると、モデルまたはテストが直接操作する最終的な機能についていくつかの仮定がなされている場合、それらは当てはまります。最終的な特徴は生の特徴の関数です。その機能はアイデンティティでありえます。たとえば、モデル(またはテスト)は、最終的な特徴が正常であるか、少なくとも平均値の周りで対称であるか、線形的に加算される必要があると想定する場合があります。次に、生の特徴は左に歪んでいて、対数変換を実行して、最終的な特徴を課された仮定に合わせる場合があります。

ここで重要な複雑な点は、生の特徴の分布変更できないことであり、変更することはできません。課せられた仮定にさらに整合した異なる分布を持つ最終的な特徴を(生の特徴の関数として)作成するだけです。

kNN、ロジスティック回帰、カーネルSVM、または非線形ニューラルネットワークを使用した分類タスクの場合、最終的な特徴の分布に関する正規性や対称性の仮定はありません。したがって、この点に関してこれらのモデルからの力はありません。ただし、ロジスティック回帰モデルでは、「線形加算」仮定の影を追跡できます。すなわち、 とニューラルネットワークでは、最初のレイヤーの特徴の重み付き合計、つまり

P(y=1|x)=11+e(w1x1+..+wdxd)
yi=f(Wi,.x+b)=f(Wi,1x1+Wi,2x2+...+b)
ターゲット変数は直接最終的な特徴の線形加算ではないため、「影」と言います。加算は、これらのモデルをこの仮定の違反に対してより堅牢にすることができる1つ以上の非線形変換を通過します。一方で、kNNまたはkernelSVMには、線形相互作用の仮定は存在しません。これは、特徴の相互作用ではなくサンプル間距離で機能するためです。

ただし、これらの正当化は、モデル評価の結果に比べて2番目に優先されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.