回答:
データの特定の機能と分析アプローチに依存する問題がありますが、一般に、データが(どちらかの方向に)歪んでいると、発生するはるかにまれなケースに対処するために、より「典型的な」ケースを説明するモデルの機能の一部が低下します。極端な値を取る。
「典型的な」ケースは、歪んだデータセットの極端なケースよりも一般的であるため、まれにしか表示されないケースに対応するために、最も頻繁に表示されるケースでは精度がいくらか失われます。[0,10]の間のすべての1000観測の係数を決定することは、[0,10]の間の990観測と[1,000、1,000,000]の間の10観測よりも正確である可能性があります。これにより、モデル全体の有用性が低下する可能性があります。
「固定」歪度は、データがほぼ正規分布されているかどうかに応じて分析を行うことなど、さまざまな利点を提供できます。また、適切なスケールで報告される結果(非常に状況に依存します)を生成し、予測された分類に対する歪んだ予測子の影響を(他の予測子と比較して)極端な値で過大または過小に見積もることを防ぎます。
データのさまざまなサブセットを使用してモデルをトレーニングすることにより、これをいくらか(確実ではない方法で)テストできます。つまり、得られたすべてのデータを、そのままの状態で、歪んだ変数なしで、その変数を使用してデータを取得します。ただし、「典型的な」範囲外の値は除外します(ただし、その定義には注意が必要です)、歪んだ変数の分布が変換または再スケーリングされたデータなど。
それを修正することに関しては、変換と再スケーリングはしばしば意味があります。しかし、私は十分に強調することはできません:
対数変換スキュー変数は、この主な例です。
@Upper_Caseの要点によく同意します。質問の「機械学習」の側面に重点を置く視点を提示したいと思います。
kNN、ロジスティック回帰、カーネルSVM、または非線形ニューラルネットワークを使用する分類タスクの場合、懸念される主な欠点は、検証セットのAUCスコアの低下など、モデルのパフォーマンスの低下です。
結果の品質に対する歪度の損傷を評価することが困難な場合、歪度の他の欠点がよく調査されます。ّただし、分類の問題では、元の(歪んだ)モデルと変換された機能を使用してモデルを一度トレーニングして検証できます。 、 その後
言い換えれば、歪度の損傷は簡単かつ客観的に評価できるため、これらの正当化は私たちの決定には影響せず、パフォーマンスのみが影響します。
対数変換を使用することの正当性を詳しく見てみると、モデルまたはテストが直接操作する最終的な機能についていくつかの仮定がなされている場合、それらは当てはまります。最終的な特徴は生の特徴の関数です。その機能はアイデンティティでありえます。たとえば、モデル(またはテスト)は、最終的な特徴が正常であるか、少なくとも平均値の周りで対称であるか、線形的に加算される必要があると想定する場合があります。次に、生の特徴は左に歪んでいて、対数変換を実行して、最終的な特徴を課された仮定に合わせる場合があります。
ここで重要な複雑な点は、生の特徴の分布を変更できないことであり、変更することはできません。課せられた仮定にさらに整合した異なる分布を持つ最終的な特徴を(生の特徴の関数として)作成するだけです。
kNN、ロジスティック回帰、カーネルSVM、または非線形ニューラルネットワークを使用した分類タスクの場合、最終的な特徴の分布に関する正規性や対称性の仮定はありません。したがって、この点に関してこれらのモデルからの力はありません。ただし、ロジスティック回帰モデルでは、「線形加算」仮定の影を追跡できます。すなわち、
とニューラルネットワークでは、最初のレイヤーの特徴の重み付き合計、つまり
ただし、これらの正当化は、モデル評価の結果に比べて2番目に優先されます。