入力データの機能変換


22

私はこのOTTO Kaggleチャレンジのソリューションについて読んでいましたが、そもそもソリューションは入力データXにいくつかの変換、たとえばLog(X + 1)、sqrt(X + 3/8)などを使用しているようです。どの種類の変換をさまざまな分類子に適用するかに関する一般的なガイドラインは?

平均値と最小値と正規化の概念を理解しています。ただし、上記の変換では、データのダイナミックレンジを圧縮するためにLogとSqrtが使用されていると思います。また、x軸のシフトはデータを再センタリングするためのものです。ただし、著者は、異なる分類器に入力する場合、同じ入力Xに対して異なる正規化方法を使用することを選択します。何か案は?


1
その種の式を何が示唆しているのかはわかりませんが、変数の指数を示唆するボックス-コックス変換を見たいと思うかもしれません。
anymous.asker

回答:


19

普通の形が大好き

ほとんどの場合、それらを通常のように動作させようとします。ビューの分類子ではなく、特徴抽出ビュー!

どの変換

変換を選択する際の主な基準は次のとおりです。データにどのような作品?上記の例が示すように、同様に二つの質問を考慮することが重要です。

たとえば、値が非常に小さいまたは非常に大きくなるにつれて行動を制限するという点で、何が物理的(生物学的、経済的、なんでも)理にかなっていますか?この質問は、しばしば対数の使用につながります。

寸法と単位をシンプルで便利に保つことはできますか?可能ならば、我々は考えるが容易な測定スケールを好みます。

ボリュームの立方根と面積の平方根は両方とも長さの次元を持っているため、複雑な問題からは遠く、このような変換はそれらを単純化するかもしれません。先に述べたように逆数は通常、簡単なユニットを持っています。多くの場合、しかし、やや複雑な単位がなされなければなら犠牲にしています。

何を使用する

入門データ解析における最も有用な変換は相反、対数、立方根、平方根、および正方形です。それが強調されていない場合でも、以下では、変換のみ、彼らは結果として(有限)実数を得た上で範囲にわたって使用されていることを想定しています。

  • 逆数:1 / Xの逆数、xは、その負の逆数に-1 / X X兄弟と、分布形状に劇的な効果を有する非常に強力な変換です。ゼロ値には適用できません。負の値に適用できますが、すべての値が正でない限り、役に立ちません。比率の逆数は、比率自体と同じくらい簡単に解釈されることがよくあります:例:
    • 人口密度(単位面積あたりの人)は、一人あたりの面積になります
    • 医師1人あたりの人数は医師1人あたりの医師になります
    • 侵食の速度は単位深さを侵食する時間になります

(実際には、我々は乗算や管理が容易です番号を取得するには、そのような1000万のようないくつかの定数で逆数を取った結果を、分割したいが、それ自体は歪度や直線性に影響を及ぼさないかもしれません。)

相互反転は、同じ符号の値間の順序:最大等同じ符号の値のうち負の逆数ジャム順序、最小となります。


  • 対数:対数、x log 10 x、またはx log exまたはln x、またはx log 2 xは、分布形状に大きな影響を与える強力な変換です。これは一般に、右スキューネスを低減するために使用され、多くの場合、測定された変数に適しています。ゼロまたは負の値には適用できません。対数目盛の1単位は、使用されている対数の底による乗算を意味します。指数関数的な成長または減少。

    • y=aexp(bx)

線形作られる- ので、応答変数yが記録されるべきであること。(ここで、EXP()約2.71828、電源Eに上げる手段、自然対数の底です)。この指数関数的な成長または減退式に脇: 、およびlny=lna+bxx=0y=aexp(0)=a したがって、aはx = 0の場合の量またはカウントです。aおよびb> 0の場合、yはより速い速度で成長します(複利または未確認の人口増加など)。一方、a> 0およびb <0の場合、yますます遅い速度で減少します(例えば、放射性崩壊)。


  • パワー関数
  • y=axblogy=loga+blogx
    x=0b>0

  • y=axb=0

    • 比率y = p / qを考慮します。pとqは両方とも実際には正です。
  • 例は次のとおりです。

    • 男性/女性
    • 扶養家族/労働者
    • 下流の長さ/下流の長さ
  • yは0から無限大の間、または最後のケースでは1から無限大の間です。もしP = Qクリア下限と明確な上限があるため、次にY = 1このような定義は、多くの場合、スキューデータをもたらします。ただし、対数、つまり

  • log y = log p / q = log p-log qは-infinityとinfinityの間にあり、p = qはlog y = 0を意味します。したがって、このような比率の対数はより対称的に分布する可能性があります。


  • キューブルート:キューブルート、x 1/3。これはかなり強い変換であり、分布形状に大きな影響を与えます。対数よりも弱いです。また、右の歪度を減らすために使用され、ゼロおよび負の値に適用できるという利点があります。ボリュームの立方根には長さの単位があることに注意してください。一般に降雨データに適用されます。

    • 負の値への適用には、特別な注意が必要です。
      (2)(2)(2)= 8および(-2)(-2)(-2)= -8を検討してください。これらの例
      は、負の数の立方根が負の符号を持ち
      、同等の正の数の立方根と同じ絶対値を持つことを示しています。同様のプロパティは
      、奇数の正の整数の逆数(累乗1 / 3、1 / 5、1 / 7など)である他のルートが所有しています。

    • このプロパティは少し繊細です。たとえば、パワーを1/3からほんの1ミッドジェンに変更すると、結果を正確に3つの項の積として定義できなくなります。ただし、このプロパティは有用な場合に利用されます。


  • x(1/2)

  • x2

    y=a+bx+cx2



    二次関数は通常
    、データ領域内の関係を模倣できるという理由だけで使用されます。地域彼らはことが、社外
    彼らは、xの極端な値のための任意の大きさの値をとるので、非常に悪い振る舞い、と切片aが0になるように制約されない限り、彼らは非現実近い原点に振る舞うことがあります。
    • (x)2x2


投稿ありがとう。本当に役に立ちました。元のデータを分離可能なデータに変換する方法を示すいくつかの例と図で補足できますか?
Mvkt

1
@svk:私は理解しやすい形式でフォーマットしました。hadiが答えを書いた人だと思います。私の推測が正しい場合、彼はいくつかの本からコピーした可能性があります。彼が何かを返事する/提案するかどうか見てみましょう。そうでなければ答えを書くだろう
-Toros91

2
Toros91それは、さまざまなソースの組み合わせだ、と述べた@として、私は非常に見ることをお勧めします トップKagglersから学ぶ:勝利へのデータの科学競争がどのようにしても STATAドキュメント
ハディgharibi

alrite。ただし、x軸をsq.rootまたはキューブルートスケールに変換する方法について、Pythonまたはmatlabでサンプルコードを投稿してください。MATLABは、対数スケールのためloglog関数がプロットされています。しかし、他のスケールのために、これらの変換の軸でプロットを持っていると便利だろう
Mvkt

1

これらの特定のものは、純粋なヒューリスティックである可能性があります。画像の場合はかなり標準的ですが、RGBをBGRに変更し、すべてのピクセルから平均値を減算します。これは、Imagenet、Pascal VOC、MS COCOなどのすべてのコンテスト/データセットで使用されます。その理由は、すべての画像が非常に異なる可能性があるため、ネットワークには標準化されたデータセットが提示されるためです。


0

ここでも同じ-これは見たことがありません。彼らはさまざまな変換を試み、最も効果的なものを選んだと思います。報告書では、他のいくつかの変換も問題ないと述べています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.