普通の形が大好き
ほとんどの場合、それらを通常のように動作させようとします。ビューの分類子ではなく、特徴抽出ビュー!
どの変換?
変換を選択する際の主な基準は次のとおりです。データにどのような作品?上記の例が示すように、同様に二つの質問を考慮することが重要です。
たとえば、値が非常に小さいまたは非常に大きくなるにつれて行動を制限するという点で、何が物理的(生物学的、経済的、なんでも)理にかなっていますか?この質問は、しばしば対数の使用につながります。
寸法と単位をシンプルで便利に保つことはできますか?可能ならば、我々は考えるが容易な測定スケールを好みます。
ボリュームの立方根と面積の平方根は両方とも長さの次元を持っているため、複雑な問題からは遠く、このような変換はそれらを単純化するかもしれません。先に述べたように逆数は通常、簡単なユニットを持っています。多くの場合、しかし、やや複雑な単位がなされなければなら犠牲にしています。
何を使用するか
入門データ解析における最も有用な変換は相反、対数、立方根、平方根、および正方形です。それが強調されていない場合でも、以下では、変換のみ、彼らは結果として(有限)実数を得た上で範囲にわたって使用されていることを想定しています。
- 逆数:1 / Xの逆数、xは、その負の逆数に-1 / X X兄弟と、分布形状に劇的な効果を有する非常に強力な変換です。ゼロ値には適用できません。負の値に適用できますが、すべての値が正でない限り、役に立ちません。比率の逆数は、比率自体と同じくらい簡単に解釈されることがよくあります:例:
- 人口密度(単位面積あたりの人)は、一人あたりの面積になります
- 医師1人あたりの人数は医師1人あたりの医師になります
- 侵食の速度は単位深さを侵食する時間になります
(実際には、我々は乗算や管理が容易です番号を取得するには、そのような1000万のようないくつかの定数で逆数を取った結果を、分割したいが、それ自体は歪度や直線性に影響を及ぼさないかもしれません。)
相互反転は、同じ符号の値間の順序:最大等同じ符号の値のうち負の逆数ジャム順序、最小となります。
線形作られる-
ので、応答変数yが記録されるべきであること。(ここで、EXP()約2.71828、電源Eに上げる手段、自然対数の底です)。この指数関数的な成長または減退式に脇:
、およびl n y= l n a + b xX = 0y= a e x p (0 )= a したがって、aはx = 0の場合の量またはカウントです。aおよびb> 0の場合、yはより速い速度で成長します(複利または未確認の人口増加など)。一方、a> 0およびb <0の場合、yますます遅い速度で減少します(例えば、放射性崩壊)。
- パワー関数:
y= a xbL O Gy= l o ga + b l o gバツ
X = 0b>0
y=axb=0
- 比率y = p / qを考慮します。pとqは両方とも実際には正です。
例は次のとおりです。
- 男性/女性
- 扶養家族/労働者
- 下流の長さ/下流の長さ
yは0から無限大の間、または最後のケースでは1から無限大の間です。もしP = Qクリア下限と明確な上限があるため、次にY = 1このような定義は、多くの場合、スキューデータをもたらします。ただし、対数、つまり
log y = log p / q = log p-log qは-infinityとinfinityの間にあり、p = qはlog y = 0を意味します。したがって、このような比率の対数はより対称的に分布する可能性があります。
- x2
y=a+bx+cx2
二次関数は通常
、データ領域内の関係を模倣できるという理由だけで使用されます。地域彼らはことが、社外
彼らは、xの極端な値のための任意の大きさの値をとるので、非常に悪い振る舞い、と切片aが0になるように制約されない限り、彼らは非現実近い原点に振る舞うことがあります。