視覚化はデータを変換するための十分な根拠ですか?


13

問題

30のパラメーターのそれぞれによって説明される分散を、たとえばパラメーターごとに異なるバーを持つバープロットとして、y軸に分散をプロットしたいと思います。

代替テキスト

ただし、以下のヒストグラムに見られるように、分散は0を含む小さな値に向かって大きく偏っています。

代替テキスト

で変換すると、小さな値(以下のヒストグラムとバープロット)の違いが見やすくなります。log(x+1

代替テキスト代替テキスト

質問

logバツ+1

回答:


13

これは「開始対数」と呼ばれている人もいます(たとえば、ジョンチューキー)。(いくつかの例では、Google john tukey "started log")。

使用しても問題ありません。実際、従属変数の丸めに対応するために、ゼロ以外の開始値を使用する必要があります。たとえば、従属変数を最も近い整数に丸めると、実際の分散から1/12が実質的に切り捨てられ、妥当な開始値は少なくとも1/12であることが示唆されます。(この値は、これらのデータで悪い仕事をしません。1を超える他の値を使用しても、実際にはあまり変化しません。右下のプロットのすべての値をほぼ均一に上げます。)

対数(または開始されたログ)を使用して分散を評価するより深い理由があります。たとえば、対数スケールの推定値に対する分散プロットの勾配は、分散を安定させるためのBox-Coxパラメーターを推定します。いくつかの関連する変数に対するそのようなべき乗の分散の適合がしばしば観察されます。(これは理論的なものではなく、経験的な記述です。)

差異を提示することが目的の場合は、注意して進めてください。多くの聴衆(科学者を除く)は対数を理解できません。少なくとも開始値1を使用すると、他の開始値よりも説明と解釈が少し簡単になるというメリットがあります。考慮すべきことは、もちろん標準偏差であるそれらの根をプロットすることです。次のようになります。

代替テキスト

とにかく、目的がデータの探索、それらからの学習、モデルの適合、またはモデルの評価である場合、データおよびデータから派生した値の合理的なグラフィカル表現を見つけることを妨げないでください。これらの差異など。


1
説明と適切な用語/リファレンスをありがとう。聴衆は科学雑誌の読者であり、トピックは分散分解です。ログ変換の概念を理解することは前提条件ですが、このプレゼンテーションでさらに正当化が必要かどうかはまだわかりませんでした。ルートが適切な代替手段です。ありがとう。
デビッドルバウアー

3

それは合理的です。質問するより良い質問は、1を追加するのに適切な数かどうかです。あなたの最小は何でしたか?そもそも1だった場合、値が0のアイテムと値が1のアイテムの間に特定の間隔を課しています。学習領域によっては、オフセットとして0.5または1 / eを選択する方が合理的です。対数スケールに変換することの意味は、比率スケールがあることです。

しかし、私はプロットに悩まされています。歪んだ分布の裾に説明された分散のほとんどを持っているモデルが望ましい統計的性質を持っていると考えられるかどうかを尋ねます。私はそうは思いません。


私はそれが明確であるが、ヒストグラムは、分散の30の値であり、そしてbarplotsは分散の生の値であればわからない、つまりvar <- c(0,0,1,3,10,100,150), hist(var), barplot(var)、ほとんどのことはない、いくつかのパラメータは、分散のほとんどを説明するとして、私はこれを解釈して説明された分散の末尾にあります。それは理にかなっていますか?不明な場合は申し訳ありません。
デビッドルバウアー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.