いつ(そしてなぜ)分布の(数の)ログを取るべきですか?


174

たとえば、過去の株価、航空券の価格変動、会社の過去の財務データなど、いくつかの履歴データがあるとします...

今、誰か(または何らかの数式)がやって来て、「配布のログを取得/使用しましょう」と言って、ここに行くのはなぜですか?

質問:

  1. そもそも分布のログを取るべきなのはなぜですか?
  2. ディストリビューションのログは、元のディストリビューションではできなかった/できなかった「与える/単純化する」ものは何ですか?
  3. ログ変換は「ロスレス」ですか?すなわち、対数空間に変換してデータを分析するとき、元の分布についても同じ結論が成立しますか?どうして?
  4. そして最後に、分布のログを取得するのはいつですか?どのような条件下でこれを行うことにしますか?

私は本当にログベースの分布(たとえばlognormal)を理解したかったのですが、いつ/なぜアスペクトを理解したことがありません-すなわち、分布のログは正規分布です。それは私に何を伝え、何故わざわざしますか したがって、質問!

更新:@whuberのコメントに従って、私は投稿を見ましたが、独立変数と従属変数のログの間に関係を描くことができるので、何らかの理由で線形回帰でのログ変換の使用とその適用を理解しています。ただし、私の質問は、分布そのものを分析するという意味では一般的です。ログを取り、分布を分析する理由を理解するのに役立つと結論付けることができる関係自体はありません。私は理にかなっていると思います:-/

回帰分析では、データのタイプ/フィット/分布に制約があり、それを変換して、独立変数と(変換されていない)従属変数間の関係を定義できます。しかし、型/適合/分布の制約がフレームワークで必ずしも適用できない場合(回帰のような)分離の分布に対していつ/なぜそうするのか。明確にすることで混乱するよりも明らかになることを願っています:)

この質問は、「なぜ、いつ」に関する明確な答えに値します


3
ここここでの以前の質問とほぼ同じ根拠になっているため、これらのスレッドを読み、質問を更新して、まだ対処されていないこの問題の側面に焦点を当ててください。また、#4(および#3の一部)は対数に関する基本的な質問であり、その答えは多くの場所で容易に見つかることに注意してください。
whuberの

1
説明が役立ちます。ただし、定数項のみを使用して(他の独立変数を使用しない)回帰は、平均値の周りのデータの変動を評価することになります。したがって、回帰で従属変数のログを取ることの効果を本当に理解していれば、ここで尋ねている(より単純な)状況をすでに理解してます。つまり、回帰に関する4つの質問すべてに対する回答が得られれば、「分離された配布」について再度質問する必要はありません。
whuberの

@whuber:なるほど...だから私は回帰でログを取る理由を理解していますが、そう教えられたからこそです-そうするという観点からそれを理解します。つまり、データが仮定に収まるようにするためです。線形回帰の。それが私の唯一の理解です。たぶん、私が見逃しているのは、ログを取ることの効果の「本当の理解」であり、それゆえ混乱...何か助けですか?;)
PhD

2
ああ、しかし、あなたはそれ以上のことを知っています。回帰でログを使用した後、結果が異なって解釈され、フィット値と信頼区間を逆変換することに注意することを知っているからです。最初は気づいていなかったとしても、混乱しないで、おそらくこれら4つの質問に対する多くの回答をすでに知っていることをお勧めします:-)。
whuber

2
ここの読者は、これらの密接に関連するスレッドを参照することもできます。これは、log-transformed-predictorの解釈、および線形回帰で対数変換された係数の解釈方法です。
GUNG

回答:


98

非線形であるが、などの線形モデルに変換できるモデルフォームを想定すると、指定されたモデルフォームを満たすために対数をとることが正当化されます。一般に、あなたは因果シリーズを持っているかどうかにかかわらず、あなたがのログ取りに正当化するか、正しいことになるだけの時間分散のことを証明することができているとき、の期待値に比例したlogY=β0+β1tYYYY2。以下の元のソースを覚えていないが、それは力変換の役割をうまく要約している。分布の仮定は、観測されたYではなく、常にエラープロセスに関するものであることに注意してください。したがって、シリーズが単純な定数で定義されない限り、適切な変換のために元のシリーズを分析することは明確な「ノー」です

違いを含む不当または不正確な変換は、不特定の異常/レベルシフト/時間の傾向またはパラメーターの変化またはエラー分散の変化に対処するための不自然な/想像力のない試みであるため、慎重に避ける必要があります。この典型的な例については、スライド60以降のhttp://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentationで3つのパルス異常(未処理)は、初期の研究者による不当なログ変換につながりました。残念ながら、現在の研究者の一部はまだ同じ間違いを犯しています。

最適なパワー変換は、Box-Coxテストを介して検出されます 。

  • -1。相互です
  • -.5は相反平方根です
  • 0.0は対数変換です
  • .5は正方形のトゥート変換であり、
  • 1.0は変換されません。

予測子/因果/サポートする入力系列がない場合、モデルはであり、エラー処理であるについて BUT の分布に関する要件はないことにしてください。この場合、に関する分布要件は直接ます。回帰や外因性入力モデルを使用した自己回帰移動平均モデル(ARMAXモデル)などのサポートシリーズがある場合、分布の仮定はすべてあり、の分布とは何の関係もありません。したがって、ARIMAモデルまたはARMAXモデルの場合、Yt=u+atYatatYtatYtY、その後の治療薬(変換)を示唆している最適のBox-Cox変換見つける前に。以前は、一部のアナリストは、と間の回帰係数を調べることで、のパーセント変化の結果としてのパーセント変化を反映できるように、と両方を推定的な方法で変換しました。要約すると、変換はドラッグのようなもので、いくつかは良いものもあれば、悪いものもあります!必要な場合にのみ使用し、その後は注意して使用してください。YYXYXlogYlogX


2
私は、ダウン票を残した人が、なぜこれがダウン票されたのかについての発言を残すことに同意します。Irishstatにとって、回答を残すための書式設定オプション、特にラテックスで方程式をマークアップするために使用できるオプションを利用すると、投稿を読むのがはるかに簡単になります。マークダウン編集のヘルプセクションを参照してください。このリンクは、投稿ボックスの右上隅(疑問符の付いたオレンジ色の円内)に回答を入力するたびに利用できます。
アンディW

4
引用された表 は、ダグラスC.モンゴメリー、エリザベスA.ペック、G。ジェフリーバイニングによる線形回帰分析入門にあります。
user1717828

@ user1717828 tu ..モンゴメリは時系列を含む長いひげを持っているので、私はいつもモンゴメリのファンでした
-IrishStat

二次モーメントと分散が互いに比例しているとは限らないのですか?分散は、2次モーメントから1次モーメントの2乗を引いたものに等しいという古典的な方程式があります。
information_interchange

あなたが言うように、分散は二次モーメントの関数です。別の意味はどこにあるのか。さらに、分散は(決定論的に)さまざまな時点で変化する可能性があります。pdfs.semanticscholar.org/09c4/…これは、電力変換によって修正されません。
IrishStat

108

対数スケールは相対的な変化(乗法)を通知し、線形スケールは絶対的な変化(追加)を通知します。それぞれをいつ使用しますか?相対的な変化を気にするときは、ログスケールを使用します。絶対的な変化を気にするときは、線形スケールを使用してください。これは分布にも当てはまりますが、数量または数量の変更にも当てはまります。

ここでは、「ケア」という言葉を非常に具体的かつ意図的に使用しています。モデルや目標がなければ、あなたの質問には答えられません。モデルまたは目標は、どの規模が重要かを定義します。何かをモデル化しようとしていて、そのメカニズムが相対的な変更を介して機能する場合、データに見られる動作をキャプチャするにはログスケールが重要です。しかし、基礎となるモデルのメカニズムが加算的である場合、線形スケールを使用する必要があります。

例。株式市場
1日目の在庫A:100。2日目 101。世界中のすべての在庫追跡サービスは、この変化を2つの方法で報告します。(1)+ 1。(2)+ 1%。1つ目は、絶対的な加法的変化の尺度です。2番目は相対的な変化の尺度です。$$$

相対的な変化と絶対的な変化の図:相対的な変化は同じですが、絶対的な変化は異なります
ストックAは 1から 1.10になります。ストックBは 100から 110になります。$$$$

株Aは10%増加し、株Bは10%増加しました(相対的なスケール、等しい)
...しかし、株Aは10セントを得ましたが、株Bは 10を得ました(Bはより高い絶対額を獲得しました)$

ログスペースに変換すると、相対的な変化は絶対的な変化として現れます。

ストックAはから = 0から.0413になります ストックBはから = 2から2.0413log10($1)log10($1.10)
log10($100)log10($110)

ここで、ログスペースの絶対差をとると、両方が.0413で変更されていることがわかります。

これらの変化の指標はどちらも重要であり、どちらが重要であるかは、投資モデルのみに依存します。2つのモデルがあります。(1)固定額の元本への投資、または(2)固定数の株式への投資。

モデル1:一定額の元本で投資する。

昨日の株式にコスト言う株当たり1、および株式B費 100シェアを。今日、彼らは両方のために1ドル上昇した 2とそれぞれ101。絶対的な変化は同一( 1)ですが、相対的な変化は劇的に異なります(Aで100%、Bで1%)。あなたが投資する元本の一定量を持っていることを考えると、言う 100、あなただけが昨日投資した場合、あなたが持っているだろうBの1株またはAの100株を買う余裕ができ Aと200を、または 101とをB.だからここでは、特にあなたが有限量の元本を持っているので、相対的な利益を「気にする」。$$$$$$$$

モデル2:固定数。

別のシナリオで、銀行が100株のブロックでしか購入できないとし、AまたはBの100株に投資することにしたと仮定します。前のケースでは、AまたはBを購入しても利益は同じです。 ( 100-各共有につき$ 1)。$

ここで、株価が時間とともに変動するランダム変数であると考え、一般的に株価の振る舞いを反映するモデルを考えたいと仮定します。そして、利益を最大化するためにこのモデルを使用したいとしましょう。x値が「株価」の単位であり、y値が特定の株価を観測する確率である確率分布を計算します。在庫Aと在庫Bに対してこれを行います。投資したい元本の固定額がある最初のシナリオを購読する場合、これらの分布のログを取ることは有益です。どうして?気にするのは、相対空間での分布の形状です。在庫が1から10になるか、10から100になるかは関係ありませんか?どちらの場合も10 倍です相対ゲイン。これは、単位ゲインがフォールドゲインに直接対応するという点で、ログスケール分布に自然に現れます。平均値は異なるが、相対的な変化が同じように分布している(1日のパーセント変化の分布が同じである)2つの株の場合、それらの対数分布の形状はシフトしたばかりです。逆に、線形分布の形状は同一ではなく、値の大きい分布ほど分散が大きくなります。

これらの同じ分布を線形空間または絶対空間で見ると、株価の値が高いほど変動が大きいと考えられます。ただし、相対的な利益のみが重要である投資目的では、これは必ずしも真実ではありません。

例2.化学反応。 可逆反応を起こす2つの分子AとBがあるとします。

AB

個々のレート定数によって定義されます

() ()kabABkbaBA

それらの平衡は、関係によって定義されます。

K=kabkba=[A][B]

ここに2つのポイント。(1)これは、と濃度間の乗法的関係です。(2)この関係はarbitrary意的ではなく、分子が互いにぶつかり反応するのを支配する基本的な物理化学的性質から直接生じます。BAB

ここで、AまたはBの濃度の分布があるとします。その分布の適切なスケールは対数空間にあります。これは、いずれかの濃度がどのように変化するかのモデルが乗法的に定義されるためです(Aの濃度とBの濃度の逆数の積)。代替宇宙では、この濃度分布を絶対的な線形空間で見ることができます。K=kabkba=[A][B]

とはいえ、株式市場の予測であれ、化学反応速度論であれ、モデルがある場合、値の範囲がである限り、線形空間と対数空間の間で常に「ロスレス」に相互変換できます。線形分布と対数スケール分布のどちらを見るかは、データから取得しようとしているものによって異なります。(0,inf)

EDIT。直感を構築するのに役立った興味深い類似点は、算術平均幾何平均の例です。算術(バニラ)平均は、絶対差が重要な隠されたモデルを想定して、数値の平均を計算します。例。1と100の算術平均は50.5です。ただし、濃度間の化学的関係が乗法的である濃度について話しているとします。次に、平均濃度を対数スケールで実際に計算する必要があります。これは幾何平均と呼ばれます。1と100の幾何平均は10です!相対差の観点では、これは理にかなっています:10/1 = 10、および100/10 = 10、つまり、平均値と2つの値の間の相対変化は同じです。さらに、同じことがわかります。50.5-1 = 49.5、および100-50.5 = 49.5。


2
これは本当に役立つ答えで、例が大好きです。log-transformを使用するための「いつ」について詳しく説明してください。「相対的な変化を気にするときはログスケールを使い、絶対的な変化を気にするときは線形スケールを使う」と言います。しかし、相対的な変化を気にしているが、ログ変換をすべきではない場合があります。もしそうなら、それらの場合をどのように検出しますか?例えば、本論文では、ログ正規分布に従わないデータを対数変換すべきでないケースを作る:ncbi.nlm.nih.gov/pmc/articles/PMC4120293を
skeller88

@ skeller88この論文に同意します。それは、「なぜ分布を変換するのか?」というより広範な(そして哲学的な!)問題に対する狭い反応です。答えは、正規分布を対比するための十分に開発された統計ツールキットがありますが、他の、おそらくは名前のない分布(大部分)に対してはあまり開発されていないツールキットがあると思います。ファンキーな外観の分布を評価する方法は、ログを取得して、それがより正常に見えるかどうかを確認することです。しかし、IrishStatが技術的に上記で説明しているように、このパスには危険が伴います(四角いペグ、丸穴の種類)。
vector07

1
この効果と関連する説明があり、それが意思決定ツリーにとって重要である理由は、datascience.com /…に向けて
キース
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.