統計では、がまたは自然対数


18

私は統計を勉強していて、logそれを含む式に出くわすことがよくあり、それを標準の意味log、つまり10進数として解釈する必要がある場合、または統計で記号log が一般に自然対数であると想定される場合、常に混乱しますln

特に、私はグッドチューリング周波数推定を例として研究していますが、私の質問はより一般的なものです。


2
「多くのアプリケーションでは、対数尤度と呼ばれる尤度関数の自然対数の方が便利です。」en.wikipedia.org/wiki/Likelihood_function#Log-likelihood 統計では、尤度関数をよく使用しますが、通常はlnそれが考慮されます。しかし、2つが関連している:log(x) = ln(x) / ln(10) = ln(x) / 2.303、及びLN -likelihood関数は、同じ時点で極値に到達log10の -likelihood機能。
-John_West

5
いくつかの特定のアプリケーション分野では、とき、言及されているベース10が意図されていますが、Aksakalは、それ以外の場合は数学で使用される慣例だ、示すとおり-飾り気のないことを手段自然対数。ログloglog
Glen_b -Reinstateモニカ

2
@John_Westが言うように、とはスケーリング係数まで同一です。したがって、それらは別のユニットで測定するものと同じです。l o g ax ln(x)loga(x)

1
@Aksakal; あなたが言うことは、ユニットが重要であると言うことになります(私のコメントを参照)、私はそれに同意します。また、ベースを明示的に示すためにlogaを書きました。ただし、最大尤度などの統計の(一部の)アプリケーションの場合、このスケーリング係数は無関係です。スケーリング係数を追加しても、最大値は変わりません。OPのリファレンス(良いチューリング...)では、彼らはlog(Nr)(またはlog(Zr))対log(r)をプロットしたいと考えていますlog(r)。これは、プロットの両方の軸で単位が変化するため、プロットされた「曲線」が変化しないことを意味します。

1
論文を書いている場合を除き、対数尤度を使用する場合でも、通常、スケール(対数の底)が重要です。たとえば、対数尤度比検定の統計ではを使用しますが、重要な値を使用するには他のベースから調整する必要があります。ソフトウェアを作成している場合、論文などの対数尤度関数を使用する際にベースを正しく取得することが重要です。ln
アクサカル16

回答:


20

統計ではベース10ログはあまり使用されないため、統計で明示的なベースがないと仮定しても安全です。ただし、他のポスターは、情報理論などの統計が適用される他の分野では、または他のベースが一般的である可能性があることを指摘しています。そのため、他の分野の論文を読むと、混乱することがあります。log 10log=lnlog10

ウィキペディアのエントロピーページは、混乱した使用法の良い例です。同じページでは、ベース2、および任意のベースを意味します。コンテキストによって意味がわかりますが、テキストを読む必要があります。これは、資料を提示するのに適した方法ではありません。これを対数ページと比較してください対数ページでは、すべての式でベースが明確に表示されるか、が使用されます。私は個人的にこれが進むべき方法だと考えています。記号が使用されている場合は常にベースを表示し。これは、ISO準拠であり、@ Henryが指摘しているように、シンボルで未指定のベースの使用法を定義していないためです。e ln log loglogelnloglog

最後に、ISO 31-11標準では、2を底とする10の対数に対しておよび記号が規定されてい。両方が最近使用されることはめったにありません。私たちは高校でを使用したことを覚えていますが、それは別の世界の別の世紀にありました。統計的な文脈で使用されて以来、私はそれを見たことがありません。LaTeXにはタグすらありません。lg lg lblblglglb


1
底2の対数も一部の分野で非常に一般的です。装飾されていないログがベース10になることはめったにありませんが、常にベースeとは限りません。
原子力王

参考になりましたが、「まれに」は強すぎると思います。10を底とする対数についてのみ知っている、またはせいぜい最もよく知っていると思われる実質的な分野があります。多くのグラフは自然対数を好む10.誰かがそのようなスケールを復号支障が見つからないの力を使用して、対数スケールを示すが、推定は、ベース10であることに注意してください
ニックコックス

@ NickCox、OPは特にフィールドとして「統計」と述べており、統計で使用される10を底とする対数はあまり見られません。
アクサカル16

ISO 31-11で指定するようですため、そして飾り気のないままに未定義log e loglnlogelog
ヘンリー・

1
@NickCox、私は言語を柔らかくしました、あなたは公正なポイントを持ち出します
Aksakal

14

場合によります。

値をデシベルに変換するなど、いくつかのコンテキスト以外では、10を底とする対数は方程式では非常にまれです。ただし、対数スケールのプロットは多くの場合10を基数としますが、これは軸のラベルから簡単に確認できるはずです。

数学的な文脈では、装飾されていないは自然なログ(つまり、または)である可能性があります。一方、コンピューターサイエンスでは2を底とする対数()を使用することが多く、そのように明確にマークされているとは限りません。良いニュースは、ベース間を簡単に変換できることです。「間違った」ベースを使用すると、一定の要因だけで答えが出なくなります。log e ln log 2loglogelnlog2

Galeの1995年の「涙のないグッドチューリング」論文では、テキストの対数は実際には (5ページでそう言っています)ですが、付録のR / S +コードは実際にまたは。@Henryが以下で指摘しているように、これは実際的な違いはありません。 log e lnlog10loglogeln

私が推測することを余儀なくされた場合、いくつかの発見的方法があります:

  • 2、、または10の累乗も存在する場合、ログには対応するベースがある可能性があります。e

  • 積分から生じる(または、より一般的には微積分を伴う)場合、自然対数になる可能性があります。1/x

  • (バイナリ検索のように)何かを繰り返し半分に分割することから生じる場合は、可能性があります。より一般的には、何かは約回分割できます。 n log nlog2nlogn

  • 情報理論計算では、特に現代の作業では、通常使用します。:しかし、あなたは確かに単位を確認することができます、、および。ビットログlog2natsln bansログ10bitslog2natslnbanslog10

  • 関数が下降または上昇する点を見つけることは、初期値の(それぞれ37%および63%)を示唆していますログ。1e or 11e


5
+1。小さなヒントは、指数が近くにある場合、自然対数は10または2のべき乗である可能性が高く、逆であるということです。使用されている基数が不明な場合は、著者の計算例を再現してみてください。exp()
ニックコックス

2
ゲイルの紙のページ6及び7のグラフは、ログスケールで元の単位を示し、そして計算は対数関係の傾きを目的としているので、すなわち発現のに対応、それはこの場合には実用的な違いはないlog N r= a + b log r N r = Ablog(Nr)=a+blog(r)Nr=Arb
ヘンリー

2
他の例株式市場データをplatting場合、ログの価格を使用する場合は、それが常に10塩基である軸であるbase10
マーカスD

3

あなたの質問に答えるために:いいえ、対数の一般的な固定表記を想定することはできません。

同様の質問が最近SE.Mathで議論されました:3種類の対数の違いは何ですか?数学的な観点から。一般に、習慣(は医学研究で使用されるようです)または言語(たとえば、ドイツ語、ロシア語、フランス語)に依存するさまざまな表記法があります。残念ながら、同じ表記法が異なる定義を表すことがあります。上記のSE.Mathリンクから引用:log10

表記(ほぼ)は、自然対数(ラテン:logarithmus naturalis)、または底対数を明確に示し ます。表記自然対数を採用表記であるべきで、それは数学でそうです。ただし、フィールドに応じて「最も自然な」ものを表すことがよくあります。学校では、ベース対数()として学んだため、エンジニアリングで(たとえば定義で)よく使用されます。デシベルの)log e x e log x 10 log 10lnxlogexelogx10log10

かなり頻繁に、物理単位(デシベル@Matt Krauseなど)の意味に関心がない場合、または特定の変化率に関心がない場合(生物統計学では 、倍変化の -ratioはしばしば底とする対数)、自然対数()が使用される可能性があります。 2 ログ2 ログelog2log2loge

たとえば、べき乗またはBox-Cox変換(分散安定化のため)では、指数がなる傾向がある場合に自然対数が制限として表示され。0

最初の動機であるGood-Turing Frequency Evaluationに戻ると、The Population Frequencies of Species and the Evaluation of Population Parameters、IJ Good、Biometrika、1953年を読むは興味深いです。ここでは、さまざまなコンテキストで対数を使用しました:分散安定化(バートレットとアンスコムの言及)、調和級数の合計、エントロピー。彼は通常、自然対数としてを使用していることがわかりまた、論文で、コンテキストで必要な場合にまたは指定していることが ます。分散の安定化、または基本的なエントロピー推定では、結果が線形に変化するため、対数の係数は結果をあまり変化させません。ログのE ログ10loglogelog10


0

赤池情報量基準ベースであり、および最大尤度のパラメータの数に付加的に比較される: eln(L^)のL K A I C = 2 K - LN L L^k

AIC=2(kln(L)).

したがって、AICの対数に他の基数を使用すると、間違った結論を導き出し、間違ったモデルを選択することになります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.