タグ付けされた質問 「logarithm」

数値の対数は、その数値を取得するために底を累乗する必要があるべき乗です。

2
いつ(そしてなぜ)分布の(数の)ログを取るべきですか?
たとえば、過去の株価、航空券の価格変動、会社の過去の財務データなど、いくつかの履歴データがあるとします... 今、誰か(または何らかの数式)がやって来て、「配布のログを取得/使用しましょう」と言って、ここに行くのはなぜですか? 質問: そもそも分布のログを取るべきなのはなぜですか? ディストリビューションのログは、元のディストリビューションではできなかった/できなかった「与える/単純化する」ものは何ですか? ログ変換は「ロスレス」ですか?すなわち、対数空間に変換してデータを分析するとき、元の分布についても同じ結論が成立しますか?どうして? そして最後に、分布のログを取得するのはいつですか?どのような条件下でこれを行うことにしますか? 私は本当にログベースの分布(たとえばlognormal)を理解したかったのですが、いつ/なぜアスペクトを理解したことがありません-すなわち、分布のログは正規分布です。それは私に何を伝え、何故わざわざしますか したがって、質問! 更新:@whuberのコメントに従って、私は投稿を見ましたが、独立変数と従属変数のログの間に関係を描くことができるので、何らかの理由で線形回帰でのログ変換の使用とその適用を理解しています。ただし、私の質問は、分布そのものを分析するという意味では一般的です。ログを取り、分布を分析する理由を理解するのに役立つと結論付けることができる関係自体はありません。私は理にかなっていると思います:-/ 回帰分析では、データのタイプ/フィット/分布に制約があり、それを変換して、独立変数と(変換されていない)従属変数間の関係を定義できます。しかし、型/適合/分布の制約がフレームワークで必ずしも適用できない場合(回帰のような)分離の分布に対していつ/なぜそうするのか。明確にすることで混乱するよりも明らかになることを願っています:) この質問は、「なぜ、いつ」に関する明確な答えに値します


3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


6
壊れた軸の代替手段は何ですか?
ユーザーは、軸の値を分割して、同じグラフ上に異なる桁のデータを表示したいと思うことがよくあります(こちらを参照)。これは便利かもしれませんが、データを表示するのに常に好ましい方法とは限りません(誤解を招く可能性があります)。数桁異なるデータを表示する別の方法は何ですか? データを対数変換するか、ラティスプロットを使用する2つの方法が考えられます。他のオプションは何ですか?


4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
統計では、がまたは自然対数
私は統計を勉強していて、logそれを含む式に出くわすことがよくあり、それを標準の意味log、つまり10進数として解釈する必要がある場合、または統計で記号log が一般に自然対数であると想定される場合、常に混乱しますln。 特に、私はグッドチューリング周波数推定を例として研究していますが、私の質問はより一般的なものです。

1
対数確率対確率積
このウィキペディアの記事によると、計算をより計算的に最適化するものx⋅yとして確率の積を表すことができ-log(x) - log(y)ます。しかし、例を試してみると言う: p1 = 0.5 p2 = 0.5 p1 * p2 = 0.25 -log(p1) - log(p2) = 2 p3 = 0.1 p4 = 0.1 p3 * p4 = 0.01 -log(p3) - log(p4) = 6.64 確率の積p1とp2高いその後のいずれかp3とp4が、ログ確率が低くなります。 どうして?

2
ガンマランダム変数の対数の歪度
考えてみましょガンマ確率変数 バツ〜Γ (α 、θ )バツ〜Γ(α、θ)X\sim\Gamma(\alpha, \theta)。平均、分散、歪度にはきちんとした式があります。 E [X]ヴァール[ X]歪度[ X]= α θ= α θ2= 1 / α ⋅ E [ X]2= 2 / α−−√E[バツ]=αθヴァール⁡[バツ]=αθ2=1/α⋅E[バツ]2歪度⁡[バツ]=2/α\begin{align} \mathbb E[X]&=\alpha\theta\\ \operatorname{Var}[X]&=\alpha\theta^2=1/\alpha\cdot\mathbb E[X]^2\\ \operatorname{Skewness}[X]&=2/\sqrt{\alpha} \end{align} ここで、対数変換されたランダム変数考えますY= ログ(X)Y=ログ⁡(バツ)Y=\log(X)。ウィキペディアには、平均と分散の公式があります。 E [Y]ヴァール[ Y]= ψ (α )+ log(θ )= ψ1(α )E[Y]=ψ(α)+ログ⁡(θ)ヴァール⁡[Y]=ψ1(α)\begin{align} \mathbb E[Y]&=\psi(\alpha)+\log(\theta)\\ \operatorname{Var}[Y]&=\psi_1(\alpha)\\ \end{align} ガンマ関数の対数の1次および2次導関数として定義されるディガンマおよびトリガンマ関数を介して。 歪度の式は何ですか? テトラガンマ関数は表示されますか? (これについて不思議に思ったのは、対数正規分布とガンマ分布の選択です。ガンマ対対数正規分布を参照してください。とりわけ、歪度特性が異なります。特に、対数正規の対数の歪度はゼロです。ガンマのログの歪度は負ですが、どの程度負ですか?..)

2
主成分分析を実行する前にデータをログ変換するのはなぜですか?
ここのチュートリアルに従っている:http : //www.r-bloggers.com/computing-and-visualizing-pca-in-r/ PCAの理解を深めるために。 このチュートリアルでは、Irisデータセットを使用し、PCAの前にログ変換を適用します。 次のコードでは、[1]で示唆されているように連続変数に対数変換を適用し、PCAの適用前に変数を標準化するための呼び出しでset centerand scaleequal to TRUEに注意してくださいprcomp。 Irisデータセットの最初の4列で最初にlog関数を使用する理由を説明してください。データを相対的にすることと関係があることは理解していますが、ログ、センター、スケールの正確な機能は混乱しています。 上記の参考文献[1]は、VenablesおよびRipley、ModernがS-PLUSで統計を適用した、セクション11.1で簡単に述べています。 データは物理的な測定値であるため、適切な初期戦略は対数スケールで作業することです。これは全体にわたって行われました。

2
負の値を対数に変換する方法は?
Log()異分散データがあるため、負の値をに変換する方法を知りたいです。私はそれが式で動作することを読みましたLog(x+1)が、これは私のデータベースでは動作せず、結果としてNaNを取得し続けます。たとえば、この警告メッセージが表示されます(負の値のいずれかで例を示すのに十分だと思うため、完全なデータベースを配置しませんでした)。 > log(-1.27+1) [1] NaN Warning message: In log(-1.27 + 1) : NaNs produced > 前もって感謝します 更新: これが私のデータのヒストグラムです。化学測定の古生物学の時系列で作業しています。たとえば、CaとZnなどの変数の差が大きすぎる場合、何らかのタイプのデータ標準化が必要ですlog()。そのため、関数をテストしています。 これは私の生データです
12 r  logarithm 

2
対数オフセットのあるバイナリモデル(プロビットおよびロジット)
プロビットやロジットなどのバイナリモデルでオフセットがどのように機能するのか、誰からも導出されていますか? 私の問題では、フォローアップウィンドウの長さが異なる場合があります。患者が治療として予防注射を受けたとします。ショットはさまざまなタイミングで発生するため、結果がフレアアップが発生したかどうかのバイナリインジケータである場合、一部の人々が症状を示す時間があることを調整する必要があります。フレアアップの確率は、フォローアップ期間の長さに比例するようです。(ポアソンとは異なり)オフセットのあるバイナリモデルがこの直感をどのようにキャプチャするかは、数学的には明確ではありません。 オフセットは、Stata(p.1666)とRの両方の標準オプションであり、ポアソンについては簡単に確認できますが、バイナリの場合は少し不透明です。 たとえば、 これは代数的にモデルと同等です。 は、係数が1に制限された標準モデルです。これは対数オフセットと呼ばれます。\ exp \ {\}を\ Phi()または\ Lambda()に置き換えた場合、これがどのように機能するかを理解するのに苦労しています。E[y| x]=exp{x′β+logZ}、logZ1E[ y| x ]Z= exp{ x′β} 、E[y|バツ]Z=exp⁡{バツ′β}、\begin{equation} \frac{E[y \vert x]}{Z}=\exp\{x'\beta\}, \end{equation}E[ y| x ] = exp{ x′β+ ログZ} 、E[y|バツ]=exp⁡{バツ′β+ログ⁡Z}、\begin{equation}E[y \vert x]=\exp\{x'\beta+\log{Z}\}, \end{equation}ログZログ⁡Z\log Z111Φ ()Λ ()exp{ }exp⁡{}\exp\{\}Φ ()Φ()\Phi()Λ ()Λ()\Lambda() アップデート#1: 以下にロジットのケースについて説明しました。 アップデート#2: ここでは、プロビットのような非ポアソンモデルのオフセットの主な使用方法と思われるものについて説明します。オフセットを使用して、インデックス関数係数の尤度比テストを実行できます。まず、制約のないモデルを推定し、推定を保存します。という仮説をテストするとします。次に、変数を作成し、をドロップし、を非対数オフセットとして使用するモデルに適合します。これが制約モデルです。LRテストは2つを比較し、通常のWaldテストの代替です。、Z = 2 ⋅ X X Zβバツ= 2βバツ=2\beta_x=2z= …

1
ログに記録された変数を使用する理由
おそらく、これは非常に基本的な質問ですが、それに対する確固たる答えを見つけることができないようです。ここでできることを願っています。 現在、自分の修士論文の準備として論文を読んでいます。現在、ツイートと株式市場の特徴との関係を調査した論文を読んでいます。 彼らの仮説の1つでは、彼らは「ツイート量の増加は取引量の増加に関連している」と提案しています。 私は相関して、ペアワイズ相関で、それらを期待tweetVolumeしてtradingVolume、その代わりに、彼らはログに記録されたバージョンを使用してレポート:LN(tweetVolume)とLN(tradingVolume)。 私の論文のために、私は彼らの論文のこの部分を複製しました。6か月以上にわたって100社ほどのツイート(tweetVolume)と同じ期間の株式取引量を収集しました。絶対変数を相関させると見つけられますr=.282, p.000が、ログに記録されたバージョンを使用すると、が見つかりますr=.488, p=.000。 私は理解していない理由は、研究者が時々使用がその変数のバージョンをログに記録し、相関はそれほど高く、あなたがそうするならば、なぜそうです。ここでの理由は何ですか?また、ログに記録された変数を使用するのはなぜですか? あなたの助けは大歓迎です:-)

2
ログ差分時系列モデルは成長率よりも優れていますか?
多くの場合、著者が「対数差」モデルを推定しているのを見ます。たとえば、 ログ(yt)− ログ(yt − 1)= ログ(yt/ yt − 1) = α + βバツtログ⁡(yt)−ログ⁡(yt−1)=ログ⁡(yt/yt−1)=α+βバツt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t これは、log (y t)がI (1 )であるをy tの変化率に関連付けるのに適切であることに同意します。バツtバツtx_tytyty_tログ(yt)ログ⁡(yt)\log (y_t)私(1 )私(1)I(1) しかし、対数差は近似値であり、対数変換なしでモデルを推定することもできます。たとえば、 yt/ yt − 1− 1 = (yt− yt − 1)/ yt − 1= α + βバツtyt/yt−1−1=(yt−yt−1)/yt−1=α+βバツty_t/y_{t-1} -1 = (y_t - …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.