統計とビッグデータ logarithm

1

私が使用していますquantregのデータセットで私の値の99パーセンタイルを使用して回帰モデルを作るために、パッケージを。以前に尋ねたstackoverflowの質問からのアドバイスに基づいて、私は次のコード構造を使用しました。 mod <- rq(y ~ log(x), data=df, tau=.99) pDF <- data.frame(x = seq(1,10000, length=1000) ) pDF <- within(pDF, y <- predict(mod, newdata = pDF) ) データの上にプロットして表示します。ポイントのアルファ値とともに、ggplot2を使用してこれをプロットしました。私の分析では、分布の裾が十分に考慮されていないと思います。おそらくこれは、パーセンタイル型の測定では無視されている個々のポイントがあるためです。コメントの1つは、パッケージビネットには、非線形変位値回帰に関するセクションと、平滑化スプラインなどのモデルが含まれています。前の質問に基づいて、対数関係を仮定しましたが、それが正しいかどうかはわかりません。99パーセンタイル間隔ですべてのポイントを抽出して個別に調べることができると思いましたが、それを行う方法、またはそれが良いアプローチかどうかはわかりません。この関係の特定を改善する方法についてのアドバイスをいただければ幸いです。

10 regression logarithm

4

線形回帰で対数変換された係数を解釈する方法は？

私の状況は：単純な線形回帰のために残差を正規化するために対数変換した1つの連続従属変数と1つの連続予測子変数があります。これらの変換された変数を元のコンテキストに関連付ける方法について、何か助けていただければ幸いです。線形回帰を使用して、生徒が2010年に見逃した日数に基づいて、2011年に生徒が見逃した日数を予測したいと思います。ほとんどの生徒は0日またはほんの数日欠けており、データは積極的に左に歪んでいます。したがって、線形回帰を使用する変換が必要です。両方の変数にlog10（var + 1）を使用しました（0日間学校を休んだ生徒には+1を使用しました）。性別/民族性などのカテゴリー要素を追加したいので、回帰を使用しています。私の問題は：私がフィードバックしたいオーディエンスは、log10（y）= log（constant）+ log（var2）xを理解していません（そして率直に言っても私は理解していません）。私の質問は： a）回帰で変換された変数を解釈するより良い方法はありますか？つまり、2010年に1日間欠落すると、2011年には2日間欠落します。これに対して、2010年には1単位のログ単位が変更されたのに対し、2011年にはx単位の単位が変更されますか？ b）具体的には、次のようにこの出典から引用された一節を考える：「これは、他の変数がモデル内で一定に保たれている場合、数学標準化テストスコアが1ユニット増加したときの負の二項回帰推定です。学生が数学テストスコアを1ポイント増加させた場合、期待される数は、モデルの他の変数を一定に保ちながら、0.0016単位で減少すると予想されます。私が知りたいのですが：この一節は、UNTRANSFORMED変数mathのスコアが1ユニット増えるごとに定数（a）から0.0016減少するため、UNTRANSFORMED数学スコアが2ポイント上がる場合、定数aから0.0016 * 2を引くと言っていますか？これは、exponential（a））とexponential（a + beta * 2）を使用して幾何平均を取得することを意味しますか？そして、これら2つの間のパーセンテージの差を計算して、予測変数がどのような効果を持つかを示す必要があります/従属変数を持っていますか？それとも私はそれを完全に間違っていますか？ SPSS v20を使用しています。長い質問でこれをフレーミングして申し訳ありません。

10 regression data-transformation regression-coefficients logarithm

1

RVの対数の期待値がある場合、RV自体の期待値を取得できますか？

仮定与えられ、Iは、導出することができる閉形形式でか？ E[log(X)]E[log⁡(X)]\text{E}[\log(X)] E[X]E[X]\text{E}[X]

9 expected-value logarithm

1

「ログ損失」とは、対数損失またはロジスティック損失を指しますか？

両方の方法で見たことがありますが、2つの方法に違いはありますか。どちらがより一般的に参照されますか？

9 logistic terminology logarithm loss-functions

3

変数の対数変換の前または後に相関を取る

対数変換を行う前または後に、2つの確率変数XおよびYのピアソン相関を計算する必要があるかどうかに関する一般原則はありますか？より適切なテスト手順はありますか？対数変換は非線形であるため、値は似ていますが異なる値になります。XまたはYがログ後に正常に近いかどうかに依存しますか？もしそうなら、それはなぜ問題なのですか？これは、XとYとlog（X）とlog（Y）の正規性検定を行う必要があることを意味し、それに基づいて、pearson（x、y）がpearson（log（x）、log（ y））？

9 regression correlation logarithm pearson-r

4

自然対数の場合、「ln」の代わりに「Ln」を使用することは正しいですか？

一部の研究論文では、著者は「ln」の代わりに「Ln」を自然対数に使用しています。それが正しいか？

8 notation logarithm

2

べき法則の回帰

これはMath SEからのクロスポストです。データ（アルゴリズムの実行時間）があり、べき乗則に従っていると思う yreg=kxayreg=kxay_\mathrm{reg} = k x^a とaを決定したい。これまでに行ったことは、log （x ）、log （y ）を通じて線形回帰（最小二乗）を実行し、その係数からkとaを決定することです。kkkaaalog(x),log(y)log⁡(x),log⁡(y)\log(x), \log(y)kkkaaa 私の問題は、「絶対ログ」エラーが「ログログデータ」で最小化されているため、元のデータを見ると最小化されるのが商であるということです。 yyregyyreg\frac{y}{y_\mathrm{reg}} これにより、yの値が大きい場合、絶対誤差が大きくなります。実際の「絶対」エラーを最小限に抑える「べき乗則回帰」を行う方法はありますか？または、少なくともそれを最小化することでより良い仕事をしますか？yyy 例：赤い曲線はデータセット全体に適合しています。緑の曲線は、最後の21点のみに適合します。これがプロットのデータです。左側の列は（x軸）の値、右側の列はt（y軸）の値ですnnnxxxtttyyy 1.000000000000000000e+02,1.944999820000248248e-03 1.120000000000000000e+02,1.278203080000253058e-03 1.250000000000000000e+02,2.479853309999952970e-03 1.410000000000000000e+02,2.767649050000500332e-03 1.580000000000000000e+02,3.161272610000196315e-03 1.770000000000000000e+02,3.536506440000266715e-03 1.990000000000000000e+02,3.165302929999711402e-03 2.230000000000000000e+02,3.115432719999944224e-03 2.510000000000000000e+02,4.102446610000356694e-03 2.810000000000000000e+02,6.248937529999807478e-03 3.160000000000000000e+02,4.109296799998674206e-03 3.540000000000000000e+02,8.410178100001530418e-03 3.980000000000000000e+02,9.524117600000181830e-03 4.460000000000000000e+02,8.694799099998817837e-03 5.010000000000000000e+02,1.267794469999898935e-02 5.620000000000000000e+02,1.376997950000031709e-02 6.300000000000000000e+02,1.553864030000227069e-02 7.070000000000000000e+02,1.608576049999897034e-02 7.940000000000000000e+02,2.055535920000011244e-02 8.910000000000000000e+02,2.381920090000448978e-02 1.000000000000000000e+03,2.922614199999884477e-02 1.122000000000000000e+03,1.785056299999610019e-02 1.258000000000000000e+03,3.823622889999569313e-02 1.412000000000000000e+03,3.297452850000013452e-02 1.584000000000000000e+03,4.841355780000071440e-02 1.778000000000000000e+03,4.927822640000271981e-02 1.995000000000000000e+03,6.248602919999939054e-02 2.238000000000000000e+03,7.927740400003813193e-02 2.511000000000000000e+03,9.425949999996419137e-02 2.818000000000000000e+03,1.212073290000148518e-01 3.162000000000000000e+03,1.363937510000141629e-01 …

7 regression fitting logarithm power-law

2

ログ変換は常に不均一性を緩和しますか？

ログ変換は常に不均一性を緩和しますか？教科書には、対数変換がしばしば不均一分散性を低下させると記載されているためです。だから、私はそれが異分散性を減少させない場合を知りたいのです。

7 regression data-transformation heteroscedasticity logarithm

1

従属変数または独立変数、あるいはその両方のログを取得すると、モデルのエラーに影響があり、したがって推論の妥当性に影響しますか？

私はよく人々（統計家や実務家）が再考せずに変数を変換しているのを見ます。エラーの分布が変更されて無効な推論につながる可能性があるので、私は常に変換を怖がっていますが、何かを誤解しなければならないのはよくあることです。アイデアを修正するために、モデルがあるとします Y=β0expXβ1+ϵ, ϵ∼N(0,σ2)Y=β0exp⁡Xβ1+ϵ, ϵ∼N(0,σ2)Y=\beta_0\exp X^{\beta_1}+\epsilon,\ \epsilon\sim\mathcal{N}(0,\sigma^2) これは原則としてNLSに適合します。しかし、ほとんどの場合、私は人々が丸太を取り、フィッティング logY=logβ0+β1logX+???⇒Z=α0+β1W+???log⁡Y=log⁡β0+β1log⁡X+???⇒Z=α0+β1W+???\log{Y}=\log\beta_0+\beta_1\log{X}+???\Rightarrow Z=\alpha_0+\beta_1W+??? これはOLSで適合できることはわかっていますが、パラメーターの信頼区間を計算する方法がわかりません。今のところ、予測区間や許容区間はもちろんです。そして、それは非常に単純なケースでした：かなり複雑な（私にとって）ケースを考えてください。 YYY そして XXX アプリオリですが、GAMなどを使用してデータから推測しようとします。次のデータについて考えてみましょう。 library(readr) library(dplyr) library(ggplot2) # data device <- structure(list(Amplification = c(1.00644, 1.00861, 1.00936, 1.00944, 1.01111, 1.01291, 1.01369, 1.01552, 1.01963, 1.02396, 1.03016, 1.03911, 1.04861, 1.0753, 1.11572, 1.1728, 1.2512, 1.35919, 1.50447, 1.69446, 1.94737, 2.26728, 2.66248, 3.14672, 3.74638, …

7 regression confidence-interval inference gam logarithm

2

ln（x）とln（x）^ 2の間の多重共線性

負の二項モデルを実行していて、予測変数の1つがカウント変数です。この変数は大きく歪んでいたため、ログ変換することにしました。ただし、この変数の影響は非線形であると仮定されています。ただし、モデルに2乗項を含めるとすぐに、これらの2つの変数のVIFが20を超えているのに対し、他のすべての予測子は1と5の間のVIFで安定したままです。私の現在の理解では、関係は線形であってはならず、したがって、マルチコリネリーは発生しません。誰かが多重共線性の原因を説明し、この問題の可能な解決策を提供できますか？

7 multicollinearity logarithm vif

3

比率の絶対変化をテストすることが目的の場合、対数変換なしで比率を直接比較できますか？

比率（ = /）が頻繁に使用されます（mRNAまたはタンパク質発現の倍数変化、ボディマスインデックス[BMI]など）。多くの人々は、比率としてコード化された変数（たとえば、フォールドチェンジ）は、右に大きく歪んでいるため、ログ変換する必要があるとアドバイスしています。ただし、比率（ /）は相対的な変化であり、比率の分布は正常ではありません（en.wikipedia.org/wiki/Ratio_distribution）。と両方が対数正規である場合、log（ /）は正常です（再変換バイアスを考慮した後、 /対数正規ですか？）ZZZYYYXXXYYYXXXXXXYYYYYYXXXYYYXXX 対数変換された比率間の比較は、相対的な変化の相対的な変化（すなわち、比率）です。さらに、右に歪んだ変数（）の対数変換の必要性が疑問視されています。たとえば、最近の論文（http://www.ncbi.nlm.nih.gov/pubmed/22806695）は、変数の対数変換の誤用について警告しています。アドバイスのいくつかは、が対数正規である場合にのみlog（）が正規分布を保証するというものでした。つまり、右に歪んだ変数であっても正規性は保証されません。また、Eの抗ログ（（ログ））の幾何平均（GM）である常に少ないEよりも、（（）とEの差の検定YYYYYYYYYYYYYYYYYYYYY）とGMは異なります。最後に、GMはより堅牢でもなく、外れ値の影響を受ける可能性も低くありません。別の論文（http://econtent.hogrefe.com/doi/10.1027/1614-2241/a000110）は、生の変数のt検定が対数正規分布変数でもうまく機能することを示しました。3番目の論文（http://link.springer.com/article/10.1023%2FB%3AEEST.0000011364.71236.f8）は、比率に対するt検定と対数変換された比率に対するt検定のパフォーマンスが似ていることを示しています。したがって、問題は、どちらが関心のある結果であるかになります。log（）を意味のあるものにするには元の単位に逆変換する必要があり、再変換バイアスがあるため、E（）のテストはより意味があると思います。ZZZZZZ 幸い、異分散性が考慮されると（たとえば、Welchのt検定）、パラメトリック検定（t検定など）は正規性の仮定の違反に対してロバストです。たとえば、このペーパー（http://www.ncbi.nlm.nih.gov/pubmed/24738055）では、ANOVAを使用して、イムノブロッティングにおける生の倍率変化の違いをテストすることをお勧めしています。だから私の質問は：私の目標が比率の絶対変化をテストすることである場合、対数変換なしで比率を直接比較できますか？参照：線形回帰で、実際の値の代わりに独立変数のログを使用するのが適切なのはいつですか？

7 data-transformation logarithm ratio

タグ付けされた質問 「logarithm」

タグ付けされた質問「logarithm」