タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
適応GAMはmgcvで平滑化
GAMに関するSimon Woodの本とそれに関連するRパッケージmgcvは、GAM理論と実際のデータおよびシミュレーションデータへのモデルの適合に関して、非常に詳細で有益です。 1D平滑化の場合、それほど心配する必要はありません。循環基底関数と適応基底関数を実装するかどうかを決定することを除けば、3次平滑化、薄板平滑化、およびPスプライン平滑化と比べて非常に異なる予測結果が得られる可能性があります。適応型の場合、複数のGAMがスプラインに沿って異なる領域に適合されます。私の知る限り、循環ベースは時系列モデリングでは一般的ですが、応答変数に関してデータが大きく変化する場合は、適応平滑化を検討する必要があります。ただし、アダプティブスムースは「慎重に」使用する必要があります。 私はしばらくの間GAMを調査してきましたが、私の研究の質問を考えると、どのスムーズな方法で実装するかについて、自分の考えが大きく変わっていることに気づいています。mgcvには、17種類のスムースが含まれています(カウント別)。キュービックスムースとPスプラインスムースの両方を検討しました。 私の質問は次のとおりです。最終的な目標が予測目的でフィットしたGAMを使用することである場合、適応スムージングは​​非適応カウンターパートに対していつ考慮すべきですか?私の目的では、スムーズ化が不十分になる傾向がありますが、デフォルトのGCV平滑化基準を使用しています。 応用生態学的GAMで文献は増えていますが、適応型スムーズを実装する研究にはまだ出会っていません。 任意のアドバイスをいただければ幸いです。
9 r  mgcv 

2
カプラン・マイヤー曲線はコックス回帰とは別の言い方をしているようです
Rでは、がん患者の生存データ分析を行っています。 CrossValidatedやその他の場所での生存分析について非常に役立つ情報を読んでおり、Cox回帰の結果を解釈する方法を理解したと思います。しかし、1つの結果はまだ私を悩ませます... 生存率と性別を比較しています。カプラン・マイヤー曲線は明らかに女性患者に好意的です(私が追加した凡例が正しいことを何度か確認しました。最大生存期間4856日の患者は実際に女性です): そして、コックス回帰が戻ってきています: Call: coxph(formula = survival ~ gender, data = Clinical) n= 348, number of events= 154 coef exp(coef) se(coef) z Pr(>|z|) gendermale -0.3707 0.6903 0.1758 -2.109 0.035 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 …

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

4
コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか?
コックス比例ハザードモデルから生存曲線をどのように解釈しますか? このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか?または両方が間違っていますか?200200200 ステートメント1:被験者は20%残ります(たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです)。 100010001000200200200200200200 ステートメント2:特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

1
シミュレーションによる重要度サンプリングのカバレッジが予想より低い
私はRの重要性サンプリング法と積分を評価する質問に答えようとしていました。基本的に、ユーザーは計算する必要があります ∫π0f(x)dx=∫π01cos(x)2+x2dx∫0πf(x)dx=∫0π1cos⁡(x)2+x2dx\int_{0}^{\pi}f(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}dx 指数分布を重要度分布として使用する q(x)=λ exp−λxq(x)=λ exp−λxq(x)=\lambda\ \exp^{-\lambda x} そして、積分のより良い近似を与えるの値を見つけます(それはです)。私は、平均値の評価などの問題を書き直すμのF (X )上に[ 0 、π ]:積分次いでだけでπ μ。 λλ\lambdaself-studyμμ\muf(x)f(x)f(x)[0,π][0,π][0,\pi]πμπμ\pi\mu このように、聞かせてのPDFであるX 〜U(0 、π )、およびlet Y 〜のF (X )の目標は、現在推定することです。p(x)p(x)p(x)X∼U(0,π)X∼U(0,π)X\sim\mathcal{U}(0,\pi)Y∼f(X)Y∼f(X)Y\sim f(X) μ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫π01cos(x)2+x21πdxμ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫0π1cos⁡(x)2+x21πdx\mu=\mathbb{E}[Y]=\mathbb{E}[f(X)]=\int_{\mathbb{R}}f(x)p(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}\frac{1}{\pi}dx 重要性サンプリングを使用します。Rでシミュレーションを実行しました。 # clear the environment and set the seed for reproducibility rm(list=ls()) gc() graphics.off() set.seed(1) # function to be integrated f <- function(x){ 1 …

2
XX 'とX'Xの固有値分解でXの有効なSVDを取得できないのはなぜですか?
私は手でSVDを実行しようとしています: m<-matrix(c(1,0,1,2,1,1,1,0,0),byrow=TRUE,nrow=3) U=eigen(m%*%t(m))$vector V=eigen(t(m)%*%m)$vector D=sqrt(diag(eigen(m%*%t(m))$values)) U1=svd(m)$u V1=svd(m)$v D1=diag(svd(m)$d) U1%*%D1%*%t(V1) U%*%D%*%t(V) しかし、最後の行は戻りませんm。どうして?それはこれらの固有ベクトルの兆候と関係があるようです...または手順を誤解しましたか?
9 r  svd  eigenvalues 

1
数学理論の「傾斜均一分布」から乱数を生成する
ある目的のために、「傾斜均一」分布から乱数(データ)を生成する必要があります。この分布の「勾配」は、ある程度の間隔で変化する可能性があり、その場合、私の分布は勾配に基づいて均一から三角形に変化するはずです。これが私の派生です: それを簡単にして、からまでのデータを生成しましょう(青、赤は均一な分布です)。青い線の確率密度関数を取得するには、その線の方程式が必要です。したがって:000BBB f(x)=tg(φ)x+Y(0)f(x)=tg(φ)x+Y(0)f(x) = tg(\varphi)x + Y(0) 以降(写真): tg(φ)Y(0)=1/B−Y(0)B/2=1B−tg(φ)B2tg(φ)=1/B−Y(0)B/2Y(0)=1B−tg(φ)B2\begin{align} tg(\varphi) &= \frac{1/B - Y(0)}{B/2} \\[5pt] Y(0) &= \frac{1}{B} - tg(\varphi)\frac{B}{2} \end{align} 私たちはそれを持っています: f(x)=tg(φ)x+(1B−tg(φ)B2)f(x)=tg(φ)x+(1B−tg(φ)B2)f(x) = tg(\varphi)x + \left(\frac{1}{B} - tg(\varphi)\frac{B}{2} \right) 以来、 PDFであり、CDFに等しいです。f(x)f(x)f(x) F(x)=tg(φ)x22+x(1B−tg(φ)B2)F(x)=tg(φ)x22+x(1B−tg(φ)B2)F(x) = \frac{tg(\varphi)x^2}{2} + x\left(\frac{1}{B} - tg(\varphi)\frac{B}{2} \right) 次に、データジェネレータを作成します。アイデアは私が修正しますならばということ、である、乱数 Iから番号を取得します場合に計算することができます説明するように一様分布からここに。私は固定と私の分布から100個の乱数が必要な場合はこのように、、その後、いずれかの一様分布からがあり「傾斜配分」からは、およびのように計算することができます。φ,Bφ,B\varphi, Bxxx(0,1)(0,1)(0,1)φ,Bφ,B\varphi, Btitit_i(0,1)(0,1)(0,1)xixix_ixxx tg(φ)x2i2+xi(1B−tg(φ)B2)−ti=0tg(φ)xi22+xi(1B−tg(φ)B2)−ti=0\frac{tg(\varphi)x_i^2}{2} + x_i\left(\frac{1}{B} - tg(\varphi)\frac{B}{2} \right) …

2
異分散性で線形回帰をシミュレーションする
私が持っている経験的データと一致するデータセットをシミュレートしようとしていますが、元のデータのエラーを推定する方法がわかりません。経験的データには不等分散性が含まれていますが、私はそれを変換することに興味はありません。むしろ、経験的データのシミュレーションを再現するために誤差項をもつ線形モデルを使用します。 たとえば、いくつかの経験的データセットとモデルがあるとします。 n=rep(1:100,2) a=0 b = 1 sigma2 = n^1.3 eps = rnorm(n,mean=0,sd=sqrt(sigma2)) y=a+b*n + eps mod <- lm(y ~ n) 使用plot(n,y)すると、次のようになります。 ただし、データをシミュレートしようとするsimulate(mod)と、異分散性は削除され、モデルによってキャプチャされません。 一般化された最小二乗モデルを使用できます VMat <- varFixed(~n) mod2 = gls(y ~ n, weights = VMat) AICに基づいてより適切なモデルフィットを提供しますが、出力を使用してデータをシミュレートする方法がわかりません。 私の質問は、元の経験的データ(上記のnおよびy)に一致するようにデータをシミュレートできるモデルをどのように作成するかです。具体的には、いずれかのモデルを使用して、エラーであるsigma2を推定する方法が必要ですか?

1
Kruskal-Wallis組み込みR関数と手動計算の間のわずかな不整合
私は次のことに戸惑い、答えを他の場所で掘り下げることができませんでした。 私はいくつかの統計を行いながらRを学習しようとしています。そして、演習として、組み込みのR関数の結果を、Rのように「手動」でも実行することによって、ダブルチェックしてみます。 、Kruskal-Wallis検定では、さまざまな結果が得られますが、その理由がわかりません。 たとえば、私は演習で配布された次のデータを見ています activity <- c(2, 4, 3, 2, 3, 3, 4, 0, 4, 3, 4, 0, 0, 1, 3, 1, 2, 0, 3, 1, 0, 3, 4, 0, 1, 2, 2, 2, 3, 2) group <- c(rep("A", 11), rep("B", 10), rep("C", 9)) group <- factor(group) data.raw <- data.frame(activity, …

1
Rのなげなわによる多変量線形回帰
高度に相関している多くの従属変数(DV)(〜450)を予測するための縮小モデルを作成しようとしています。 私の独立変数(IV)も非常に多く(〜2000)、非常に相関しています。 なげなわを使用して各出力の縮小モデルを個別に選択した場合、各従属変数をループするときに、独立変数の同じサブセットを取得することが保証されません。 Rの投げ縄を使用する多変量線形回帰はありますか? これはグループなげなわではありません。グループラッソはIVをグループ化します。lassoも実装する多変量線形回帰(DVがスカラーのベクトルではなく行列であることを意味します)が必要です。(注:NRHが指摘するように、これは真実ではありません。グループラッソは、IVをグループ化する戦略を含むが、DVなどの他のパラメーターをグループ化する戦略も含む一般的な用語です) スパースオーバーラップセットラッソと呼ばれるものに入るこのペーパーを見つけました 多変量線形回帰を行うコードは次のとおりです > dim(target) [1] 6060 441 > dim(dictionary) [1] 6060 2030 > fit = lm(target~dictionary) これは、単一のDVで投げ縄を行ういくつかのコードです > fit = glmnet(dictionary, target[,1]) そして、これは私がやりたいことです: > fit = glmnet(dictionary, target) Error in weighted.mean.default(y, weights) : 'x' and 'w' must have the same length 一度にすべてのターゲットに適合する機能を選択する

1
スプラインを含む混合効果モデル
経時的な傾向が曲線線形であることがわかっているアプリケーションで、混合効果モデルをスプライン項に適合させています。ただし、評価したいのは、曲線の傾向が線形性からの個別の偏差によって発生するのか、それともグループレベルのフィットが曲線に見えるようにするグループレベルの影響なのかです。JMパッケージのデータセットを退屈な再現可能な例を示します。 library(nlme) library(JM) data(pbc2) fitLME1 <- lme(log(serBilir) ~ ns(year, 2), random = ~ year | id, data = pbc2) fitLME2 <- lme(log(serBilir) ~ year, random = ~ ns(year, 2) | id, data = pbc2) 基本的に、これらのどれが私のデータにより適しているかを知りたいです。しかしによる比較anovaは私に不吉な警告を与えます: Model df AIC BIC logLik Test L.Ratio p-value fitLME1 1 7 3063.364 3102.364 -1524.682 fitLME2 …
9 r  splines  lme4-nlme 

1
SVMのタイプの違い
ベクターマシンをサポートするのは初めてです。 簡単な説明 R svmのe1071パッケージの関数は、さまざまなオプションを提供します。 C分類 ニュー分類 1つの分類(新規性検出用) EPS回帰 ニュー回帰 5つのタイプの直感的な違いは何ですか?どちらをどのような状況で適用すべきですか?

1
Rを使用した、データに不確実性がある線形モデル
不確実なデータがあるとしましょう。例えば: X Y 1 10±4 2 50±3 3 80±7 4 105±1 5 120±9 不確かさの性質としては、繰り返し測定や実験、測定器の不確かさなどがあります。 Rを使用してカーブをフィットさせたいのですが、通常はで行いlmます。ただし、これは、フィット係数の不確実性、したがって予測区間の不確実性を私に与える場合、データの不確実性を考慮に入れていません。ドキュメントを見ると、lmページにはこれがあります: ...重みは、異なる観測値に異なる分散があることを示すために使用できます... だから、多分これは何か関係があるのではないかと思います。私はそれを手動で行う理論を知っていますが、lm関数でそれを行うことが可能かどうか疑問に思っていました。そうでない場合、これを実行できる他の関数(またはパッケージ)はありますか? 編集 コメントのいくつかを見て、ここにいくつかの明確化があります。この例を見てみましょう: x <- 1:10 y <- c(131.4,227.1,245,331.2,386.9,464.9,476.3,512.2,510.8,532.9) mod <- lm(y ~ x + I(x^2)) summary(mod) くれます: Residuals: Min 1Q Median 3Q Max -32.536 -8.022 0.087 7.666 26.358 Coefficients: Estimate Std. Error t …

2
線形回帰でx切片の信頼区間を計算する方法は?
線形回帰の標準誤差は、通常、応答変数に対して与えられるため、他の方向の信頼区間を取得する方法を考えています。たとえば、x切片の場合です。私はそれが何であるかを視覚化することができますが、これを行う簡単な方法があるはずだと確信しています。以下は、これを視覚化する方法のRの例です。 set.seed(1) x <- 1:10 a <- 20 b <- -2 y <- a + b*x + rnorm(length(x), mean=0, sd=1) fit <- lm(y ~ x) XINT <- -coef(fit)[1]/coef(fit)[2] plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y))) abline(h=0, lty=2, col=8); abline(fit, col=2) points(XINT, 0, col=4, pch=4) newdat <- data.frame(x=seq(-2,12,len=1000)) # CI pred <- …

1
重み付き最小二乗重みの定義:R lm関数と
R重み付けされた最小二乗法とマトリックス演算による手動のソリューションから異なる結果が得られる理由を誰かに教えてもらえますか? 具体的には、を手動で解決しようとしています。ここで、は重みの対角行列、はデータ行列、は応答ですベクター。 W A bWAx=WbWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Abb\mathbf b 引数R lmを使用して結果を関数と比較しようとしていweightsます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.