統計とビッグデータ r

1

GAMに関するSimon Woodの本とそれに関連するRパッケージmgcvは、GAM理論と実際のデータおよびシミュレーションデータへのモデルの適合に関して、非常に詳細で有益です。 1D平滑化の場合、それほど心配する必要はありません。循環基底関数と適応基底関数を実装するかどうかを決定することを除けば、3次平滑化、薄板平滑化、およびPスプライン平滑化と比べて非常に異なる予測結果が得られる可能性があります。適応型の場合、複数のGAMがスプラインに沿って異なる領域に適合されます。私の知る限り、循環ベースは時系列モデリングでは一般的ですが、応答変数に関してデータが大きく変化する場合は、適応平滑化を検討する必要があります。ただし、アダプティブスムースは「慎重に」使用する必要があります。私はしばらくの間GAMを調査してきましたが、私の研究の質問を考えると、どのスムーズな方法で実装するかについて、自分の考えが大きく変わっていることに気づいています。mgcvには、17種類のスムースが含まれています（カウント別）。キュービックスムースとPスプラインスムースの両方を検討しました。私の質問は次のとおりです。最終的な目標が予測目的でフィットしたGAMを使用することである場合、適応スムージングは非適応カウンターパートに対していつ考慮すべきですか？私の目的では、スムーズ化が不十分になる傾向がありますが、デフォルトのGCV平滑化基準を使用しています。応用生態学的GAMで文献は増えていますが、適応型スムーズを実装する研究にはまだ出会っていません。任意のアドバイスをいただければ幸いです。

9 r mgcv

2

カプラン・マイヤー曲線はコックス回帰とは別の言い方をしているようです

Rでは、がん患者の生存データ分析を行っています。 CrossValidatedやその他の場所での生存分析について非常に役立つ情報を読んでおり、Cox回帰の結果を解釈する方法を理解したと思います。しかし、1つの結果はまだ私を悩ませます... 生存率と性別を比較しています。カプラン・マイヤー曲線は明らかに女性患者に好意的です（私が追加した凡例が正しいことを何度か確認しました。最大生存期間4856日の患者は実際に女性です）：そして、コックス回帰が戻ってきています： Call: coxph(formula = survival ~ gender, data = Clinical) n= 348, number of events= 154 coef exp(coef) se(coef) z Pr(>|z|) gendermale -0.3707 0.6903 0.1758 -2.109 0.035 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 …

9 r survival cox-model kaplan-meier

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

4

コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか？

コックス比例ハザードモデルから生存曲線をどのように解釈しますか？このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか？または両方が間違っていますか？200200200 ステートメント1：被験者は20％残ります（たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです）。 100010001000200200200200200200 ステートメント2：特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

シミュレーションによる重要度サンプリングのカバレッジが予想より低い

私はRの重要性サンプリング法と積分を評価する質問に答えようとしていました。基本的に、ユーザーは計算する必要があります ∫π0f(x)dx=∫π01cos(x)2+x2dx∫0πf(x)dx=∫0π1cos⁡(x)2+x2dx\int_{0}^{\pi}f(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}dx 指数分布を重要度分布として使用する q(x)=λ exp−λxq(x)=λ exp−λxq(x)=\lambda\ \exp^{-\lambda x} そして、積分のより良い近似を与えるの値を見つけます（それはです）。私は、平均値の評価などの問題を書き直すμのF （X ）上に[ 0 、π ]：積分次いでだけでπ μ。 λλ\lambdaself-studyμμ\muf(x)f(x)f(x)[0,π][0,π][0,\pi]πμπμ\pi\mu このように、聞かせてのPDFであるX 〜U（0 、π ）、およびlet Y 〜のF （X ）の目標は、現在推定することです。p(x)p(x)p(x)X∼U(0,π)X∼U(0,π)X\sim\mathcal{U}(0,\pi)Y∼f(X)Y∼f(X)Y\sim f(X) μ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫π01cos(x)2+x21πdxμ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫0π1cos⁡(x)2+x21πdx\mu=\mathbb{E}[Y]=\mathbb{E}[f(X)]=\int_{\mathbb{R}}f(x)p(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}\frac{1}{\pi}dx 重要性サンプリングを使用します。Rでシミュレーションを実行しました。 # clear the environment and set the seed for reproducibility rm(list=ls()) gc() graphics.off() set.seed(1) # function to be integrated f <- function(x){ 1 …

9 r simulation exponential importance-sampling

2

XX 'とX'Xの固有値分解でXの有効なSVDを取得できないのはなぜですか？

私は手でSVDを実行しようとしています： m<-matrix(c(1,0,1,2,1,1,1,0,0),byrow=TRUE,nrow=3) U=eigen(m%*%t(m))$vector V=eigen(t(m)%*%m)$vector D=sqrt(diag(eigen(m%*%t(m))$values)) U1=svd(m)$u V1=svd(m)$v D1=diag(svd(m)$d) U1%*%D1%*%t(V1) U%*%D%*%t(V) しかし、最後の行は戻りませんm。どうして？それはこれらの固有ベクトルの兆候と関係があるようです...または手順を誤解しましたか？

9 r svd eigenvalues

1

数学理論の「傾斜均一分布」から乱数を生成する

ある目的のために、「傾斜均一」分布から乱数（データ）を生成する必要があります。この分布の「勾配」は、ある程度の間隔で変化する可能性があり、その場合、私の分布は勾配に基づいて均一から三角形に変化するはずです。これが私の派生です：それを簡単にして、からまでのデータを生成しましょう（青、赤は均一な分布です）。青い線の確率密度関数を取得するには、その線の方程式が必要です。したがって：000BBB f(x)=tg(φ)x+Y(0)f(x)=tg(φ)x+Y(0)f(x) = tg(\varphi)x + Y(0) 以降（写真）： tg(φ)Y(0)=1/B−Y(0)B/2=1B−tg(φ)B2tg(φ)=1/B−Y(0)B/2Y(0)=1B−tg(φ)B2\begin{align} tg(\varphi) &= \frac{1/B - Y(0)}{B/2} \\[5pt] Y(0) &= \frac{1}{B} - tg(\varphi)\frac{B}{2} \end{align} 私たちはそれを持っています： f(x)=tg(φ)x+(1B−tg(φ)B2)f(x)=tg(φ)x+(1B−tg(φ)B2)f(x) = tg(\varphi)x + \left(\frac{1}{B} - tg(\varphi)\frac{B}{2} \right) 以来、 PDFであり、CDFに等しいです。f(x)f(x)f(x) F(x)=tg(φ)x22+x(1B−tg(φ)B2)F(x)=tg(φ)x22+x(1B−tg(φ)B2)F(x) = \frac{tg(\varphi)x^2}{2} + x\left(\frac{1}{B} - tg(\varphi)\frac{B}{2} \right) 次に、データジェネレータを作成します。アイデアは私が修正しますならばということ、である、乱数 Iから番号を取得します場合に計算することができます説明するように一様分布からここに。私は固定と私の分布から100個の乱数が必要な場合はこのように、、その後、いずれかの一様分布からがあり「傾斜配分」からは、およびのように計算することができます。φ,Bφ,B\varphi, Bxxx(0,1)(0,1)(0,1)φ,Bφ,B\varphi, Btitit_i(0,1)(0,1)(0,1)xixix_ixxx tg(φ)x2i2+xi(1B−tg(φ)B2)−ti=0tg(φ)xi22+xi(1B−tg(φ)B2)−ti=0\frac{tg(\varphi)x_i^2}{2} + x_i\left(\frac{1}{B} - tg(\varphi)\frac{B}{2} \right) …

9 r distributions python random-generation uniform

2

異分散性で線形回帰をシミュレーションする

私が持っている経験的データと一致するデータセットをシミュレートしようとしていますが、元のデータのエラーを推定する方法がわかりません。経験的データには不等分散性が含まれていますが、私はそれを変換することに興味はありません。むしろ、経験的データのシミュレーションを再現するために誤差項をもつ線形モデルを使用します。たとえば、いくつかの経験的データセットとモデルがあるとします。 n=rep(1:100,2) a=0 b = 1 sigma2 = n^1.3 eps = rnorm(n,mean=0,sd=sqrt(sigma2)) y=a+b*n + eps mod <- lm(y ~ n) 使用plot(n,y)すると、次のようになります。ただし、データをシミュレートしようとするsimulate(mod)と、異分散性は削除され、モデルによってキャプチャされません。一般化された最小二乗モデルを使用できます VMat <- varFixed(~n) mod2 = gls(y ~ n, weights = VMat) AICに基づいてより適切なモデルフィットを提供しますが、出力を使用してデータをシミュレートする方法がわかりません。私の質問は、元の経験的データ（上記のnおよびy）に一致するようにデータをシミュレートできるモデルをどのように作成するかです。具体的には、いずれかのモデルを使用して、エラーであるsigma2を推定する方法が必要ですか？

9 r simulation heteroscedasticity gamlss dglm

1

Kruskal-Wallis組み込みR関数と手動計算の間のわずかな不整合

私は次のことに戸惑い、答えを他の場所で掘り下げることができませんでした。私はいくつかの統計を行いながらRを学習しようとしています。そして、演習として、組み込みのR関数の結果を、Rのように「手動」でも実行することによって、ダブルチェックしてみます。、Kruskal-Wallis検定では、さまざまな結果が得られますが、その理由がわかりません。たとえば、私は演習で配布された次のデータを見ています activity <- c(2, 4, 3, 2, 3, 3, 4, 0, 4, 3, 4, 0, 0, 1, 3, 1, 2, 0, 3, 1, 0, 3, 4, 0, 1, 2, 2, 2, 3, 2) group <- c(rep("A", 11), rep("B", 10), rep("C", 9)) group <- factor(group) data.raw <- data.frame(activity, …

9 r kruskal-wallis ties

1

Rのなげなわによる多変量線形回帰

高度に相関している多くの従属変数（DV）（〜450）を予測するための縮小モデルを作成しようとしています。私の独立変数（IV）も非常に多く（〜2000）、非常に相関しています。なげなわを使用して各出力の縮小モデルを個別に選択した場合、各従属変数をループするときに、独立変数の同じサブセットを取得することが保証されません。 Rの投げ縄を使用する多変量線形回帰はありますか？これはグループなげなわではありません。グループラッソはIVをグループ化します。lassoも実装する多変量線形回帰（DVがスカラーのベクトルではなく行列であることを意味します）が必要です。（注：NRHが指摘するように、これは真実ではありません。グループラッソは、IVをグループ化する戦略を含むが、DVなどの他のパラメーターをグループ化する戦略も含む一般的な用語です）スパースオーバーラップセットラッソと呼ばれるものに入るこのペーパーを見つけました多変量線形回帰を行うコードは次のとおりです > dim(target) [1] 6060 441 > dim(dictionary) [1] 6060 2030 > fit = lm(target~dictionary) これは、単一のDVで投げ縄を行ういくつかのコードです > fit = glmnet(dictionary, target[,1]) そして、これは私がやりたいことです： > fit = glmnet(dictionary, target) Error in weighted.mean.default(y, weights) : 'x' and 'w' must have the same length 一度にすべてのターゲットに適合する機能を選択する

9 r lasso multivariate-regression

1

スプラインを含む混合効果モデル

経時的な傾向が曲線線形であることがわかっているアプリケーションで、混合効果モデルをスプライン項に適合させています。ただし、評価したいのは、曲線の傾向が線形性からの個別の偏差によって発生するのか、それともグループレベルのフィットが曲線に見えるようにするグループレベルの影響なのかです。JMパッケージのデータセットを退屈な再現可能な例を示します。 library(nlme) library(JM) data(pbc2) fitLME1 <- lme(log(serBilir) ~ ns(year, 2), random = ~ year | id, data = pbc2) fitLME2 <- lme(log(serBilir) ~ year, random = ~ ns(year, 2) | id, data = pbc2) 基本的に、これらのどれが私のデータにより適しているかを知りたいです。しかしによる比較anovaは私に不吉な警告を与えます： Model df AIC BIC logLik Test L.Ratio p-value fitLME1 1 7 3063.364 3102.364 -1524.682 fitLME2 …

9 r splines lme4-nlme

1

SVMのタイプの違い

ベクターマシンをサポートするのは初めてです。簡単な説明 R svmのe1071パッケージの関数は、さまざまなオプションを提供します。 C分類ニュー分類 1つの分類（新規性検出用） EPS回帰ニュー回帰 5つのタイプの直感的な違いは何ですか？どちらをどのような状況で適用すべきですか？

9 r classification svm e1071

1

Rを使用した、データに不確実性がある線形モデル

不確実なデータがあるとしましょう。例えば： X Y 1 10±4 2 50±3 3 80±7 4 105±1 5 120±9 不確かさの性質としては、繰り返し測定や実験、測定器の不確かさなどがあります。 Rを使用してカーブをフィットさせたいのですが、通常はで行いlmます。ただし、これは、フィット係数の不確実性、したがって予測区間の不確実性を私に与える場合、データの不確実性を考慮に入れていません。ドキュメントを見ると、lmページにはこれがあります： ...重みは、異なる観測値に異なる分散があることを示すために使用できます... だから、多分これは何か関係があるのではないかと思います。私はそれを手動で行う理論を知っていますが、lm関数でそれを行うことが可能かどうか疑問に思っていました。そうでない場合、これを実行できる他の関数（またはパッケージ）はありますか？編集コメントのいくつかを見て、ここにいくつかの明確化があります。この例を見てみましょう： x <- 1:10 y <- c(131.4,227.1,245,331.2,386.9,464.9,476.3,512.2,510.8,532.9) mod <- lm(y ~ x + I(x^2)) summary(mod) くれます： Residuals: Min 1Q Median 3Q Max -32.536 -8.022 0.087 7.666 26.358 Coefficients: Estimate Std. Error t …

9 r least-squares error-propagation

2

線形回帰でx切片の信頼区間を計算する方法は？

線形回帰の標準誤差は、通常、応答変数に対して与えられるため、他の方向の信頼区間を取得する方法を考えています。たとえば、x切片の場合です。私はそれが何であるかを視覚化することができますが、これを行う簡単な方法があるはずだと確信しています。以下は、これを視覚化する方法のRの例です。 set.seed(1) x <- 1:10 a <- 20 b <- -2 y <- a + b*x + rnorm(length(x), mean=0, sd=1) fit <- lm(y ~ x) XINT <- -coef(fit)[1]/coef(fit)[2] plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y))) abline(h=0, lty=2, col=8); abline(fit, col=2) points(XINT, 0, col=4, pch=4) newdat <- data.frame(x=seq(-2,12,len=1000)) # CI pred <- …

9 r regression confidence-interval bootstrap

1

重み付き最小二乗重みの定義：R lm関数と

R重み付けされた最小二乗法とマトリックス演算による手動のソリューションから異なる結果が得られる理由を誰かに教えてもらえますか？具体的には、を手動で解決しようとしています。ここで、は重みの対角行列、はデータ行列、は応答ですベクター。 W A bWAx=WbWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Abb\mathbf b 引数R lmを使用して結果を関数と比較しようとしていweightsます。

9 r regression least-squares weighted-regression weighted-data

タグ付けされた質問 「r」

タグ付けされた質問「r」