統計とビッグデータ r

2

聞かせて：大学院における年後、 "加重最小二乗"の私の理解は以下の通りである、いくつかのことデザイン行列、\をboldsymbol \ beta \ in \ mathbb {R} ^ pはパラメータベクトルであり、\ boldsymbol \ epsilon \ in \ mathbb {R} ^ nは、\ boldsymbol \ epsilon \ sim \ mathcal {N}（\ mathbf {0}、\ sigma ^ 2 \ mathbf {V}）、ここで\ mathbf {V} = \ text {diag}（v_1、v_2、\ dots、v_n）および\ sigma ^ 2> 0。次に、モデル \ mathbf …

11 r linear-model weighted-regression

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

打ち切りデータをシミュレートする方法

タイプIの右打ち切り観測を含むn個のワイブル分布の寿命のサンプルをどのようにシミュレートできるのかと思います。たとえば、n = 3、形状= 3、スケール= 1、打ち切り率= .15、打ち切り時間= .88とします。ワイブルサンプルを生成する方法は知っていますが、Rで右打ち切りされたタイプの打ち切りデータを生成する方法がわかりません。 T = rweibull(3, shape=.5, scale=1)

11 r survival simulation random-generation

2

線形回帰でバイナリ/二分独立予測子の残差分析を実行するにはどうすればよいですか？

マネージドファンドのリターンを予測するために、Rで以下の多重線形回帰を実行しています。 reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) ここでは、GRIとMBAのみがバイナリ/二分予測です。残りの予測子は連続です。このコードを使用して、バイナリ変数の残差プロットを生成しています。 plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 私の質問：連続予測子の残差プロットを検査する方法は知っていますが、独立変数がバイナリの場合、等分散性などの線形回帰の仮定をどのようにテストしますか？残差プロット：

11 r multiple-regression categorical-data heteroscedasticity residuals

3

データがログの正規分布に適合するかどうかを確認するにはどうすればよいですか？

Rデータが対数正規分布またはパレート分布に適合しているかどうかを確認したい。どうすればできますか？おそらくks.test私はそれを行うのに役立つでしょうが、私のデータのパレート分布のおよびパラメータをどのように取得できますか？αα\alphakkk

11 r regression distributions lognormal pareto-distribution

6

非線形回帰の異常値の特定

ダニの機能的反応の研究をしています。ロジャースタイプII関数のパラメーター（攻撃率と処理時間）を推定するために回帰を行いたいと思います。測定のデータセットがあります。どうすれば外れ値を最も正確に特定できますか？私の回帰のために私はR（非線形回帰）で次のスクリプトを使用します（datesetと呼ばれるシンプルな2カラムのテキストファイルであるdata.txtと、ファイルN0の値（初期獲物の数）とFR値（24時間の間に食べた獲物の数）： library("nlstools") dat <- read.delim("C:/data.txt") #Rogers type II model a <- c(0,50) b <- c(0,40) plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR") rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)} params1 <- list(attackR3_N=0.04,Th3_N=1.46) RogersII_N <- nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter= 10000)) hatRIIN <- predict(RogersII_N) lines(spline(N0,hatRIIN)) summary(RogersII_N)$parameters カルセック残差グラフをプロットするには、次のスクリプトを使用します。 res <- nlsResiduals (RogersII_N) plot (res, type = 0) hist (res$resi1,main="histogram …

11 r outliers nonlinear-regression

2

ニューラルネットワークの安定性を向上させるにはどうすればよいですか？

Rでニューラルネットを使用して、14入力と1出力のNNを構築しています。同じ入力トレーニングデータと同じネットワークアーキテクチャ/設定を使用して、ネットワークを数回構築/トレーニングします。各ネットワークが生成されたら、それをスタンドアロンのテストデータセットで使用して、いくつかの予測値を計算します。ネットワークを構築するたびにすべての入力（トレーニングデータとテストデータの両方）が同じままであるにもかかわらず、予測データの反復ごとに大きな差異があることがわかりました。 NN内で毎回生成される重み付けに違いがあり、2つのニューラルネットワークが同一になることはないことを理解していますが、同一のデータが与えられた場合、各トレイン全体でより一貫性のあるネットワークを作成するにはどうすればよいですか？

11 r machine-learning neural-networks

6

Rのur.df（Dickey-Fullerユニットルートテスト）の結果の解釈

パッケージのur.df()関数を使用して、時系列で次の単体ルートテスト（Dickey-Fuller）を実行していurcaます。コマンドは次のとおりです。 summary(ur.df(d.Aus, type = "drift", 6)) 出力は次のとおりです。 ############################################### # Augmented Dickey-Fuller Test Unit Root Test # ############################################### Test regression drift Call: lm(formula = z.diff ~ z.lag.1 + 1 + z.diff.lag) Residuals: Min 1Q Median 3Q Max -0.266372 -0.036882 -0.002716 0.036644 0.230738 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) …

11 r time-series hypothesis-testing unit-root

1

ジニ係数と誤差範囲

各時点でN = 14カウントの時系列データがあり、Gini係数と各時点でのこの推定の標準誤差を計算したいと考えています。私は各時点でN = 14カウントしかないので、ジャックナイフの分散、つまりvar （G ）= n − 1を計算しました。トムソンOgwangの式7から標準誤差」ジニ指数とを計算する便利な方法」。ここで、G（N、kは）要素なしでN値のジニ係数であり、K及び ˉ G（X）の平均値であるG（N、K）。var（G ）= n − 1ん× Σんk = 1（G （n 、k ）− G¯（n ））2var⁡(G)=n−1n×∑k=1n(G(n,k)−G¯(n))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G （n 、k ）G(n,k)G(n,k)kkkG¯（x ）G¯(x)\bar{G}(x)G （n 、k ）G(n,k)G(n,k) 上記の分散の式の直接の単純な実装。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested …

11 r variance econometrics resampling gini

1

多変量時系列のブロックブートストラップの代替

私は現在、Rで多変量時系列をブートストラップするために次のプロセスを使用しています。ブロックサイズの決定- 各シリーズのブロックサイズを生成するパッケージb.star内の関数を実行しますnp 最大ブロックサイズを選択 tsboot選択したブロックサイズを使用して任意のシリーズで実行ブートストラップ出力のインデックスを使用して、多変量時系列を再構築します誰かがブロックブートストラップの代わりにmebootパッケージを使用することを提案しましたが、データセット全体を使用してブロックサイズを選択していないため、実行mebootして作成されたインデックスを使用する場合にシリーズ間の相関関係を保持する方法がわかりません1つのシリーズ。多変量設定でmebootの経験がある人がいれば、そのプロセスについてのアドバイスをいただければ幸いです。

11 r time-series multivariate-analysis bootstrap

2

Rで因子から数値変数に変換する際の問題[終了]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 7年前休業。因子変数を数値に変換したいのですが、as.numeric期待した効果がありません。以下に、元の変数に基づく変数の数値バージョンの要約統計を取得します。手段は1ずつカウントアップし続けます...おそらく（彼は推測します）因子のレベルには名前と数値の両方があり、数値as.numericを使用するように設計されている場合、新しい変数の値は名前から来ると期待していますか？ > describe.by(as.numeric(df$sch), df$sch) group: var n mean sd median trimmed mad min max range skew kurtosis se 1 1 5389 1 0 1 1 0 1 1 0 NaN NaN 0 --------------------------------------------------------- group: 001 var n mean sd median trimmed mad min max range …

11 r data-transformation

1

GLMにはどのような残差とクックの距離が使用されますか？

クックの距離の式が何か知っている人はいますか？元のクックの距離式はスチューデント化された残差を使用していますが、Rがstdを使用するのはなぜですか。GLMのクックの距離プロットを計算するときのピアソン残差。学習した残差がGLMに対して定義されていないことは知っていますが、クックの距離を計算する式はどのように見えますか？次の例を想定します。 numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) クックの距離の式は何ですか？言い換えれば、赤い破線を計算する式は何ですか？そして、標準化されたピアソン残差のこの式はどこから来たのですか？

11 r regression generalized-linear-model residuals cooks-distance

1

ARIMA（1,1,0）シリーズのシミュレーション

ARIMAモデルを元の時系列に適合させましたが、最良のモデルはARIMA（1,1,0）です。次に、そのモデルからシリーズをシミュレートしたいと思います。単純なAR（1）モデルを作成しましたが、モデルARI（1,1,0）内の違いを調整する方法を理解できませんでした。AR（1）シリーズの次のRコードは次のとおりです。 phi= -0.7048 z=rep(0,100) e=rnorm(n=100,0,0.345) cons=2.1 z[1]=4.1 for (i in 2:100) z[i]=cons+phi*z[i-1]+e[i] plot(ts(Y)) 上記のコードに差分項ARI（1,1）を含めるにはどうすればよいですか？この点で誰でも私を助けてくれます。

11 r time-series arima

3

ポアソンGLMにオフセットを使用する必要がありますか？

私は、2つの異なる水中視覚センサス法を使用した場合の魚密度と魚種の豊富さの違いを調べるための研究を行っています。私のデータは元々はカウントデータでしたが、通常は魚の密度に変更されますが、ポアソンGLMを使用することに決めました。 model1 <- glm(g_den ~ method + site + depth, poisson) 私の3つの予測変数は、メソッド、サイト、および深さです。私の応答変数は、ハタ種の豊富さ、ハタ密度、および他の魚群と同じです。密度は整数ではなく、数値データであることを認識しています（例：1.34849）。私は今このエラーを得ています： In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 私は読んでいて、多くの人がオフセットの使用を提案していますが、これは最も賢明なことですか？

11 r generalized-linear-model poisson-distribution offset

1

nullとモデル偏差を使用してGLMモデルをテストする

私はRでglmモデルを構築し、テストおよびトレーニンググループを使用してテストしたので、うまく機能すると確信しています。Rの結果は次のとおりです。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.781e+00 1.677e-02 -165.789 < 2e-16 *** Coeff_A 1.663e-05 5.438e-06 3.059 0.00222 ** log(Coeff_B) 8.925e-01 1.023e-02 87.245 < 2e-16 *** log(Coeff_C) -3.978e-01 7.695e-03 -51.689 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 …

11 r generalized-linear-model chi-squared

タグ付けされた質問 「r」

タグ付けされた質問「r」