タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

2
lm()を使用する場合のRの重み引数の背後にある理論
聞かせて:大学院における年後、 "加重最小二乗"の私の理解は以下の通りである、いくつかのことデザイン行列、\をboldsymbol \ beta \ in \ mathbb {R} ^ pはパラメータベクトルであり、\ boldsymbol \ epsilon \ in \ mathbb {R} ^ nは、\ boldsymbol \ epsilon \ sim \ mathcal {N}(\ mathbf {0}、\ sigma ^ 2 \ mathbf {V})、ここで\ mathbf {V} = \ text {diag}(v_1、v_2、\ dots、v_n)および\ sigma ^ 2> 0。次に、モデル \ mathbf …

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
打ち切りデータをシミュレートする方法
タイプIの右打ち切り観測を含むn個のワイブル分布の寿命のサンプルをどのようにシミュレートできるのかと思います。たとえば、n = 3、形状= 3、スケール= 1、打ち切り率= .15、打ち切り時間= .88とします。ワイブルサンプルを生成する方法は知っていますが、Rで右打ち切りされたタイプの打ち切りデータを生成する方法がわかりません。 T = rweibull(3, shape=.5, scale=1)

2
線形回帰でバイナリ/二分独立予測子の残差分析を実行するにはどうすればよいですか?
マネージドファンドのリターンを予測するために、Rで以下の多重線形回帰を実行しています。 reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) ここでは、GRIとMBAのみがバイナリ/二分予測です。残りの予測子は連続です。 このコードを使用して、バイナリ変数の残差プロットを生成しています。 plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 私の質問: 連続予測子の残差プロットを検査する方法は知っていますが、独立変数がバイナリの場合、等分散性などの線形回帰の仮定をどのようにテストしますか? 残差プロット:

3
データがログの正規分布に適合するかどうかを確認するにはどうすればよいですか?
Rデータが対数正規分布またはパレート分布に適合しているかどうかを確認したい。どうすればできますか?おそらくks.test私はそれを行うのに役立つでしょうが、私のデータのパレート分布のおよびパラメータをどのように取得できますか?αα\alphakkk

6
非線形回帰の異常値の特定
ダニの機能的反応の研究をしています。ロジャースタイプII関数のパラメーター(攻撃率と処理時間)を推定するために回帰を行いたいと思います。測定のデータセットがあります。 どうすれば外れ値を最も正確に特定できますか? 私の回帰のために私はR(非線形回帰)で次のスクリプトを使用します(datesetと呼ばれるシンプルな2カラムのテキストファイルであるdata.txtと、ファイルN0の値(初期獲物の数)とFR値(24時間の間に食べた獲物の数): library("nlstools") dat <- read.delim("C:/data.txt") #Rogers type II model a <- c(0,50) b <- c(0,40) plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR") rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)} params1 <- list(attackR3_N=0.04,Th3_N=1.46) RogersII_N <- nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter= 10000)) hatRIIN <- predict(RogersII_N) lines(spline(N0,hatRIIN)) summary(RogersII_N)$parameters カルセック残差グラフをプロットするには、次のスクリプトを使用します。 res <- nlsResiduals (RogersII_N) plot (res, type = 0) hist (res$resi1,main="histogram …

2
ニューラルネットワークの安定性を向上させるにはどうすればよいですか?
Rでニューラルネットを使用して、14入力と1出力のNNを構築しています。同じ入力トレーニングデータと同じネットワークアーキテクチャ/設定を使用して、ネットワークを数回構築/トレーニングします。 各ネットワークが生成されたら、それをスタンドアロンのテストデータセットで使用して、いくつかの予測値を計算します。ネットワークを構築するたびにすべての入力(トレーニングデータとテストデータの両方)が同じままであるにもかかわらず、予測データの反復ごとに大きな差異があることがわかりました。 NN内で毎回生成される重み付けに違いがあり、2つのニューラルネットワークが同一になることはないことを理解していますが、同一のデータが与えられた場合、各トレイン全体でより一貫性のあるネットワークを作成するにはどうすればよいですか?

6
Rのur.df(Dickey-Fullerユニットルートテスト)の結果の解釈
パッケージのur.df()関数を使用して、時系列で次の単体ルートテスト(Dickey-Fuller)を実行していurcaます。 コマンドは次のとおりです。 summary(ur.df(d.Aus, type = "drift", 6)) 出力は次のとおりです。 ############################################### # Augmented Dickey-Fuller Test Unit Root Test # ############################################### Test regression drift Call: lm(formula = z.diff ~ z.lag.1 + 1 + z.diff.lag) Residuals: Min 1Q Median 3Q Max -0.266372 -0.036882 -0.002716 0.036644 0.230738 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) …

1
ジニ係数と誤差範囲
各時点でN = 14カウントの時系列データがあり、Gini係数と各時点でのこの推定の標準誤差を計算したいと考えています。 私は各時点でN = 14カウントしかないので、ジャックナイフの分散、つまりvar (G )= n − 1を計算しました。トムソンOgwangの式7から標準誤差」ジニ指数とを計算する便利な方法」。ここで、G(N、kは)要素なしでN値のジニ係数であり、K及び ˉ G(X)の平均値であるG(N、K)。var(G )= n − 1ん× Σんk = 1(G (n 、k )− G¯(n ))2var⁡(G)=n−1n×∑k=1n(G(n,k)−G¯(n))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G (n 、k )G(n,k)G(n,k)kkkG¯(x )G¯(x)\bar{G}(x)G (n 、k )G(n,k)G(n,k) 上記の分散の式の直接の単純な実装。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested …

1
多変量時系列のブロックブートストラップの代替
私は現在、Rで多変量時系列をブートストラップするために次のプロセスを使用しています。 ブロックサイズの決定- 各シリーズのブロックサイズを生成するパッケージb.star内の関数を実行しますnp 最大ブロックサイズを選択 tsboot選択したブロックサイズを使用して任意のシリーズで実行 ブートストラップ出力のインデックスを使用して、多変量時系列を再構築します 誰かがブロックブートストラップの代わりにmebootパッケージを使用することを提案しましたが、データセット全体を使用してブロックサイズを選択していないため、実行mebootして作成されたインデックスを使用する場合にシリーズ間の相関関係を保持する方法がわかりません1つのシリーズ。多変量設定でmebootの経験がある人がいれば、そのプロセスについてのアドバイスをいただければ幸いです。

2
Rで因子から数値変数に変換する際の問題[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 7年前休業。 因子変数を数値に変換したいのですが、as.numeric期待した効果がありません。 以下に、元の変数に基づく変数の数値バージョンの要約統計を取得します。手段は1ずつカウントアップし続けます...おそらく(彼は推測します)因子のレベルには名前と数値の両方があり、数値as.numericを使用するように設計されている場合、新しい変数の値は名前から来ると期待していますか? > describe.by(as.numeric(df$sch), df$sch) group: var n mean sd median trimmed mad min max range skew kurtosis se 1 1 5389 1 0 1 1 0 1 1 0 NaN NaN 0 --------------------------------------------------------- group: 001 var n mean sd median trimmed mad min max range …

1
GLMにはどのような残差とクックの距離が使用されますか?
クックの距離の式が何か知っている人はいますか?元のクックの距離式はスチューデント化された残差を使用していますが、Rがstdを使用するのはなぜですか。GLMのクックの距離プロットを計算するときのピアソン残差。学習した残差がGLMに対して定義されていないことは知っていますが、クックの距離を計算する式はどのように見えますか? 次の例を想定します。 numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) クックの距離の式は何ですか?言い換えれば、赤い破線を計算する式は何ですか?そして、標準化されたピアソン残差のこの式はどこから来たのですか?

1
ARIMA(1,1,0)シリーズのシミュレーション
ARIMAモデルを元の時系列に適合させましたが、最良のモデルはARIMA(1,1,0)です。次に、そのモデルからシリーズをシミュレートしたいと思います。単純なAR(1)モデルを作成しましたが、モデルARI(1,1,0)内の違いを調整する方法を理解できませんでした。AR(1)シリーズの次のRコードは次のとおりです。 phi= -0.7048 z=rep(0,100) e=rnorm(n=100,0,0.345) cons=2.1 z[1]=4.1 for (i in 2:100) z[i]=cons+phi*z[i-1]+e[i] plot(ts(Y)) 上記のコードに差分項ARI(1,1)を含めるにはどうすればよいですか?この点で誰でも私を助けてくれます。
11 r  time-series  arima 

3
ポアソンGLMにオフセットを使用する必要がありますか?
私は、2つの異なる水中視覚センサス法を使用した場合の魚密度と魚種の豊富さの違いを調べるための研究を行っています。私のデータは元々はカウントデータでしたが、通常は魚の密度に変更されますが、ポアソンGLMを使用することに決めました。 model1 <- glm(g_den ~ method + site + depth, poisson) 私の3つの予測変数は、メソッド、サイト、および深さです。 私の応答変数は、ハタ種の豊富さ、ハタ密度、および他の魚群と同じです。密度は整数ではなく、数値データであることを認識しています(例:1.34849)。私は今このエラーを得ています: In dpois(y, mu, log = TRUE) : non-integer x = 0.037500 私は読んでいて、多くの人がオフセットの使用を提案していますが、これは最も賢明なことですか?

1
nullとモデル偏差を使用してGLMモデルをテストする
私はRでglmモデルを構築し、テストおよびトレーニンググループを使用してテストしたので、うまく機能すると確信しています。Rの結果は次のとおりです。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.781e+00 1.677e-02 -165.789 < 2e-16 *** Coeff_A 1.663e-05 5.438e-06 3.059 0.00222 ** log(Coeff_B) 8.925e-01 1.023e-02 87.245 < 2e-16 *** log(Coeff_C) -3.978e-01 7.695e-03 -51.689 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.