タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

2
ニューラルネットワーク:オーバーフィットできないのはなぜですか?
(フィードフォワード単一層)ニューラルネットワークを使用して、2つの財務変数(回帰)から環境関連変数を予測しようとしています。キャレットパッケージの「train」関数を使用します。 nnet()キャレットパッケージのアルゴリズムを使用しています。2つの連続予測子と420のデータポイントがあります。 理論的理解のために、私はわざとモデルをオーバーフィットしようとしています。私の理解では、これは通常すべてのデータセットで機能するはずです。たとえば、「サイズ」(つまり、非表示単位の数)を増やすなどです。ただし、隠れたユニットのサイズを大幅に増やしても、過剰適合にはなりません。 したがって、「サイズ」を増やすことですべてのニューラルネットワークをオーバーフィットできると想定するのは間違っていますか?代わりに、他のどの変数が過剰適合につながる可能性がありますか? grid <- expand.grid(size = 20 ) control <- trainControl(method = "cv", number = 10, verboseIter = TRUE ) fit <- train(x=train_parametres, y=train_result, method = "mlp", metric = "Rsquared", learnFunc = "Std_Backpropagation", learnFuncParams = c(0.2, 0.0), maxit = 1000, trControl = control, tuneGrid = grid, preProcess = …

1
RでWLS回帰の重みを決定する方法
DNAメチル化マーカーのセットの関数として年齢を予測しようとしています。これらの予測子は0から100まで連続しています。OLS回帰を実行すると、年齢とともに分散が増加することがわかります。 したがって、私は加重回帰モデルを当てはめることにしました。ただし、モデルの重みを定義する方法を決定するのに苦労しています。私は次のようにfGLSメソッドを使用しました: OLSressq <- OLSres^2 # Square residuals lnOLSressq <- log(OLSressq) # Take natural log of squared residuals aux <- lm(lnOLSressq~X) # Run auxillary model ghat <- fitted(aux) # Predict g^ hhat <- exp(ghat) # Create h^ fGLS <- lm(Y~X, weights = 1/hhat) # Weight is 1/h^ そして、これらは私の結果でした: Call: lm(formula …

2
Rの二項GLM:同じデータですが、2つの異なるモデル
これらのデータのロジスティック回帰を検討してください: X1 X2 Y 1 0 0 1 0 1 0 1 0 0 1 0 0 1 0 0 1 1 1 1 1 Rは、データの3つの異なる表現を受け入れます。テーブルエントリごとに1行、および2つの圧縮表現(1つは重み付け、1つは成功と失敗)です。私の考えでは、これらの3つの仕様はすべて数学的に同じである必要があります。データは同じ7つの観測値であり、それらは異なる形式でRに提示されます。 data1 <- data.frame(x1=c(1,1,0,0,0,0,1), x2=c(0,0,1,1,1,1,1), y=c(0,1,0,0,0,1,1)) data2 <- data.frame(x1=c(0,1,0,1), x2=c(0,0,1,1), y=c(0,0.5,0.25,1), w=c(0,2,4,1)) data3x <- data.frame(x1=c(0,1,0,1), x2=c(0,0,1,1)) data3y <- cbind(c(0,1,1,1), c(0,1,3,0)) model1 <- glm(y~x1+x2, data=data1, family="binomial") …
8 r  logistic 

1
Rでの「予測」と「予測」によるARIMAの予測[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 3年前休業。 30個の値で構成されるデータは、時系列に格納されtimeます。 にARIMAモデリングを適用した後time、forecast関数を使用して将来の値を予測しました。 model = arima(time, order = c(3,2,1)) prediction = forecast.Arima(model,h=10) prediction step is not working and showing error Error in ts(x) : object is not a matrix 上記のように、エラーメッセージが表示されます。しかし、私がするなら model = arima(time[1:25], order = c(3,2,1)) prediction = forecast.Arima(model,h=10) できます。なぜそうなのですか? predict関数を使用したとき model = arima(time, order = c(3,2,1)) …

2
露光付きポアソンxgboost
露出が不均一なカウント依存変数をモデル化しようとしていました。古典的なglmsはオフセットとしてlog(exposure)を使用しますが、gbmも使用しますが、xgboostは今までオフセットを許可していません... この例をクロスバリデーション(オフセットはポアソン/負の二項回帰でどこに行くのか)で欠点を見つけようとすると、露出による重み付けのカウントの代わりに頻度(実数)をモデル化するように提案されました。 データに同じメソッドを適用するためにいくつかのxgboostコードに沿って作業しようとしましたが、失敗しました...コードの下に設定しました: library(MASS) data(Insurance) library(xgboost) options(contrasts=c("contr.treatment","contr.treatment")) #fissa i Insurance$freq<-with(Insurance, Claims/Holders ) library(caret) temp<-dplyr::select(Insurance,District, Group, Age,freq) temp2= dummyVars(freq ~ ., data = temp, fullRank = TRUE) %>% predict(temp) xgbMatrix <- xgb.DMatrix(as.matrix(temp2), label = Insurance$freq, weight = Insurance$Holders) bst = xgboost(data=xgbMatrix, label = Insurance$freq, objective='count:poisson',nrounds=5) #In xgb.get.DMatrix(data, label) : xgboost: label …

1
データマトリックス(テキストマイニングデータ)と同様に、距離マトリックスでk平均を実行することは有効でしたか?
(この投稿は私が昨日投稿した質問の再投稿です(現在は削除されています)が、私は言葉の量を減らし、質問の内容を単純化しようとしました) 私が作成したkmeansスクリプトと出力を解釈するのに役立つ情報を得たいと思っています。これはテキスト分析のコンテキストにあります。このスクリプトは、テキスト分析に関するオンラインの記事をいくつか読んだ後に作成しました。それらのいくつかを以下にリンクしました。 この投稿全体で参照するサンプルのrスクリプトとテキストデータのコーパス: library(tm) # for text mining ## make a example corpus # make a df of documents a to i a <- "dog dog cat carrot" b <- "phone cat dog" c <- "phone book dog" d <- "cat book trees" e <- "phone orange" f <- "phone …

1
列車(キャレット)の相互検証はどのように正確に機能しますか?
キャレットパッケージに関する多くの投稿を読みましたが、特にtrain関数に興味があります。ただし、列車の機能がどのように機能するかを正しく理解したかどうかは、完全にはわかりません。 私の現在の考えを説明するために、簡単な例を作成しました。 最初に、パラメーターグリッドを指定します。メソッドgbmを使用しているとすると、モデルのパラメーターグリッドは次のようになります。 grid <- expand.grid( .n.trees=seq(10,50,10), .interaction.depth=seq(1,4,1), .shrinkage=c(0.01,0.001), .n.minobsinnode=seq(5,20,5)) 続いて、train(trainControl)の制御パラメーターが定義されます。trainを使用した交差検証に関する私の考えが正しいかどうか知りたいので、この例では次のように使用します。 train_control <- trainControl('cv',10) 最後に、train関数が実行されます。例えば: fit <- train(x,y,method="gbm",metric="Kappa",trControl=train_control,tuneGrid=grid) 今、私は電車がうまくいくと推定する方法は次のとおりです: 上記の例では、160(5 * 4 * 2 * 4)の可能なパラメーターの組み合わせがあります。 各パラメーターの組み合わせトレインは、10分割交差検証を実行します パラメーターの組み合わせごと、および(10分割の)分割ごとに、パフォーマンスメトリック(この例ではKappa)が計算されます(この例では、これは1600 Kappaが計算されることを意味します) 各パラメーターの組み合わせについて、パフォーマンスメトリックの平均が10倍にわたって計算されます。 最高の平均パフォーマンスメトリックを持つパラメーターの組み合わせは、モデルの最適なパラメーターと見なされます 私の質問は簡単です、私の現在の考えは正しいですか?


2
R:対数スケールでの箱ひげ図対対数変換*次に*箱ひげ図の作成:同じ結果が得られない
boxplot()R の関数にlog =は、軸を対数スケールにするかどうかを指定する引数があります。 私にとって、このオプションを選択した場合(log = "y"引数として指定)、箱ひげ図の形状は、最初にログで手動でデータを変換し、次にそのログ変換されたデータをプロットした場合と同じように見えるはずです(ラベルを認識します)軸上では異なりますが、プロットの形状を参照しています)。ただし、これは当てはまりません。 簡単な例を以下に示します。 set.seed(923489) data <- rlnorm(300, meanlog = 0, sdlog = 1) boxplot(data) # Highly skewed right raw data boxplot(data, log="y") # Data on log scale; less right-skewed boxplot(log10(data)) # Log base 10-transform data; shape not the same as when specify log="y" boxplot(log(data)) # Natural …

2
MLRモデルをモデルと比較する
データに次のような異常な方程式が当てはまると仮定する理論的な理由がある場合: Y私= (β0+β1バツ1 i+β2バツ2 i+ε私)β3Yi=(β0+β1x1i+β2x2i+ϵi)β3Y_i = (\beta_0 + \beta_1x_{1i} + \beta_2x_{2i} + \epsilon_i)^{\beta_3} 変換後に通常の最小二乗多重線形回帰を使用してパラメーターを推定できますか β0、1、2、3β0,1,2,3\beta{_0,_1,_2,_3}?はいの場合、どのような変化ですか? そうでない場合、R(および簡単な説明)には、このモデルの近似と残差をより一般的なMLRモデルと比較するのに役立つ特別なパッケージがありますか? ありがとう。 コード例: ## while I can run "nls," I cannot get $\epsilon$ inside parentheses nor ## can I have four BETAs var1 <- rnorm(50, 100, 1) var2 <- rnorm(50, 120, 2) var3 <- rnorm(50, …

1
RパッケージMHadaptiveに実装されている適応型Metropolis Hastingsアルゴリズムはどれですか?
アダプティブメトロポリスヘイスティングスアルゴリズムには複数のバージョンがあります。1つはパッケージの関数Metro_Hastingsに実装されています。ここを参照してください。そこにリストされている参考文献、Spiegelhalter et al。(2002)、残念ながら、私が知る限り、適応アルゴリズムの説明は含まれていません。ただし、このアルゴリズムは、検討するモデルの事後分布からのサンプリングで非常にうまく機能するため、その詳細を理解したいと思います。RMHadaptiveMetro_Hastings アルゴリズムを少しリバースエンジニアリングしました。誰かがこの適応型MHアルゴリズムを認識していますか?これはそれがすることです: してみましょう目標濃度であること。初期化します。θ 0 、私は= 0を、Σqqqθ0,i=0,Σθ0,i=0,Σ\theta_{0,i=0},\Sigma 以下のため回の繰り返しを実行します。{ iが= 1 、。。。、n }nnn{i=1,...,n}{i=1,...,n}\{i = 1,...,n\} 提案します。θ1∼N(θ1|θ0,i−1,Σ)θ1∼N(θ1|θ0,i−1,Σ)\theta_1 \sim N(\theta_1|\theta_{0,i-1}, \Sigma) 確率を受け入れます。受け入れる場合は、\ theta_ {0、i}:= \ theta_1を設定します。拒否する場合:\ theta_ {0、i}:= \ theta_ {0、i-1}。θ1θ1\theta_1A=min{1,q(θ1)/q(θ0,i)}A=min{1,q(θ1)/q(θ0,i)}A=\min\{1,q(\theta_1)/q(\theta_{0,i})\}θ0,i:=θ1θ0,i:=θ1\theta_{0,i}:=\theta_1θ0,i:=θ0,i−1θ0,i:=θ0,i−1\theta_{0,i}:=\theta_{0,i-1} 場合i=ji=ji=j、jjjベクターは、任意の要素ように定義されたj>xj>xj>x(デフォルトx=100x=100x=100)の間隔が存在するyyy要素間の反復(デフォルトのy=20y=20y=20)、およびno素子j>zj>zj>z(デフォルトz=0.75nz=0.75nz=0.75n)、行う: 選択θ~={θ0k,...,θ0,i}θ~={θ0k,...,θ0,i}\tilde{\theta}=\{\theta_{0k},...,\theta_{0,i} \}(デフォルトk=0.5ik=0.5ik=0.5i)。 更新:Σ:=S(θ~)Σ:=S(θ~)\Sigma:=S(\tilde{\theta})ここで、SSSは多変量正規性を仮定して\ tilde {\ theta}の分散共分散行列の最尤推定量ですθ~θ~\tilde{\theta}。 手順1と2は標準のMHです。ステップ3および4は、ステップで発生する適応であり、過去の反復の共分散行列にを更新するために過去の反復を使用します。jjjj−kj−kj-kΣΣ\Sigma

2
2つのiid非中心スチューデントt変量の差の分布は何ですか
ましょうと IID非中央t確率変数です。バツ1X1X_1バツ2X2X_2 分布はどうなっていますか?バツ1−バツ2X1−X2X_1 - X_2 つまり、2つのiid非中心スチューデントt変量の差の分布は何ですか? がまたは観測された推定値であるとすると、コードでは、の尤度関数は次のようになります。dddバツ1X1X1バツ2X2X2Rddd likelihood = function(x) dt(d*sqrt(N), df, ncp = x*sqrt(N)) どこd = an observed estimate of X1 or X2、x = parameter range (-Inf to Inf)、N = sample size、とdf = N - 1。 PS dt(x,df,ncp)は非中心t分布の確率密度ncp関数で、3番目の引数は非中心性パラメーターです。

1
打ち切られた法線の期待値の計算
ミル比の結果を使用して、とすると、X∼N(μ,σ2)X∼N(μ,σ2)X \sim N(\mu, \sigma^2) E(X|X&lt;α)=μ−σϕ(a−μσ)Φ(a−μσ)E(X|X&lt;α)=μ−σϕ(a−μσ)Φ(a−μσ)E(X| X<\alpha) = \mu - \sigma\frac{\phi(\frac{a- \mu}{\sigma})}{\Phi(\frac{a-\mu}{\sigma})} ただし、Rで計算すると、正しい結果が得られません。 &gt; mu &lt;- 1 &gt; sigma &lt;- 2 &gt; a &lt;- 3 &gt; x &lt;- rnorm(1000000, mu, sigma) &gt; x &lt;- x[x &lt; a] &gt; mean(x) [1] 0.4254786 &gt; &gt; mu - sigma * dnorm(a, mu, sigma) / …

2
Rの2変量データを使用して散布図から歪度を判断できますか?
plot(filterdacsom5$Median_Income,filterdacsom5$Total_Population, xlab="Income", ylab ="Population", main="Demographics plotted for all zip codes in 2017 ",col="red" ) 私はR歪度を初めて理解しました。 これはMedian_Income、横軸とTotal_Population縦軸の散布図です。散布図から、データが残っているか、負に歪んでいると言っても安全ですか?

2
ロジスティック回帰BIC:正しいNは何ですか?
TL; DR:ロジスティック回帰にBICのために正しい、凝集二項またはベルヌーイ?NNNNNN 最下部の更新 ロジスティック回帰を適用するデータセットがあるとします。例として、参加者がそれぞれm = 100のj=5j=5j=5グループがm=100m=100m=100、合計n=500n=500n=500であると想定します。結果は0または1です。たとえば、次のデータセット(Rコード): library(dplyr) library(tidyr) set.seed(45) d &lt;- tibble(y = rbinom(500, 1, .5), x = factor(rep(LETTERS[1:5], each = 100))) これを表すには2つの方法があります。上記のとおり、すべての観測をベルヌーイ確率変数として扱うか、グループ内の観測を集計して各観測を二項として扱います。データセットの行数は、最初のインスタンスでは500、2番目のインスタンスでは5になります。 集約されたデータセットを構築できます: d %&gt;% group_by(x, y) %&gt;% summarise(n = n()) %&gt;% spread(y, n) %&gt;% rename(f = `0`, s = `1`) %&gt;% mutate(n = s + f) -&gt; d_agg …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.