タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
R、nls()またはnlm()の非線形最小二乗法対最尤法?
モデルを推定しています E(Y| バツ)= Pr (Y= 1 | バツ)=α0+(1 −α0−α1)ϕ(バツ』β)、E(Y|X)=Pr(Y=1|X)=α0+(1−α0−α1)ϕ(X′β),E(Y|X) = Pr(Y=1|X) = \alpha_0 + (1 - \alpha_0 - \alpha_1)\phi(X'\beta), どこ α0α0\alpha_0およびはパラメーター、はパラメーターの長のベクトル、はデータの行列、従属変数はバイナリー、はプロビットモデルなので、累積分布標準正規分布の関数。予想を導き出すために、エラーは正常で平均ゼロであるという仮定がなされました。α1α1\alpha_1ββ\betapppバツXXp × np×np \times nYYYϕ ()ϕ()\phi() モデルのソースはここにあり(式6および7を参照)、論文に従って、非線形最小二乗法または最尤法のいずれかを使用してモデルを推定できます。nls()非線形最小二乗のnlm()関数と最大尤度の関数を使用して、Rで両方のアプローチを試しました。実験により、私のアプリケーションの結果は非常によく似ていることが示唆されていますが、nls()高速です。どちらか一方のアプローチを優先する理由はありますか?メソッドの選択についてはどのように考えればよいでしょうか。 これらの2つのアプローチの違いを検討するための提案、または関連する参考文献の提案をいただければ幸いです。

1
RでのTukeyHSD出力の解釈
Rで単純なANOVAを実行し、次の平均のTukeyHSD()比較を生成しました。 私はこれが「p adj」を除いて何を意味するのかについてかなり良い考えを持っています 私が正しい場合: ジュニアと新入生のテストスコアの差は4.86で、ジュニアは平均4.86ポイント高くなっています。 その差の95%信頼区間は、-12.19〜21.91ポイントです。 しかし、私はp adjが何を表しているのかはっきりしません。まず、何のために調整しましたか?次に、これは他のp値と同様に解釈されますか?それで、ジュニアと新入生の間で平均に統計的差異はありません(p値> .05のため)?
7 r  tukey-hsd 

1
どのブートストラップ法が最も好ましいですか?
多分この質問は与えられたデータに依存しますが、他のものより「より良い」ブートストラップ方法はありますか?私は単に1つの変数のデータセットを使用しています(これは、過去15週間のフットボールのスコア(2チーム)の違いで構成されています)。 最初にこのデータの正しいスキューに注意してください。これは、データの表現に「より良い」または最も正確であると私が推奨するブートストラップを考慮に入れるように感じます。 まず、標準のブートストラップ間隔です N <- 10^4 n <- length(Differences) Differences.mean <- numeric(N) for(i in 1:N) { x <- sample(Differences, n, replace = TRUE) Differences.mean[i]<- mean(x) } lower = mean(Differences.mean)-1.96*sd(Differences.mean) #Lower CI upper = mean(Differences.mean)+1.96*sd(Differences.mean) #Upper CI = (8.875, 10.916) mean(Differences.mean)-m #The bias is fairly small also = -.0019 これがブートストラップ百分位間隔です quantile(Differences.mean,c(.025,.975) …

1
ロジスティック回帰の適合値と確率
従属変数 [0,1]の範囲の依存値があります。意味0と1、およびその間のすべての値が含まれます。したがって、これはたとえば農家が受精させる土地の割合などの比例値です。 型番 私が現在注力しているモデルは、ロジスティックモデルです。 ただし、出力として、モデルによって従属変数がどのように予測されるかを確認したいと思います(実際の値と推定値を比較するため)。 ただし、ロジスティック回帰は通常、出力として「確率」を示します。その結果、私は今少し混乱しています。 私のモデル= out <- glm(cbind(fertilized, total_land-fertilized) ~ X-variables, family=binomial(cloglog), data=Alldata) 私が使用する受精地の推定割合を予測するには Alldata$estimated_fertilized<-predict(out,data=newdata,type="response")) これは正しいです?または、この線は予測されたパーセンテージの代わりに確率を与えますか?正しくない場合、必要なものを取得するにはどうすればよいですか? 更新 選択したモデルの正確性について質問があるという事実を踏まえて、いくつかの追加情報を提供します。 従属変数の分布(これは0-1、0、1を含む比率です)。

2
縦断データのあるランダムフォレスト
複数の個人の多くの測定値がありますが、ランダムフォレストモデルを実行するときに、その繰り返し測定構造をどのように説明するかわかりません。 ランダムフォレストモデルを使用して、縦断的なデータの基になるデータ構造を説明する方法はありますか? これも必要ですか?-それはあるべきだと私には思われます... 特にでこれを実行できるようにしたいと思いRます。

1
これはモンテカルロシミュレーションですか?
では、2つの正規分布を比較してみましょう Do this x times: runs <- 100000 a.samples <- rnorm(runs, mean = 5) b.samples <- rbeta(runs, mean = 0) mc.p.value <- sum(a.samples > b.samples)/runs アルファ(0.05)をxで割った値を下回るmc.p.値は、type1のエラー率になります。H0はa.samples> = b.samplesです。(https://www.countbayesie.com/blog/2015/3/3/6-amazing-trick-with-monte-carlo-simulationsに触発されて) しかし、モンテカルロシミュレーションは次の手順に従う必要があると思いました。 アルゴリズム: データのいくつかの分布、f()またはf(θ)、およびいくつかのH0を設定します。 次の2つのステップを何度も繰り返します。(a)H0に従ってデータセットをシミュレートします(b)シミュレートしたデータを使用してT(x)を計算します サンプルデータから評価されたT(X)を追加する すべてのT(x)を注文する p値は、T(x)の割合で、サンプルデータのT(x)よりも極端または極端です したがって、最初のコードスニペットは、真のモンテカルロシミュレーションではありませんか?これは、p値が有効であるためです。これをグラフ化すると、統計的検定で期待される5%のtype1エラー率が得られないためです。

1
2つのサンプルの歪度の違いをテストする方法は?
2つのサンプルがあります。それらの密度を見ると、1つは対称に見え、もう1つはいくつかの右裾分布から見えます。2つが同じ歪度を持たないことをテストしたいと思います(ここでは選択的推論の問題を無視しています)。 私の計画は、2つのサンプルのブートストラップ複製を取り、歪度の違いを計算し、B回繰り返して、値の97.5%が0の両側のうちの1つになるかどうかを確認することです。 私の質問は次のとおりです。1)正規性を仮定した場合(または他の何らかの仮定をした場合)、2つの観測の歪度を比較する既知のテストはありますか?2)このタイプのブートストラップ仮説検定を行うときに(上記の説明で触れなかった)知っておくべきことはありますか? ありがとう。 (ps:Rの例はいつでも歓迎です)

1
Google Causal Impactパッケージを使用して、計画された介入の重要性を評価する
Rの因果関係の影響パッケージを使用して、相関性が高く季節性のあるいくつかのデータにおける介入の因果関係の影響を推測しています。 具体的には、17日の毎時データを取得しました。介入は1日の終わりに発生します。介入にはまったく影響を受けない2つの制御データセット(0.708と0.701の線形相関)と、介入を含むデータセット(別名「扱われる」) データの一部は ここにあります 私のコードは次のとおりです days <- 4 daily.obser <- days*24 data.1 <- cbind(treated.signal.3n,the.control.3,the.control.2) data.1 <- data.1[1:((length(bsl)+1)+daily.obser), ] #check the required amount of data only matplot(data.1, type = "l",col = c(2,4,9)) legend("bottomright", inset=.05, legend=c("Treated Zone", "Control Zone 1", "Control Zone 2"), pch=1, col=c(2,4,9), horiz=TRUE) preperiod <- c(1,length(bsl)) postperiod <- c((length(bsl)+1),(length(bsl)+1+daily.obs)) …


1
Rによるロジスティック回帰
次のテストデータを作成したロジスティック回帰を行っています(2つの予測子と基準はバイナリ変数です)。 UV1 UV2 AV 1 1 1 1 2 1 1 1 3 1 1 1 4 1 1 1 5 1 1 1 6 1 1 1 7 1 1 1 8 0 0 1 9 0 0 1 10 0 0 1 11 1 1 0 12 1 …

1
mle2 /最尤法を使用して推定された打ち切り二項モデルの予測の95%信頼区間
私は、現在世代の男性のペアが複数ありi、それぞれが父系の祖先と推定されるni世代が(世代別の証拠に基づいて)前にあり、Y染色体の遺伝子型にミスマッチがあるかどうかについて情報を持っています(排他的に父系で)遺伝性の、xi=不一致の場合は1、一致する場合は0)。不一致がない場合、彼らは確かに共通の父方の祖先を持っていますが、存在する場合、1つ以上の婚外事件の結果としてチェーンにキンクがあったに違いありません(私は、何もないか、少なくともそのようなエクストラペアの親子関係のイベントの1つが発生しました(つまり、従属変数が打ち切られます)。私が興味を持っているのは、平均のペア外父系(EPP)率(世代ごとに子供がペア外交尾から得られる確率)だけでなく、最尤推定(プラス95%信頼限界)を取得することですが、また、ペアの親の父親率が時間の関数としてどのように変化したかを推測することも試みます(共通の父親の祖先を分離した世代のnrがこれに関する情報を持っているはずです-不一致がある場合、私はしません)推定祖先の世代と現在の間のどこかにある可能性があるため、EPPがいつ発生したかはわかりませんが、一致する場合は、前の世代のいずれにもEPPがなかったことを確認します)。したがって、従属二項変数と独立共変量生成/時間の両方が検閲されます。投稿されたやや類似した問題に基づくここで、私は次のようにして、母の最尤推定値と時間平均のエクストラペアの父性率にphat加えてRの95%プロファイル尤度信頼区間をどのように作成できるかをすでに理解しました。 # Function to make overall ML estimate of EPP rate p plus 95% profile likelihood confidence intervals, # taking into account that for pairs with mismatches multiple EPP events could have occured # # input is # x=vector of booleans or 0 and 1s specifying if there was a …

4
なげなわがペナルティパラメータに収束しないのはなぜですか?
LASSO回帰がどのように機能するかを調べるためにLASSO、最適なアルファパラメーターを選択することで回帰を最適化する小さなコードを書きました。 LASSO交差検証後、回帰がアルファパラメーターに対してこのような不安定な結果をもたらす理由を理解できません。 これが私のPythonコードです: from sklearn.linear_model import Lasso from sklearn.cross_validation import KFold from matplotlib import pyplot as plt # generate some sparse data to play with import numpy as np import pandas as pd from scipy.stats import norm from scipy.stats import uniform ### generate your own data here n = 1000 …

1
RおよびAICでのdrop1コマンドの使用
モデル構築のためにRでdrop1コマンドを使用している間、AIC値が最も低い変数をドロップする必要があると言われています。同じ理由は何でしょうか?AICは情報の損失について話しているので、AIC値は低い方が良いことはわかっていますが、AICが低い変数を削除するのは直観に反するようです。誰かがそうする理由を説明できますか?
7 r  regression  aic 

2
すべてのARIMA(1,1,0)モデルはAR(2)モデルと同等ですか?
次の形式のARIMA(1,1,0)モデルを使用して近似したい時系列あるとします。xtxt x_t Δxt=αΔxt−1+wtΔxt=αΔxt−1+wt \Delta x_t = \alpha \Delta x_{t-1} + w_t これは次のように書き直すことができます。 xt−xt−1=α(xt−1−xt−2)+wtxt−xt−1=α(xt−1−xt−2)+wt x_t - x_{t-1} = \alpha ( x_{t-1} - x_{t-2} )+ w_t xt=(1+α)xt−1−αxt−2+wtxt=(1+α)xt−1−αxt−2+wt x_t = ( 1 + \alpha)x_{t-1} - \alpha x_{t-2} + w_t 最後の方程式は、係数がおよび AR(2)モデルを表しています。によっては、このAR(2)モデルが非定常である可能性があることを認識しています。ただし、最初に差分を取っていた場合、モデリングしているシリーズは静止していてはいけません。1+α1+α1+\alpha−α−α-\alphaαα\alpha モデルが定常的でない場合は、差分を使用する必要があることを知っています。しかし、AR(2)モデルとARIMA(1,1,0)モデルを使用した場合、結果はどのように異なりますか?私は(Rが示唆するように)収束に問題があると思います。ただし、Rに近似を実行するように依頼すると、Rは両方を実行し、係数は(ほとんど)上記の私の観察と一致します。ただし、予測は明らかに異なります。 誰かがこれに光を当てたり、私に良い参照を指摘したりできれば、私はそれを感謝します。 これは、両方のモデルを生成するために使用したRコードです。 > set.seed(2) > x <- arima.sim(n = 1000, model=list(order=c(1,1,0), …
7 r  time-series  arima 

1
二変量中央値のデータと信頼 "楕円"(領域?)を見つけますか?
二変量中央値の周りのデータと信頼楕円を計算する方法について疑問に思っています。たとえば、次のデータの二変量平均のデータ楕円または信頼楕円を簡単に計算できます(ここではデータ楕円のみを示しています)。 library("car") set.seed(1) df <- data.frame(x = rnorm(200, mean = 4, sd = 1.5), y = rnorm(200, mean = 1.4, sd = 2.5)) plot(df) with(df, dataEllipse(x, y, level = 0.68, add = TRUE)) しかし、私は二変量中央値に対してこれをどのように行うのかと苦労していますか?単変量の場合、リストラップをブートストラップして必要な間隔を生成することができますが、これを二変量の場合に変換する方法がわかりませんか? @Andy Wが指摘したように、中央値は一意に定義されていません。この例では、そのポイントでの観測間の距離のL1ノルムを最小化するポイントを見つけることにより、空間中央値を使用しました。観測されたデータポイントから空間中央値を計算するために最適化が使用されました。 さらに、実際のユースケースにおけるx、yデータペアは、非類似度マトリックスの主座標分析の2つの固有ベクトルであるため、特定の攻撃手段を提供する場合、xとyは直交している必要があります。 実際の使用例では、ユークリッド空間の点のグループのデータ/信頼楕円を計算します。例えば: 分析は、グループ間の分散の均一性のリーベン検定の多変量類似体です。多変量中心傾向の尺度として空間中央値または標準グループの重心を使用し、空間中央値の場合の上の図のデータ楕円に相当するものを追加します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.