タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

6
パネルデータを使用してベクトル自己回帰とインパルス応答関数を推定する方法
私は、77四半期にわたって33人の個人のパネルデータに基づいて、ベクトル自動回帰(VAR)とインパルス応答関数(IRF)の推定に取り組んでいます。このタイプの状況はどのように分析する必要がありますか?この目的のためにどのようなアルゴリズムが存在しますか?私はこれらの分析をRで行うことを好みます。そのため、Rコードまたはこの目的のために設計されたパッケージに詳しい人が示唆できるとしたら、それは特に役立ちます。

4
サッカーのスコアのモデリング
Dixon、Coles(1997)では、彼らは(4.3)の2つの修正された独立したポアソンモデルの最尤推定を使用して、サッカーのスコアをモデル化しました。 パッケージを使用せずにアルファとベータ、およびホームエフェクトパラメーター(pg。274、表4)を "再現"するためにRを使用しようとしています(通常の独立したポアソンモデルを使用しても問題ありません)。bivpoisパッケージを使用してみましたが、パラメーターを変更する方法がわかりません。 誰かがRコードを使ってデータをモデル化できるように手助けしていただければ幸いです。英語プレミアリーグのシーズン2012/13のホームチームとアウェーチームのスコア。

2
メディエーションモデルに適合するようにデータをシミュレーションする
特定のメディエーションモデルと一致するデータをシミュレートする手順を見つけることに興味があります。Barron and Kenny(1986)によって最初に概説され、Judd、Yzerbyt、&Muller(2013)などの他の場所で説明されたメディエーションモデルをテストするための一般的な線形構造方程式モデルフレームワークによると、結果メディエーションモデル、メディエーター、および予測子あり、次の3つの回帰方程式によって管理されます: YYYmedmed\newcommand{\med}{\rm med} \medXXXYmedY=b11+b12X+e1=b21+b22X+e2=b31+b32X+b32med+e3(1)(2)(3)(1)Y=b11+b12X+e1(2)med=b21+b22X+e2(3)Y=b31+b32X+b32med+e3\begin{align} Y &= b_{11} + b_{12}X + e_1 \tag{1} \\ \med &= b_{21} + b_{22}X + e_2 \tag{2} \\ Y &= b_{31} + b_{32}X + b_{32} \med + e_3 \tag{3} \end{align}を介した に対するの間接効果または仲介効果は、として、または同等にとして定義できます。メディエーションのテストの古いフレームワークでは、メディエーションは、式1の、式2の、および式3のをテストすることで確立されました。XXXYYYmedmed\medb22b32b22b32b_{22}b_{32}b12−b32b12−b32b_{12}-b_{32}b12b12b_{12}b22b22b_{22}b32b32b_{32} これまで、以下のコードのように、in を使用してさまざまな回帰係数の値と一致するおよび値をシミュレートすることを試みました:medmed\medYYYrnormR x <- rep(c(-.5, .5), 50) med <- 4 + .7 * …

1
主成分分析と対応分析の使用
潮間帯群集に関するデータセットを分析しています。データは、四角形の(海藻、フジツボ、ムール貝などの)カバー率です。種数の観点からのコレスポンデンス分析(CA)と、線形環境(種ではない)傾向に役立つものとして主成分分析(PCA)を考えることに慣れています。PCAまたはCAがカバー率(紙を見つけることができない)に適しているかどうかを判断するのに実際に運がありませんでした。また、100%に制限されているものがどのように分配されるかさえわかりません? 最初のトレンド除去対応分析(DCA)軸の長さが2を超える場合、CAを使用する必要があると安全に判断できるという大まかなガイドラインに精通しています。DCA軸1の長さは2.17でしたが、役に立ちませんでした。

2
予測間隔の計算
ここに次のデータがあります。炭化水素のパーセンテージが1.0の場合、平均純度の95%信頼区間を計算しようとしています。Rでは、次のように入力します。 > predict(purity.lm, newdata=list(hydro=1.0), interval="confidence", level=.95) fit lwr upr 1 89.66431 87.51017 91.81845 しかし、どうすればこの結果を自分で導き出すことができますか?次の式を使ってみました。 snew=s2(1+1N+(xnew−x¯)2∑(xi−x¯)2)−−−−−−−−−−−−−−−−−−−−−−√snew=s2(1+1N+(xnew−x¯)2∑(xi−x¯)2)s_{new}=\sqrt{s^2\left(1+\frac{1}{N}+\frac{(x_{new}-\bar x)^2}{\sum(x_i-\bar x)^2}\right)} そして、Rに次のように入力します。 > SSE_line = sum((purity - (77.863 + 11.801*hydro))^2) > MSE = SSE_line/18 > t.quantiles <- qt(c(.025, .975), 18) > prediction = B0 + B1*1 > SE_predict = sqrt(MSE)*sqrt(1+1/20+(mean(hydro)-1)^2/sum((hydro - mean(hydro))^2)) > prediction …

3
関係が線形か非線形かを確認する統計的検定
次のようなデータセットの例があります。 Volume <- seq(1,20,0.1) var1 <- 100 x2 <- 1000000 x3 <- 30 x4 = sqrt(x2/pi) H = x3 - Volume r = (x4*H)/(H + Volume) Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r)) Power <- jitter(Power, factor = 1, amount = 0.1) plot(Volume,Power) この図から、ある範囲の「ボリューム」と「パワー」の間の関係は線形であり、「ボリューム」が比較的小さくなると、関係は非線形になることが示唆されます。これを説明するための統計的検定はありますか? OPへの応答に示されているいくつかの推奨事項に関して: ここに示されている例は単なる例であり、私が持っているデータセットは、ここで見られる関係に似ていますが、騒々しいです。これまでに行った分析では、特定の液体の体積を分析すると、体積が小さいと信号のパワーが大幅に増加することを示しています。つまり、ボリュームが15から20の間の環境しかなかったとしましょう。それは、ほぼ線形の関係のように見えます。ただし、ポイントの範囲を増やす、つまりボリュームを小さくすると、関係がまったく線形にならないことがわかります。これを統計的に示す方法に関する統計的なアドバイスを探しています。これが理にかなっているといいのですが。

1
SMOTEはマルチクラスの不均衡問題に対してエラーをスローします
SMOTEを使用して、マルチクラス分類問題の不均衡を修正しようとしています。SMOTEは、SMOTEヘルプドキュメントのとおり、irisデータセットに対しては完全に機能しますが、同様のデータセットに対しては機能しません。これが私のデータの見え方です。値が1、2、3の3つのクラスがあることに注意してください。 > data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 1 7 0 0 0 1 8 0 0 0 1 9 0 1 …

1
R /キャレット:トレーニングおよびテストセットと交差検証?
これはおそらくばかげた質問かもしれませんが、キャレットを使用してモデルを生成し、LOOCVまたは(さらにLGOCV言えば)何かを使用する場合、これが本質的にクロス検証ステップである場合、データをトレーニングセットとテストセットに分割する利点は何ですか?とにかく? 私はいくつかの関連する質問を読みました、そして彼らはいくつかの交差検定方法(例えば、キャレットサイトでここで説明されているもの)が特徴選択の目的のためであると提案しました。しかし、私の場合、randomForest(method = "rf")とkernlab(method = svmRadial)を使用しています。これらは、予測子をパージしようとするグループにリストされていません。 したがって、私の質問は、のようなものを使用する場合cross_val <- trainControl(method = "LGOCV", p = 0.8)、私のデータの80%でトレーニングし、残りの20%で結果のモデルをテストし、それを何度も繰り返して、モデルは機能していますか? もしそうなら、私のデータをトレーニング/テストセットに分割する必要がありますか? PS私は、経験的に生成されたDOEプロトタイプでモデルを実行しているときに一部質問します(入力を微調整し、テストメソッドを使用してプロトタイプに関するさまざまな属性を測定するハードグッズを考えてください)。 そのため、モデル化する予測子レベルが重複している膨大なデータセットはありません。この場合、データ生成には費用がかかるため、関心のある各DOEポイントで1つの試行を実行することがよくあります。したがって、できる限り正確なモデルに使用できるデータを使用したいのですが、何かを明確に見逃していないこと、および分割しないことで質の悪いモデルを作成していないことをここで確認したいと思います。 編集: @topepoの質問に答えて、私は式の化学入力の調整に基づいて、化合物の物理的に測定された属性をモデリングしています。実際のアプリケーションについては説明できませんが、インテリアラテックスペイントの配合に基づいた例を作成します。私は、4〜5種類の化学物質をブレンドし、固形分(%)で遊んで、ポリマー溶液を加熱して重合度を調整する時間を計画した実験を行っています。 次に、レオロジー、分子量、塗料コーティングの硬度、耐水性などを測定します。 いくつかの変数のまともな複製がありますが、すべてのDOEレベルがまったく同じであるという意味で、真の複製はほとんどありません。合計データセットは〜80の観測値であり、おそらく4〜5は正確な繰り返しです。私たちは15の異なるテストを実施しましたが、おそらく5〜6回のテストがすべての観察で行われています。一部の応答は、データの25-50%に存在します。 ここから、7つの予測子が出力プロパティに与える影響をモデル化し、目的のプロパティを与える可能性が最も高い新しい設計空間をターゲットとするように最適化します。 (ここに私の質問があります。トレーニング済みのモデルができたら、「リバース」を実行し、必要な応答を入力して、可能な入力レベルでの最適な推測を得て、次に試すことをお勧めします)。

2
AIC、anovaエラー:モデルがすべて同じ数の観測値に適合していない、モデルがすべて同じサイズのデータ​​セットに適合していない
私はこのようなモデルを持っています: require(nlme) set.seed(123) n <- 100 k <- 5 cat <- as.factor(rep(1:k, n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, each = k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) m1 <- lm(y ~ x) …
9 r  mixed-model  aic 

2
メタ分析でサブスコアを最適に処理するにはどうすればよいですか?
metaforパッケージを使用して、Rの効果サイズdのメタ分析を行っています。dは、患者と健常者の間の記憶スコアの違いを表します。ただし、一部の研究では、関心のある測定のサブスコアd(たとえば、いくつかの異なるメモリスコアまたはメモリテストの3つの個別のブロックからのスコア)のみを報告しています。以下のダミーデータセットを参照してください。dは、研究の効果サイズと標準偏差sdを表しています。 d <- round(rnorm(5,5,1),2) sd <- round(rnorm(5,1,0.1),2) study <- c(1,2,3,3,3) subscore <- c(1,1,1,2,3) my_data <- as.data.frame(cbind(study, subscore, d, sd)) library(metafor) m1 <- rma(d,sd, data=my_data) summary(m1) これらのサブスコアを処理する最良の方法について、あなたの意見を伺いたいと思います-例: 複数のスコアを報告する各調査から1つのサブスコアを選択します。 すべてのサブスコアを含める(1つの研究のサブスコアが同じサンプルに由来するため、これはrfxモデルの独立性の仮定に違反します) サブスコアを報告する各スタディについて:平均スコアと平均標準偏差を計算し、この「マージされた効果サイズ」をrfxメタ分析に含めます。 すべてのサブスコアを含め、特定のスコアがどのスタディから派生したかを示すダミー変数を追加します。

1
カイ2乗検定のp値のモンテカルロシミュレーションを適用するためのルール
chisq.test()R の関数でのモンテカルロシミュレーションの使用について理解したいと思います。 128レベル/クラスの質的変数があります。私のサンプルサイズは26です(これ以上「個人」をサンプリングできませんでした)。したがって、明らかに、「個人」が0のレベルがいくつかあります。しかし、実際には、127のクラスのうち、非常に少数のクラスしか表現されていません。カイ二乗検定を適用するには、各レベルに少なくとも5人の個人がいる必要があると聞いたので(その理由は完全にはわかりません)、simulate.p.valueモンテカルロシミュレーションを使用して分布を推定するオプションを使用する必要があると思いましたそしてp値を計算します。モンテカルロシミュレーションなしでは、Rはp値を与えます< 1e-16。モンテカルロシミュレーションでは、でのp値が得られ4e-5ます。 26の1と101の0のベクトルでp値を計算しようとしましたが、モンテカルロシミュレーションでは、1のp値が得られました。 可能なクラスの数と比較してサンプルサイズが小さい場合でも、観測された分布は、すべての可能なクラスが実際の母集団で同じ確率(1/127)で存在する可能性が非常に低いということを示してもよいですか? ?

1
フーリエ/三角補間
バックグラウンド Epstein(1991)の論文では、毎月の平均値から毎日の気候値を取得する際に、定周期および等間隔の値のフーリエ補間を計算するための公式とアルゴリズムが示されています。 この論文では、補間によって月次平均から日次値を取得することが目標です。 要するに、未知の毎日の値は調和成分の合計で表すことができると仮定されます: 紙で Tヶ月で表される(時間)。y(t )= a0+ ∑j[ ajcos(2 πj t / 12 )+ bj罪(2 πj t / 12 )]y(t)=a0+Σj[ajcos⁡(2πjt/12)+bj罪⁡(2πjt/12)] y(t) = a_{0} + \sum_{j}\left[a_{j}\,\cos(2\pi jt/12)+b_{j}\,\sin(2\pi jt/12)\right] ttt 多少の偏差の後、項は次のように計算できることが示されます: ここで、YTは月の平均、Tは月の平均を示します。a0ajbja6b6= ∑TYT/ 12= [ (πj / 12 )/罪(πj / 12 )] × ∑T[ YTcos(2 πj T/ 12) / 6]j=1、…、5 = …

1
一部の入力に欠損値がある場合のrandomForest(R)による予測(NA)
randomForest新しいケースのクラスを予測するアプリケーションで使用したい細かい分類モデルがあります。新しいケースには必然的に欠損値があります。NAの場合、Predictはそのようには機能しません。それでは、どうすればよいですか。 data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # print(iris.rf) myrf.pred <- predict(iris.rf, case.na[-5], type="response") myrf.pred [1] <NA> 試しましたmissForest。元のデータと新しいケースを組み合わせ、それをmissForestでシェイクし、新しいケースでNAの帰属値を得ました。しかし、あまりにも重いコンピューティング。 data.imp <- missForest(data.with.na) しかし、rf-modelを使用して、欠損値のある新しいケースを予測する方法があるはずですよね?

2
既知のブレークポイントを持つ区分的線形回帰における勾配の標準誤差
状況 1つの従属と1つの独立変数データセットがあります。発生する既知の/固定されたブレークポイントを使用して、連続的な区分線形回帰を近似したいと思います。ブレイクポインは不確実性なく知られているので、推定したくありません。次に、の形式の回帰(OLS)を これはX K (1、2、... 、K)Y I = β 0 + β 1 X I + β 2マックス(X I - 1、0 )+ β 3マックス(X I - 2、0 )+ ... + β K + 1つのマックス(Xyyyxxxkkk(a1,a2,…,ak)(a1,a2,…,ak)(a_{1}, a_{2}, \ldots, a_{k})yi=β0+β1xi+β2max(xi−a1,0)+β3max(xi−a2,0)+…+βk+1max(xi−ak,0)+ϵiyi=β0+β1xi+β2max⁡(xi−a1,0)+β3max⁡(xi−a2,0)+…+βk+1max⁡(xi−ak,0)+ϵi y_{i} = \beta_{0} + \beta_{1}x_{i} + \beta_{2}\operatorname{max}(x_{i}-a_{1},0) + \beta_{3}\operatorname{max}(x_{i}-a_{2},0) +\ldots+ \beta_{k+1}\operatorname{max}(x_{i}-a_{k},0) +\epsilon_{i} R …

2
これまでのすべての努力を無視してきたこの非線形重回帰を当てはめる
編集:この投稿を作成して以来、私はここに追加の投稿を続けています。 以下のテキストの要約:私はモデルに取り組んでいて、線形回帰、ボックスコックス変換、およびGAMを試しましたが、あまり進歩していません を使用してR、現在、メジャーリーグ(MLB)レベルでマイナーリーグの野球選手の成功を予測するモデルに取り組んでいます。従属変数は、交換(oWAR)上記の攻撃のキャリアの勝利は、MLBレベルでの成功のためのプロキシで、プレイヤーは彼のキャリア(ここでは詳細にわたってに関与しているすべてのプレイに攻勢寄与の合計として測定される- のhttp ://www.fangraphs.com/library/misc/war/)。独立変数は、年齢を含むメジャーリーグレベルでの成功の重要な予測因子であると考えられる統計のzスコアのマイナーリーグ攻撃変数であり(年齢が若いプレーヤーほど成功率が高い傾向にあります)、取り消し率[SOPct ]、歩行率[BBrate]および調整された生産(攻撃的な生産のグローバルな尺度)。さらに、マイナーリーグには複数のレベルがあるため、マイナーリーグのプレーのレベル(ダブルA、ハイA、ローA、ルーキー、トリプルAのショートシーズン[メジャーリーグの前の最高レベル])のダミー変数を含めました。参照変数として])。注:WARを0から1に変化する変数に再スケーリングしました。 変数scatterplotは次のとおりです。 参考までに、従属変数oWARには次のプロットがあります。 線形回帰から始めてoWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason、次の診断プロットを取得しました。 残差の不偏性の欠如とランダムな変動の欠如には明らかな問題があります。さらに、残差は正常ではありません。回帰の結果を以下に示します。 前のスレッドのアドバイスに従って、Box-Cox変換を試みましたが、成功しませんでした。次に、ログリンクを使用してGAMを試し、これらのプロットを受け取りました。 元の 新しい診断プロット スプラインがデータの近似に役立ったように見えますが、診断プロットはまだ不十分な近似を示しています。編集:私は当初、残差対適合値を見ていると思いましたが、私は間違っていました。最初に表示されたプロットはオリジナル(上記)としてマークされ、後でアップロードしたプロットは新しい診断プロット(上記も)としてマークされます。 モデルのが増加しましたR2R2R^2 しかし、コマンドによって生成された結果gam.check(myregression, k.rep = 1000)はそれほど有望ではありません。 誰もがこのモデルの次のステップを提案できますか?これまでの進捗状況を理解するのに役立つと思われるその他の情報を提供させていただきます。あなたが提供できる助けをありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.