タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
LASSOが高次元で完全な予測子ペアを見つけられないのはなぜですか?
RでLASSO回帰を使用した小規模な実験を実行して、完全な予測子ペアを見つけることができるかどうかをテストしています。ペアは次のように定義されます:f1 + f2 =結果 ここでの結果は、「年齢」と呼ばれる所定のベクトルです。F1とf2は、年齢ベクトルの半分を取得し、残りの値を0に設定することによって作成されます。たとえば、次のとおりです。age = [1,2,3,4,5,6]、f1 = [1,2,3、 0,0,0]およびf2 = [0,0,0,4,5,6]。正規分布N(1,1)からサンプリングすることにより、この予測子のペアとランダムに作成される変数の量を増やします。 私が見るのは、2 ^ 16個の変数をヒットしたとき、LASSOがもうペアを見つけられないことです。以下の結果を参照してください。 なぜこうなった?以下のスクリプトで結果を再現できます。たとえば、[1:193]という異なる年齢のベクトルを選択すると、LASSOは高次元(> 2 ^ 16)でペアを見つけます。 スクリプト: ## Setup ## library(glmnet) library(doParallel) library(caret) mae <- function(errors){MAE <- mean(abs(errors));return(MAE)} seed = 1 n_start <- 2 #start at 2^n features n_end <- 16 #finish with 2^n features cl <- …

1
限界効果の標準誤差にデルタ法を使用する方法は?
相互作用項を含む回帰モデルの平均限界効果の標準誤差を近似するためのデルタ法をよりよく理解することに興味があります。デルタ方式で関連する質問を見ましたが、探しているものをまったく提供していません。 動機付けの例として、次のサンプルデータを検討してください。 set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) との平均限界効果(AME)に興味がx1ありx2ます。これらを計算するには、単に次のことを行います。 cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of x2 given x1 mean(me_x1) …

1
Rの線形回帰で平均二乗誤差の値を取得する方法
R関数lmによって得られた線形回帰モデルに、平均二乗誤差コマンドによって得られるかどうかを知りたいとします。 例の次の出力がありました > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 0.0902 -13.19 <2e-16 *** --- …
20 r  regression  error 

3
ある値に対するモデル係数(回帰勾配)のテスト
Iは、(一般)線形モデルを有する場合、Rは、( 、lm、、glm 、...)、どのように0以外の値に対して係数(回帰勾配)をテストすることができますか?モデルの要約では、係数のt検定結果が自動的に報告されますが、これは0との比較のみです。別の値と比較したいと思います。glsglmm ここでテストされた値であるreparametrizing y ~ xasを使用してトリックを使用し、この再パラメーター化されたモデルを実行できることを知っていますが、元のモデルで動作する可能性のある単純なソリューションを探します。y - T*x ~ xT
20 r  regression  t-test 

4
教師なしクラスタリングのための決定木のようなアルゴリズムはありますか?
A、B、C、D、Eの5つの機能で構成されるデータセットがあります。これらはすべて数値です。密度ベースのクラスタリングを実行する代わりに、意思決定ツリーのような方法でデータをクラスター化します。 私が意味するアプローチは次のようなものです: アルゴリズムは、特徴Cに基づいてデータをX個の初期クラスターに分割します。つまり、Xクラスターは、小さいC、中程度のC、大きいC、非常に大きいCの値などを持ちます。フィーチャAに基づいてデータをYクラスターに格納します。アルゴリズムは、すべてのフィーチャが使用されるまで続行されます。 上で説明したアルゴリズムは、決定木アルゴリズムのようなものです。ただし、教師あり分類ではなく、教師なしクラスタリングに必要です。 私の質問は次のとおりです。 そのようなアルゴリズムはすでに存在しますか?そのようなアルゴリズムの正しい名前は何ですか この種のアルゴリズムを実装したR / pythonパッケージ/ライブラリはありますか?

1
相互作用を含めることができる2因子ANOVAのノンパラメトリックな同等物は何ですか?
こんにちは、相互作用を含めることができる双方向ANOVA(3x4設計)のノンパラメトリックな同等物を見つけようとしています。Zar 1984「生物統計学的分析」の私の読書から、これはシャイラー、レイ、およびヘア(1976)で述べられた方法を使用して可能ですが、オンラインの他の投稿によると、この方法はもはや適切ではないと推測されましただった)。 誰がそれを行うのに適切な方法を知っていますか?もしそうなら、RまたはStataの対応する機能は?

4
ANOVAとKruskal-Wallis検定の違い
私はRを学んでおり、分散分析を実験しています。私は両方を実行しています kruskal.test(depVar ~ indepVar, data=df) そして anova(lm(depVar ~ indepVar, data=dF)) これら2つのテストの間に実際的な違いはありますか?私の理解では、どちらも母集団が同じ平均を持っているという帰無仮説を評価するということです。

2
手動で実装されたEMアルゴリズム
私は手動でEMアルゴリズムを実装してからの結果と比較したいnormalmixEMのmixtoolsパッケージ。もちろん、両方が同じ結果につながる場合、私は幸せです。主な参考文献は、Geoffrey McLachlan(2000)、Finite Mixture Modelsです。 2つのガウス分布の混合密度があり、一般的な形式では、対数尤度は(McLachlanページ48)で与えられます。 ログLc(Ψ )= ∑i = 1g∑j = 1nz私はj{ ログπ私+ ログf私(y私; θ私)} 。log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. である観察からあった場合は、番目のそうでなければ、コンポーネント密度。正規分布の密度です。ので、混合物の割合である観察最初ガウス分布からのものであることは、確率であり、観察第ガウス分布からのものであることを、確率です。z私はjzijz_{ij}111私ii0000f私fif_iππ\piπ1π1\pi_1π2π2\pi_2 Eのステップは、今条件付き期待値の計算です。 Q (Ψ ; Ψ(0 ))= EΨ (0 ){ ログLc(| Ψ )| y} 。Q(Ψ;Ψ(0))=EΨ(0){log⁡Lc(|Ψ)|y}. Q(\Psi;\Psi^{(0)}) = E_{\Psi(0)}\{\log L_c(|\Psi)|y\}. 結果(49ページ)へのいくつかの派生の後、リードします: τ私(yj; Ψ(k ))= π(k …

3
Rのrollapply PCAで「ジャンピー」ロードが発生しています。修正できますか?
28種類の通貨の10年間の毎日の返品データがあります。最初の主成分を抽出したいのですが、10年全体でPCAを運用するのではなく、通貨の振る舞いが進化するため、2年の期間をロール適用したいと思います。しかし、大きな問題があります。つまり、princomp()関数とprcomp()関数の両方が、隣接するPCA分析で正の負荷から負の負荷にジャンプすることが多いということです(1日間隔)。EUR通貨のローディングチャートをご覧ください: 明らかに、隣接する負荷が正から負にジャンプするため、これを使用することはできません。したがって、それらを使用するシリーズはエラーになります。次に、EUR通貨ローディングの絶対値を見てみましょう。 もちろん、トップチャートから負荷が負から正に、そして時々戻ることがわかるため、これを使用できないという問題があります。これは、保持する必要がある特性です。 この問題を回避する方法はありますか?隣接するPCAで固有ベクトルの向きを常に同じにすることができますか? ところで、この問題はFactoMineR PCA()関数でも発生します。rollapplyのコードは次のとおりです。 rollapply(retmat, windowl, function(x) summary(princomp(x))$loadings[, 1], by.column = FALSE, align = "right") -> princomproll
20 r  pca 

1
ロジスティック回帰の予測間隔の計算
ロジスティック回帰推定の予測間隔を生成する方法を理解したいと思います。 コレットのモデリングバイナリデータのモデリング、第2版p.98-99 の手順に従うことをお勧めしました。この手順を実装してRと比較した後predict.glm、この本は予測区間ではなく信頼区間を計算する手順を示していると思います。 Collettからの手順の実装を、と比較してpredict.glm以下に示します。 知りたいのですが、ここから信頼区間ではなく予測区間を作成する方法を教えてください。 #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df representing …

2
キャレットの再サンプリング方法
caretR のライブラリを使用して、さまざまなモデリング手順をテストしています。 trainControlオブジェクトは、1つの再サンプリング方法を指定することを可能にします。方法は、に記載されている文書のセクション2.3を含む:boot、boot632、cv、LOOCV、LGOCV、repeatedcvおよびoob。これらのいくつかは推測が容易ですが、これらの方法のすべてが明確に定義されているわけではありません。 これらのリサンプリング方法に対応する手順は何ですか?
20 r  resampling  caret 

3
機械学習モデルの組み合わせ
私は、データマイニング/機械学習/などの初心者です。複数のモデルと同じモデルの実行を組み合わせて予測を改善するいくつかの方法について読んでいます。 いくつかの論文(理論やギリシャ文字では面白くて素晴らしいが、コードや実際の例は短い)を読んだときの印象は、次のようになるはずだということです。 モデル(knn、RFなど)を取得し、0〜1の分類子のリストを取得します。私の質問は、これらの分類子の各リストをどのように組み合わせるかです。最終モデルに入る列の数が同じになるようにトレーニングセットで同じモデルを実行しますか、それとも他のトリックがありますか? 提案/例にRコードが含まれていれば素晴らしいと思います。 注:これは、トレーニングセットに100k行、テストセットに70k行、10列のデータセット用です。

2
混合効果モデルの比較が可能(主にランダム効果)
私はRのlme4パッケージを使用して混合効果のモデリングを検討しています。主にlmerコマンドを使用しているので、その構文を使用するコードを通じて質問を投げかけます。一般的な簡単な質問があると思いますが、lmer同一のデータセットに基づく尤度比を使用して構築された2つのモデルを比較しても大丈夫ですか?その答えは「ノー」でなければならないと思いますが、間違っている可能性があります。ランダム効果を同じにする必要があるかどうかに関する矛盾する情報を読みましたが、ランダム効果のどのコンポーネントがそれを意味していますか?そのため、いくつかの例を紹介します。単語刺激を使用して繰り返し測定データからそれらを取得します。おそらく、Baayen(2008)のようなものが解釈に役立ちます。 2つの固定効果予測子があるモデルがあるとします。これらのモデルをAとB、およびいくつかのランダム効果と呼びます。単語とそれらを知覚する主題。次のようなモデルを作成できます。 m <- lmer( y ~ A + B + (1|words) + (1|subjects) ) (私は意図的に除外していることに注意してください、私はdata =常にREML = FALSE明確にするために私がいつも意味すると仮定します) さて、次のモデルのうち、上記の尤度比と比較しても問題ないモデルとそうでないモデルはどれですか? m1 <- lmer( y ~ A + B + (A+B|words) + (1|subjects) ) m2 <- lmer( y ~ A + B + (1|subjects) ) m3 <- lmer( y ~ A …

3
スペクトル密度のピークの有意性のテスト
スペクトル密度プロットを使用して、時系列の周期性を分析することがあります。通常、視覚的な検査によってプロットを分析し、周期性について結論を出そうとします。しかし、統計学者は、プロットのスパイクが統計的にホワイトノイズと異なるかどうかを確認するためのテストを開発しましたか?Rエキスパートは、スペクトル密度分析およびそのようなテストを行うためのパッケージを開発しましたか?誰かが助けることができれば素晴らしい。 よろしく、 P。

3
Rで多項ロジットモデルを設定および推定する方法
JMPで多項ロジットモデルを実行し、各パラメーター推定値のAICとカイ2乗p値を含む結果を取得しました。このモデルには、1つのカテゴリー結果と7つのカテゴリー説明変数があります。 次にmultinom、nnetパッケージの関数を使用して、Rで同じモデルを構築すると考えていたものに適合させました。 コードは基本的に: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); ただし、2つの結果は異なります。JMPでは、AICは2923.21、nnet::multinomAICでは3116.588です。 私の最初の質問は、モデルの1つが間違っているということです。 2つ目は、JMPが各パラメーター推定値のカイ2乗p値を提供することです。マルチノムでサマリーを実行fit1しても、推定値、AIC、および逸脱は表示されません。 私の2番目の質問はこうです:モデルのp値を取得し、使用するときに推定する方法はありnnet::multinomますか? 私が知っているmlogitは、このための別のRパッケージであり、その出力はp値が含まれてように見えます。ただし、mlogitデータを使用して実行することはできません。データは正しくフォーマットされていたと思いますが、無効な数式があったと言われました。私が使用したものと同じ式を使用しましたmultinomが、パイプを使用した別の形式が必要なようで、その仕組みがわかりません。 ありがとう。
20 r  logistic  multinomial  logit  jmp 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.