タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。


2
合計最小二乗回帰でR-2乗を計算することは可能ですか?
このアーカイブされたr-helpスレッドで Terry T.が提供するDeming関数を使用しています。2つの方法を比較しているので、次のようなデータがあります。 y x stdy stdx 1 1.2 0.23 0.67 2 1.8 0.05 0.89 4 7.5 1.13 0.44 ... ... ... ... デミング回帰(「総最小二乗回帰」とも呼ばれます)を実行し、勾配と切片を取得しました。相関係数を取得したいので、計算を開始します。数式を手動で入力しました:R2R2R^2 R2 <- function(coef,i,x,y,sdty){ predy <- (coef*x)+i stdyl <- sum((y-predy)^2) ### The calculated std like if it was a lm (SSres) Reelstdy <- sum(stdy) ### the real …

2
ロジスティック回帰係数からオッズ比を使用してリスク比を計算する
バイナリ固定因子予測子が1つだけのバイナリロジスティック回帰があります。私がカイ二乗法またはフィッシャーの正確確率検定としてそれを行わない理由は、ランダムな要因もいくつかあるためです(個人ごとに複数のデータポイントがあり、個人はグループに属していますが、係数や有意性は気にしません)これらの確率変数の場合)。R glmerでこれを行います。 予測因子の係数と関連する信頼区間をオッズ比ではなくリスク比として表現できるようにしたいと思います。これは(おそらくあなたではなく私の聴衆にとって)リスク比がはるかに理解しやすいためです。ここでのリスク比は、予測子が0ではなく1の場合に、結果が0ではなく1になる確率の相対的な増加です。 オッズ比は、exp()を使用して係数と関連するCIから取得するのは簡単です。オッズ比をリスク比に変換するには、「RR = OR /(1 – p +(px OR))を使用できます。ここで、pはコントロールグループのリスクです」(出典:http://www.r- bloggers.com/how-to-convert-odds-ratios-to-relative-risks/)。しかし、コントロールグループのリスクが必要です。これは、私の場合、予測子が0の場合に結果が1になる可能性を意味します。モデルの切片係数は、実際にはこのチャンスのオッズであると考えているので、これを取得するには、prob = odds /(odds + 1)を使用します。リスク比率の中心的な見積もりが行く限り、私はこれについてはかなり遠いところにいます。ただし、切片係数にも独自のCIが関連付けられているため、心配なのは関連する信頼区間です。切片の中央推定値を使用する必要がありますか、それとも保守的であるために、切片CIの制限を使用して相対リスクCIを最も広くする必要がありますか?それとも私は間違った木を完全に吠えていますか?

1
2つ以上のRStudioセッションを同時に実行しても安全ですか?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前休業。 私はいくつかのニューラルネットワークのベンチマークに取り組んでおり、完了するまでにかなりの時間がかかります。そのため、複数のRStudioセッションを使用してそれらを同時に実行しています。これは安全ですか?つまり、ニューラルネットワークのパラメーターをわずかに変更して同じスクリプトを実行したため、変数の観点からは安全です。変数はこれらのセッションの影響を受けていますか?それらは重なりますか? たとえば、カウンター変数がある場合、両方のセッションから増加しますか?

1
Epanechnikovカーネルによるnpパッケージカーネル密度推定
私はMASSパッケージの「間欠泉」データセットを使用して、npパッケージのカーネル密度推定値を比較しています。 私の問題は、最小二乗交差検証とEpanechnikovカーネルを使用して密度推定を理解することです。 blep<-npudensbw(~geyser$waiting,bwmethod="cv.ls",ckertype="epanechnikov") plot(npudens(bws=blep)) ガウスカーネルの場合は問題ないようです。 blga<-npudensbw(~geyser$waiting,bwmethod="cv.ls",ckertype="gaussian") plot(npudens(bws=blga)) または、Epanechnikovカーネルと最尤CVを使用する場合: bmax<-npudensbw(~geyser$waiting,bwmethod="cv.ml",ckertype="epanechnikov") plot(npudens(~geyser$waiting,bws=bmax)) それは私のせいですか、それともパッケージの問題ですか? 編集:Epanechnikovカーネルと最小二乗cvにMathematicaを使用すると、動作します: d = SmoothKernelDistribution[data, bw = "LeastSquaresCrossValidation", ker = "Epanechnikov"] Plot[{PDF[d, x], {x, 20,110}]


1
ランダムフォレストモデルの欠落しているカテゴリカル予測子変数を推定する方法は?
ランダムフォレストを構築するために使用しているx、yデータのセットがあります。xデータは、いくつかのNAを含む値のベクトルです。そのためrfImpute、欠けているデータを処理してランダムフォレストを作成するために使用します。今、私は新しい目に見えない観測x(NAあり)を持っており、yを予測したいと思います。すでに成長したランダムフォレストを使用できるように、欠損値をどのように代入するのですか?rfImputeこの関数は、xとyを必要としているようです。予測のためにxしかありません。 私の質問はこの質問に似ています(ただし異なります)。たとえば、同じ虹彩データセットを使用できます。私が参照する質問の回答のコードを正しく解釈した場合iris.na[148, , drop=FALSE]、ステートメントのコードiris.na2 = rbind(iris.imputed, iris.na[148, , drop=FALSE])はSpecies(Y値)を含む新しいデータを表します。私の問題では、私は知らないでしょう— Speciesランダムフォレストを使用してそれを予測したいと思います。4つの独立変数がありますが、一部はNA特定の行のものである可能性があります。類推を続けるために、私が4つの変数のうち3つを持っていると想像してください(1つは欠落しています)。私はその価値を主張したいと思います。それから私は知らない種を予測したいと思います。 私がイラストを追加すべきだというガンのコメントに応えて、虹彩データセットの観点から説明させてください。花に関する次のデータがあるとします。私はそれが、、であることを知っていますがSepal.Length、Sepal.WidthでPetal.LengthはありませんPetal.Width。を代入してPetal.Widthから、RFモデル内でこれらの4つの値を使用してを予測したいと思いますSpecies。

1
Arimax予測:予測パッケージの使用
パッケージのarimax関数は、TSA私の知る限りR、介入モデルの伝達​​関数に適合する唯一のパッケージです。予測機能はありませんが、必要な場合があります。 優れたforecastパッケージを活用して、この問題の次の回避策はありますか?予測間隔は正しいですか?私の例では、コンポーネントのstdエラーは「近い」ものです。 予測パッケージのアリマ関数を使用して、介入前のノイズシリーズを決定し、外れ値の調整を追加します。 同じモデルをフィットarimaxさせますが、伝達関数を追加します 伝達関数のarimax近似値(からの係数)を取得し、それらをxreg inとして追加しますarima。 と予測 arima library(TSA) library(forecast) data(airmiles) air.m1<-arimax(log(airmiles),order=c(0,0,1), xtransf=data.frame(I911=1*(seq(airmiles)==69)), transfer=list(c(1,0)) ) air.m1 出力: Coefficients: ma1 intercept I911-AR1 I911-MA0 0.5197 17.5172 0.5521 -0.4937 s.e. 0.0798 0.0165 0.2273 0.1103 sigma^2 estimated as 0.01223: log likelihood=88.33 AIC=-168.65 AICc=-168.09 BIC=-155.02 これはフィルターであり、データより5期間延長されています tf<-filter(1*(seq(1:(length(airmiles)+5))==69),filter=0.5521330,method='recursive',side=1)*(-0.4936508) forecast.arima<-Arima(log(airmiles),order=c(0,0,1),xreg=tf[1:(length(tf)-5)]) forecast.arima 出力: Coefficients: ma1 intercept tf[1:(length(tf) - …

2
R1の最適化にL1ペナルティを追加すると、(ペナルティやL2がない場合と比較して)速度が大幅に低下するのはなぜですか?
私はBFGSのoptimの実装でいくつかの最適化を実行しています。目的関数は実際には単なる計算ではなく計算アルゴリズムです。L1ペナルティを追加すると、状況がかなり遅くなります。これはなぜでしょうか?物事を遅くするL1について何かありますか?glmnetでは、LASSOの実装はどのように高速なのでしょうか。 Googleのクイック検索により、「最適な目標と問題のパラメーターのL1ノルムを検出する」「lbfgs」というパッケージ呼び出しが見つかりました。「これらの最適化ルーチンの高速でメモリ効率の高い実装は、特に高次元の問題。」このような解決策を探すべきですか?
8 r  optimization  lasso 

1
CART:不純物減少の増加が等しい場合の分割に最適な予測子の選択?
私の質問は分類木を扱っています。Irisデータセットの次の例を考えてみます。 最初の分割に最適な予測子を手動で選択したい。CARTアルゴリズムによると、分割を行うための最良の機能は、パーティションの不純性の減少を最大化する機能であり、ジニゲインとも呼ばれます。 G i n i G a i n (N、X)= G i n i (N)− | N1|| N|G i n i (N1)− | N2|| N|G i n i (N1)G私ん私Ga私ん(N、バツ)=G私ん私(N)−|N1||N|G私ん私(N1)−|N2||N|G私ん私(N1)GiniGain(N,X)=Gini(N)-\frac{\lvert N_{1} \rvert }{\lvert N \rvert }Gini(N_{1})-\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{1}) ここで、与えられた機能であり、分割がなされるべきでノードであり、と分割することによって作成された2つのつの子ノードである。は、ノードの要素数です。バツバツXNNNN1N1N_{1}N2N2N_{2}NNN| 。||。|\lvert . \rvert そして、。ここで、はノード内のカテゴリの数です KG i n …

2
誰かがglmnetのfoldid引数が何をするか説明できますか?
関数で使用するアルファを決定しようとしglmnetていますが、ヘルプファイルに次のように記載されています。 cv.glmnetはアルファの値を検索しないことに注意してください。特定の値を指定する必要があります。指定しない場合、デフォルトでalpha = 1と見なされます。ユーザーがアルファも交差検証したい場合は、事前に計算されたベクトルfoldidを使用してcv.glmnetを呼び出し、次にこの同じフォールドベクトルを異なるアルファ値のcv.glmnetへの呼び出しで使用する必要があります。 しかし、私は理解していません: foldid vector / argumentとは何ですか。 foldidベクトルの作成方法 foldid引数の使用方法。 これでどんな援助でも大歓迎です!

1
複数のARIMAモデルはデータによく適合します。順序を決定する方法は?正しいアプローチ?
2つの時系列(男性と女性のモデルのパラメーター)があり、予測を行うために適切なARIMAモデルを特定することを目指しています。私の時系列は次のようになります。 プロットとACFは非定常を示しています(ACFのスパイクは非常にゆっくりとカットオフします)。したがって、私は差分を使用して取得します: このプロットは、系列が静止している可能性があり、kpssテストとadfテストの適用がこの仮説をサポートしていることを示しています。 男性シリーズから始めて、以下の観察を行います。 ラグ1、4、5、26および27での経験的自己相関は、ゼロとは有意に異なります。 ACFはカットオフ(?)しますが、ラグ26と27での比較的大きなスパイクが心配です。 ラグ1と2での経験的部分自己相関のみが、ゼロと有意に異なります。 これらの観察のみに基づいて、差分時系列に純粋なARモデルまたはMAモデルを選択する必要がある場合、次のように主張してAR(2)モデルを選択する傾向があります。 ラグが2より大きい場合、部分的な自己相関はありません。 ACFは、27ラグ付近の領域を除いてカットオフします(これらの少数の外れ値だけが指標であり、混合ARMAモデルが適切であることを示しますか?) または以下のように主張することによりMA(1)モデル: PACFは明らかにカットオフ ラグには、マグニチュードの臨界値を超える1〜4のスパイクがあります。これは、点線領域の外にあることが許可されている3つのスパイク(60のうち95%)より1つ多い「唯一の」ものです。 ARIMA(1,1,1)モデルの特性はなく、p + q> 2のACFおよびPACFに基づいてARIMAモデルのpおよびqの次数を選択することは困難になります。 auto.arima()をAIC基準で使用すると(AICまたはAICCを使用する必要がありますか)、次の結果が得られます。 ドリフトのあるARIMA(2,1,1)。AIC = 280.2783 ドリフト付きARIMA(0,1,1)。AIC = 280.2784 ドリフト付きARIMA(2,1,0)。AIC = 281.437 検討した3つのモデルすべてがホワイトノイズの残差を示しています。 要約した質問は次のとおりです。 時系列のACFは、26ラグ前後の急上昇にもかかわらず、まだ切断されていると説明できますか? これらの外れ値は、混合ARMAモデルがより適切である可能性があることを示す指標ですか? どの情報基準を選択すればよいですか?AIC?AICC? AICが最も高い3つのモデルの残差はすべてホワイトノイズ動作を示しますが、AICの差はごくわずかです。パラメータが最も少ないもの、つまりARIMA(0,1,1)を使用する必要がありますか? 私の議論は一般的にもっともらしいですか? どちらのモデルが優れているかを判断する可能性はありますか?たとえば、AICが最も高い2つのモデルでバックテストを実行して予測の妥当性をテストする必要がありますか? 編集:ここに私のデータがあります: -5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370 0.5826312749 0.3869227286 …

1
クラスカル・ウォリスのポストホックの警告メッセージ「関係が存在します」を理解する
Kruskal-Wallis検定の後で事後比較を実行しています。PMCMRパッケージを使用しています。 > posthoc.kruskal.nemenyi.test( preference ~ instrument) Pairwise comparisons using Tukey and Kramer (Nemenyi) test with Tukey-Dist approximation for independent samples data: preference by instrument Cello Drums Guitar Drums 0.157 - - Guitar 0.400 0.953 - Harp 0.013 0.783 0.458 P value adjustment method: none Warning message: In posthoc.kruskal.nemenyi.test.default(c(50L, 50L, 50L, …
8 r  ties 

3
分布から平均、中央値、モード、標準偏差を計算する方法
分布から平均、分散、中央値、標準偏差、およびモードを計算する方法は?正規分布を形成する数値をランダムに生成する場合、m=24.2標準偏差として平均を次のように指定しましたsd=2.2: > dist = rnorm(n=1000, m=24.2, sd=2.2) その後、私は以下を行うことができます: 平均: > mean(dist) [1] 24.17485 分散: > var(dist) [1] 4.863573 中央値: > median(dist) [1] 24.12578 標準偏差: > sqrt(var(dist)) [1] 2.205351 モードaka Modus(ここから取得): > names(sort(-table(dist)))[1] [1] "17.5788181686221" これは魔法の全体なのか、それとも私が気づかなかった他の何かがあるのでしょうか? 垂直線が(平均、中央値...)を表す私のベル形の正規分布をどうにかして視覚化できますか? これらの属性は分布について何を言っていますか? PS:コードはRにあります
8 r  distributions  mean 

3
Rのオッズ比のp値を計算する方法は?
次の値の表があります。 25 75 38 162 オッズ比は0.7037で、log(OR)は-0.3514です。値がa、b、c、dの分割表の場合、log(OR)の分散は次のように与えられます。 (1/a + 1/b + 1/c + 1/d) Rのこのデータからlog(OR)のp。値を計算するにはどうすればよいですか(0と大幅に異なるかどうか)。
8 r  variance 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.