タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
左打ち切りデータで標準の機械学習ツールを使用する
私は、輸入業者が代理店の顧客ネットワークから製品の需要を予測できるようにすることを目的とした予測アプリケーションを開発しています。需要を満たすのに十分な在庫がある限り、売上高は需要のかなり良いプロキシです。ただし、在庫がゼロになると(顧客が回避できるようにするために検討している状況)、目標を達成できなかったことはあまりわかりません。十分な供給があった場合、顧客はいくつの売上を上げましたか?単純なターゲット変数としてセールスを使用する標準的な回帰ベースのMLアプローチは、時間、私の説明変数、および需要の間の関係の一貫性のない推定を生成します。 Tobitモデリングは、問題に取り組む最も明白な方法です:http : //en.wikipedia.org/wiki/Tobit_model。ランダムフォレスト、GBMS、SVM、およびニューラルネットワークのML適応についても疑問に思っています。これは、データの左きき打ち構造も考慮しています。 つまり、機械学習ツールを左打ち切りの回帰データに適用して、従属変数と独立変数間の関係の一貫した推定値を取得するにはどうすればよいですか?Rで利用可能なソリューションが最初に優先され、次にPythonが優先されます。 乾杯、 アーロン


2
lme4 :: lmerは3因子反復測定分散分析に相当しますか?
私の質問は、どのモデルが双方向反復測定分散分析に対応するかを示したこの応答に基づいていますlme4::lmer。 require(lme4) set.seed(1234) d <- data.frame( y = rnorm(96), subject = factor(rep(1:12, 4)), a = factor(rep(1:2, each=24)), b = factor(rep(rep(1:2, each=12))), c = factor(rep(rep(1:2, each=48)))) # standard two-way repeated measures ANOVA: summary(aov(y~a*b+Error(subject/(a*b)), d[d$c == "1",])) # corresponding lmer call: anova(lmer(y ~ a*b+(1|subject) + (1|a:subject) + (1|b:subject), d[d$c == "1",])) 私の質問は、これを三元配置分散分析の場合に拡張する方法です。 …

2
「段階的回帰」はどのように機能しますか?
次のRコードを使用して、プロビットモデルを適合させました。 p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1) stepwise(p1, direction='backward/forward', criterion='BIC') 私は何をしstepwise、backward/forward正確に行い、変数をどのように選択するのか知りたいですか?

2
ポアソン回帰の仮定とそれらをRでテストする方法
どの回帰が私のデータに最適であるかをテストしたいと思います。私の従属変数はカウントであり、ゼロがたくさんあります。 また、使用するモデルとファミリ(ポアソンまたは準ポアソン、またはゼロ膨張ポアソン回帰)と、仮定をテストする方法を決定するためにいくつかの助けが必要になります。 ポアソン回帰:私が理解している限り、強い仮定は、従属変数の平均=分散であるというものです。これをどのようにテストしますか?彼らはどのくらい近くにいる必要がありますか?これには無条件または条件付きの平均と分散が使用されますか?この仮定が当てはまらない場合はどうすればよいですか? 分散が平均よりも大きい場合、分散が過剰であり、これに対処するための潜在的な方法は、より多くの独立変数、またはfamily = quasipoissonを含めることです。この分布には他の要件や前提条件がありますか?(1)と(2)のどちらがより適しているかを確認するには、どのテストを使用しますかanova(m1,m2)? また、過剰分散が発生した場合、負の二項分布を使用できることも読みました。Rでこれを行うにはどうすればよいですか?quasipoissonとの違いは何ですか? ゼロ膨張ポアソン回帰:vuongテストを使用して、どのモデルがより適切に適合するかを確認したことを読みました。 > vuong (model.poisson, model.zero.poisson) あれは正しいですか?インフレがゼロの回帰にはどのような仮定がありますか? UCLAのAcademic Technology Services、Statistical Consulting Groupには、ゼロインフレーションポアソン回帰に関するセクションがあり、標準ポアソンモデル(b)に対してゼロインフレーションモデル(a)をテストします。 > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb) > m.b <- glm(count ~ child + camper, family = poisson, data = zinb) > vuong(m.a, m.b) | persons最初のモデルの部分が何をするのか、なぜこれらのモデルを比較できるのか理解できません。回帰は同じであり、別のファミリーを使用することを期待していました。

1
これらのデータを2項式glmの比率に集約できますか?
60人にアトランタのレストランフランチャイズをできるだけ多く記載してもらいました。全体のリストには70を超えるレストランが含まれていましたが、10%未満の人から言及されたレストランは除外され、45となりました。これらの45について、フランチャイズをリストした情報提供者の割合を計算しました。この比率をフランチャイズの(対数変換された)広告予算とフランチャイズになってからの年数の関数としてモデル化する。 だから私はこのコードを書きました: model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45) 予測されたように、両方の変数は強力で重要な効果を示します。 しかし、比例データをOL​​S回帰でモデル化してはならないことはわかっていますが、その後、次のコードを記述しました。 model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45) この場合、「予算」は依然として重要な予測因子ですが、「年」は比較的弱く、重要ではありません。 見積もりによって、集計によって人為的に信頼が高まるのではないかと心配になります。2項式のglmは、モデルが45 * 55 = 2,475行に基づくように、基本的にデータをベクトル化しませんか?実際にレストランが45店、情報提供者が55店しかないことを考えると、それは適切でしょうか。これは混合効果モデリングを必要とするでしょうか?


4
データをN個の等しいグループに分割
4つの列の値を含むデータフレームがあります。 たとえば、次のようにID、price、click count、rating 私がしたいのは、このデータフレームをN個の異なるグループに「分割」して、各グループが同じ分布の価格、クリック数、および評価属性を持つ同じ数の行を持つことです。 私はこれに取り組む方法について少しの考えもないので、アドバイスは強く感謝します!
11 r  distributions 

3
累積/累積プロット(または「ローレンツ曲線の視覚化」)
私はそのようなプロットが何と呼ばれるのかわからないので、私はこの質問に愚かなタイトルを付けました。 次のように順序付けられたデータセットがあるとしましょう 4253 4262 4270 4383 4394 4476 4635 ... 各数字は、特定のユーザーがWebサイトに投稿した投稿の数に対応しています。ここで定義されている「参加の不平等」現象を経験的に調査しています。 わかりやすくするために、「ユーザーの10%がデータの50%に貢献している」などのステートメントを読者がすばやく推測できるプロットを作成したいと思います。それはおそらくこの明らかにかなりひどいペイントのスケッチに似ているはずです: これがどのように呼ばれるのか私には手がかりがないので、どこを探すべきか分かりません。また、誰かがで実装したR場合、それは素晴らしいことです。


2
Rでの名前による列インデックスの検索[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 6年前休業。 データフレームで、列のインデックスを名前で取得します。例えば: x <- data.frame(foo=c('a','b','c'),bar=c(4,5,6),quux=c(4,5,6)) 「棒」の列インデックスを知りたい。 私は次のことを思いつきましたが、それは洗練されていないようです。私が見逃しているもっと簡単なビルトインはありますか? seq(1,length(names(x)))[names(x) == "bar"] [1] 2
11 r 

1
Rの各予測の回帰の信頼スコア(ランダムフォレスト/ XGBoostを使用)を計算する方法は?
ランダムフォレストやExtreme Gradient Boosting(XGBoost)などのアルゴリズムを使用する場合、予測値ごとに信頼スコア(信頼値または尤度とも呼ばれます)を取得する方法はありますか?この信頼スコアが0から1の範囲であり、特定の予測について私がどれほど自信があるかを示しているとします。 自信についてインターネットで見つけたものから、通常は間隔で測定されます。ライブラリconfpredからの関数を使用して計算された信頼区間の例を次に示しlavaます。 library(lava) set.seed(123) n <- 200 x <- seq(0,6,length.out=n) delta <- 3 ss <- exp(-1+1.5*cos((x-delta))) ee <- rnorm(n,sd=ss) y <- (x-delta)+3*cos(x+4.5-delta)+ee d <- data.frame(y=y,x=x) newd <- data.frame(x=seq(0,6,length.out=50)) cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd) if (interactive()) { ##' plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y") with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T, col=Col("blue"), border=F)) } コード出力は信頼区間のみを提供します。 …

3
負の二項GLMからの「整数でない」警告に対処する方法は?
負の二項モデルを使用して、Rのホストに影響を与える寄生虫の平均強度をモデル化しようとしています。私は次のような50以上の警告を受け続けます: In dpois(y, mu, log = TRUE) : non-integer x = 251.529000 どうすればこれに対処できますか?私のコードは次のようになります: mst.nb = glm.nb(Larvae+Nymphs+Adults~B.type+Month+Season, data=MI.df)

1
ランダムフォレストの部分依存プロットのy軸の意味
私はRandomForestRパッケージを使用していますが、部分依存プロットのY軸の値を解釈する方法に混乱しています。ヘルプドキュメントは、プロットが「クラス確率に対する変数の限界効果のグラフィカルな描写」であると述べています。しかし、y軸が正確に何を表すかについては、まだ混乱しています。 特に、負の値はどういう意味ですか? クラスの正確な予測に悪影響を与えるとはどういう意味ですか? そして、これらの数値から最も重要な特徴は何ですか、それは最大値、トレンドの形などですか? 部分プロットを他の変数の部分プロットと比較できますか? これらのプロットは、Maxent(分布モデリングソフトウェア)で作成された応答曲線とどのように比較できますか?

5
ダービン・ワトソン検定の統計
Rの回帰モデルにDWテストを適用し、1.78のDWテスト統計と2.2e-16 = 0のp値を得ました。 これは、統計値が2に近く、p値が小さいため、残差間に自己相関がないことを意味しますか、それとも、統計値が2に近いにもかかわらず、p値が小さいため、存在するという帰無仮説を棄却します自己相関なし?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.