統計とビッグデータ r

5

KNN補完パッケージを探しています。私は代入パッケージ（http://cran.r-project.org/web/packages/imputation/imputation.pdf）を見てきましたが、何らかの理由でKNN代入関数は（説明の例に続いても）（以下のように）ゼロ値を代入します。私は周りを見回しましたが、まだ何かを見つけることができません。したがって、他の誰かが良いKNN代入パッケージについて他の提案を持っているのではないかと思っていましたか？ W 以下のコードでは、NA値はゼロに置き換えられます-Knn平均値ではありません require(imputation) x = matrix(rnorm(100),10,10) x.missing = x > 1 x[x.missing] = NA kNNImpute(x, 3) x

14 r k-nearest-neighbour data-imputation

4

Rのブラントテスト[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 6か月前に閉鎖されました。順序ロジスティック回帰の並列回帰の仮定をテストする際、いくつかのアプローチがあることがわかりました。私は、グラフィカルなアプローチ（Harrellの本で詳述されている）とRの順序パッケージを使用して詳述されたアプローチの両方を使用しました。ただし、個々の変数と全体モデルの両方に対して、Brantテスト（Stataから）も実行したいと思います。私は周りを見回しましたが、Rで実装されているのが見つかりません RにBrantテストの実装はありますか？

14 r regression ordinal-data ordered-logit

3

2つの勾配値の有意差をテストする

私が持っているデータは、2つの異なる地域の特定の種について、y〜timeの回帰勾配値、標準誤差、n値、およびp値です。あるエリアの回帰スロープが他のエリアの回帰スロープと有意に異なるかどうかを確認したいのですが、これはそのようなデータで可能ですか？誰も私がこれについてどうすればいいか提案がありますか？残念ながら、生データにアクセスできません... これはとても簡単な質問です！

14 r regression statistical-significance

1

残差を見つけてプロットする方法

データが与えられました x = c(21,34,6,47,10,49,23,32,12,16,29,49,28,8,57,9,31,10,21,26,31,52,21,8,18,5,18,26,27,26,32,2,59,58,19,14,16,9,23,28,34,70,69,54,39,9,21,54,26) y = c(47,76,33,78,62,78,33,64,83,67,61,85,46,53,55,71,59,41,82,56,39,89,31,43,29,55, 81,82,82,85,59,74,80,88,29,58,71,60,86,91,72,89,80,84,54,71,75,84,79) 残差を取得してに対してプロットするにはどうすればよいxxxですか？そして、残差がほぼ正常に見えるかどうかをテストするにはどうすればよいですか？私は式のだと私は正しく、元の線形近似を行う場合、私はわからないんだけどが、講義ノート、線形回帰直線の形式でなければならないと言うのy I = β 0 + β 1のx + ε。y=6.9x−5.5y=6.9x−5.5y=6.9x-5.5yi=β0+β1x+ϵyi=β0+β1x+ϵy_i=\beta_0+\beta_1x+\epsilon

14 r regression

2

Rでダミーコーディングの代わりにエフェクトコーディングで回帰を行う方法は？

現在、カテゴリ変数/因子変数のみを独立変数として持つ回帰モデルに取り組んでいます。私の従属変数はロジット変換比です。 Rは、「ファクター」タイプであるダミーをコーディングする方法を自動的に認識するため、Rで通常の回帰を実行するだけでかなり簡単です。ただし、このタイプのコーディングでは、各変数の1つのカテゴリがベースラインとして使用されるため、解釈が難しくなります。私の教授は、代わりにエフェクトコーディング（-1または1）を使用するように言っています。これは、インターセプトに大平均を使用することを意味するためです。誰もそれを処理する方法を知っていますか？今まで私は試しました： gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + month * month + year + year * year, data = ds, contrasts = …

14 r regression categorical-data categorical-encoding

3

ベイジアンANOVAとRの回帰はどのように行いますか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。私は、1つの独立変数、1つの従属変数、およびカテゴリ変数で構成されるかなり単純なデータセットを持っています。私のようなfrequentistテストを実行している経験をたくさん持っているaov()とlm()、私はR.で自分のベイズ同等物を実行する方法を見つけ出すことはできません最初の2つの変数に対してベイジアン線形回帰を実行し、分類としてカテゴリ変数を使用してベイジアン分散分析を実行したいのですが、Rでこれを行う方法について簡単な例を見つけることはできません。どちらも？さらに、ベイジアン分析によって作成された出力統計は正確に何であり、何を表していますか？私は統計にあまり精通していませんが、コンセンサスはp値で基本的なテストを使用することはやや見当違いであると考えられているようであり、私はそれを維持しようとしています。よろしく。

14 r regression bayesian anova inference

3

Rのブートパッケージのcv.glmのコスト関数とは何ですか？

leave-one-outメソッドを使用して相互検証を行っています。バイナリ応答があり、Rのブートパッケージとcv.glm関数を使用しています。私の問題は、この機能の「コスト」の部分を完全に理解していないことです。私が理解できることから、これは推定値を1または0に分類するかどうか、つまり分類のしきい値を決定する関数です。これは正しいです？また、Rのヘルプでは、二項モデルにこの関数を使用していますcost <- function(r, pi = 0) mean(abs(r-pi) > 0.5)。この関数をどのように解釈しますか？そのため、分析のために正しく変更できます。助けていただければ幸いです。理解できない機能を使いたくないのです。

14 r cross-validation

1

RandomForest-MDSプロットの解釈

randomForestを使用して、8つの変数（さまざまな体の姿勢と動き）に基づいて6つの動物の行動（たとえば、立ち、歩き、水泳など）を分類しました。 randomForestパッケージのMDSplotはこの出力を提供し、結果の解釈に問題があります。私は同じデータでPCAを実行し、PC1とPC2のすべてのクラス間で既に良好な分離を得ましたが、ここではDim1とDim2は3つの動作を分離しているようです。これは、これらの3つの動作が他のすべての動作よりも非類似であることを意味します（したがって、MDSは変数間の最大の非類似性を見つけようとしますが、必ずしも最初のステップですべての変数が一致するわけではありません）？3つのクラスターの配置（Dim1やDim2など）は何を示していますか？私はRIが初めてなので、このプロットに凡例をプロットするのにも問題があります（ただし、さまざまな色が何を意味するかはわかりますが）。どうもありがとう！！ RandomForestにClassCenter関数で作成したプロットを追加します。この関数は、プロトタイプのプロットに近接行列（MDSプロットと同じ）も使用します。しかし、6つの異なる動作のデータポイントを見るだけでは、なぜ近接行列がプロトタイプをプロットするのか理解できません。また、虹彩データを使用してclasscenter関数を試しましたが、機能します。しかし、それは私のデータでは機能しないようです... このプロットに使用したコードは次のとおりです be.rf <- randomForest(Behaviour~., data=be, prox=TRUE, importance=TRUE) class1 <- classCenter(be[,-1], be[,1], be.rf$prox) Protoplot <- plot(be[,4], be[,7], pch=21, xlab=names(be)[4], ylab=names(be)[7], bg=c("red", "green", "blue", "yellow", "turquoise", "orange") [as.numeric(factor(be$Behaviour))]) points(class1[,4], class1[,7], pch=21, cex=2, bg=c("red", "green", "blue", "yellow", "turquoise", "orange")) 私のクラス列が最初の列で、8つの予測子がそれに続きます。2つの最良の予測変数をxとyとしてプロットしました。

14 r classification random-forest multidimensional-scaling

1

修正されたタイデータのコルモゴロフスミルノフ検定に代わる方法はありますか？

2つのサンプル（コントロールと処理済み）から大量のデータを取得しました。各サンプルには、Rで有意性検定を受ける数千の値が含まれています。トンと彼らは関係を持っています。分布は不明であり、コントロールと処理された分布の形状は異なる可能性があります。そのため、ノンパラメトリック検定を使用して、サンプル全体の違いが10の異なる要因で有意であるかどうかを比較します。コルモゴロフとスミルノフのテストを使用することを考えましたが、それは本当に関係に適していません。私は最近、KSテストのブートストラップバージョンを実行し、関係を許容するMatchingと呼ばれる新しいRライブラリを見つけました。これは本当に良いアイデアですか、代わりに別のテストを使用する必要がありますか？そして、p値を調整する必要がありますか？

14 r nonparametric kolmogorov-smirnov ties

1

導関数のカーネル密度推定量に最適な帯域幅はありますか？

カーネル密度推定器を使用して、一連の観測に基づいて密度関数を推定する必要があります。同じ観測セットに基づいて、カーネル密度推定器の導関数を使用して密度の1次および2次導関数を推定する必要もあります。帯域幅は確かに最終結果に大きな影響を与えます。まず、KDE帯域幅を提供するR関数がいくつかあることを知っています。どちらがより好ましいかわかりません。誰もがKDE帯域幅のためにこれらのR関数の1つを推奨できますか？第二に、KDEの導関数について、同じ帯域幅を選択する必要がありますか？

14 r nonparametric pdf kernel-smoothing

5

QQプロットの中心付近の無関係な点を削除する

Rで約120万ポイントの2つのデータセットを使用してQQプロットをプロットしようとしています（qqplotを使用し、データをggplot2に送ります）。計算は簡単ですが、結果のグラフは非常に多くのポイントがあるため、読み込みが非常に遅くなります。ポイント数を10000に減らすために線形近似を試みました（これは、データセットの1つが他のデータセットよりも大きい場合、qqplot関数がとにかく行います）が、その後、テールの詳細の多くを失います。中心に向かうデータポイントのほとんどは基本的に役に立たない-それらは非常に重なるので、おそらくピクセルあたり約100です。よりスパースなデータを末尾に向かって失うことなく、近すぎるデータを削除する簡単な方法はありますか？

14 r data-visualization qq-plot

3

GAMモデルの信頼区間

mgcv::gamのヘルプページを読む：信頼モデル/信頼区間は、適合モデルを使用して予測された数量に対して容易に利用可能ですただし、実際に取得する方法はわかりません。とがあると思ったのですpredict.gamが、type=confidenceありlevelません。作成方法を教えてください。

14 r confidence-interval gam

2

ベイジアン分析に最適なソフトウェアパッケージ

ベイジアン推論を実行するために、どのソフトウェア統計パッケージをお勧めしますか？たとえば、openBUGSまたはwinBUGSをスタンドアロンとして実行したり、Rから呼び出すこともできます。しかし、Rにはベイジアン分析を実行できる独自のパッケージ（MCMCPack、BACCO）がいくつかあります。 Rのどのベイジアン統計パッケージが最適であるか、または他の選択肢（MatlabまたはMathematica？）についての提案はありますか？比較したい主な機能は、パフォーマンス、使いやすさ、安定性、柔軟性です

14 r probability bayesian inference bugs

1

ニューラルネットワークでバイナリ入力と連続入力が混在する場合の対処方法

Rでnnetパッケージを使用して、コンドミニアム（個人プロジェクト）の不動産価格を予測するANNを構築しようとしています。私はこれに新しく、数学の背景を持っていないので、私と一緒に裸にしてください。バイナリと連続の両方の入力変数があります。たとえば、元々はyes / noだった一部のバイナリ変数は、ニューラルネット用に1/0に変換されました。他の変数はのように連続していSqftます。入力データのサンプルすべての値を0〜1のスケールで正規化しています。たぶん、Bedrooms及びBathroomsその範囲のみであるため、正規化すべきではありません0-4？これらの混合入力は、ANNに問題を引き起こしますか？私は大丈夫な結果を得ましたが、綿密な調査で、ANNが特定の変数に選択した重みは意味をなさないようです。私のコードは下にありますが、提案はありますか？ ANN <- nnet(Price ~ Sqft + Bedrooms + Bathrooms + Parking2 + Elevator + Central.AC + Terrace + Washer.Dryer + Doorman + Exercise.Room + New.York.View,data[1:700,], size=3, maxit=5000, linout=TRUE, decay=.0001) 更新：バイナリ入力を各値クラスの個別のフィールドに分割することに関する以下のコメントに基づいて、私のコードは次のようになりました。 ANN <- nnet(Price ~ Sqft + Studio + X1BR + X2BR + …

14 r machine-learning data-transformation neural-networks nnet

1

指数近似の残差平方和を最小化する方法は？

次のデータがあり、負の指数関数的成長モデルを当てはめたいと思います。 Days <- c( 1,5,12,16,22,27,36,43) Emissions <- c( 936.76, 1458.68, 1787.23, 1840.04, 1928.97, 1963.63, 1965.37, 1985.71) plot(Days, Emissions) fit <- nls(Emissions ~ a* (1-exp(-b*Days)), start = list(a = 2000, b = 0.55)) curve((y = 1882 * (1 - exp(-0.5108*x))), from = 0, to =45, add = T, col = "green", …

14 r nonlinear-regression fitting nls

タグ付けされた質問 「r」

タグ付けされた質問「r」