統計とビッグデータ r

1

で生成されRたデータのサンプルがありますrnorm(50,0,1)ので、データは明らかに正規分布を取ります。ただし、Rデータに関するこの分布情報を「認識」していません。 Rサンプルがどのような分布に由来するかを推定できる方法はありますか？そうでない場合は、shapiro.test関数を使用してその方法で進めます。

12 r distributions

1

Rの部分最小二乗回帰：標準化されたデータのPLSが相関の最大化と同等ではないのはなぜですか？

私は部分最小二乗（PLS）が非常に新しくplsr()、plsパッケージ内のR関数の出力を理解しようとしています。データをシミュレートしてPLSを実行します。 library(pls) n <- 50 x1 <- rnorm(n); xx1 <- scale(x1) x2 <- rnorm(n); xx2 <- scale(x2) y <- x1 + x2 + rnorm(n,0,0.1); yy <- scale(y) p <- plsr(yy ~ xx1+xx2, ncomp=1) 私は次の数字と期待していましたaaabbb > ( w <- loading.weights(p) ) Loadings: Comp 1 xx1 0.723 xx2 0.690 Comp 1 SS …

12 r regression partial-least-squares

2

RでのRFMおよび顧客生涯価値モデリング

Rで最新性、頻度、金銭的価値（RFM）モデリング、顧客価値モデリングを行う方法を教えてもらえますか？また、誰かが私にそれに関するいくつかの文献を参照できますか？

12 r references marketing

3

マルチレベルモデリングのための例示的なデータセットと分析

最近、マルチレベルモデリングの入門コースを受講しました。使用したデータセットと例のほとんどは、社会科学からのものでした。私は、生物統計学部門で2週間のインターンシップを受けました。そこでは、病院間および5年以上の両方で、死亡率が高い緊急状態の患者の転帰の病院レベルでの変動に関するプロジェクトを開始したいと考えています。期間。私は来週インターンシップを始めていますが、同様の分析（できればR、StataまたはMLwiNを使用）が行われた書籍またはオンラインリソース、できれば読者にデータセットを提供するものを見つけることを望んでいました。どんなリンクでも大歓迎です。編集：私は、患者の院内ケアのすべての記録された側面を詳述するデータセットで作業します。関心の主な結果は、入院後30日以内の死亡です。

12 r stata multilevel-analysis epidemiology

2

トレーニングデータのグループサイズが等しくないSVM

1つのグループが他のグループよりも多く表示されるトレーニングデータからSVMを構築しようとしています。ただし、グループは最終的なテストデータで等しく表されます。そのため、Rパッケージインターフェイスのclass.weightsパラメーターを使用して、トレーニングデータの2つのグループの影響のバランスを取りたいと思います。e1071libsvm これらの重みの指定方法が正確にわからないため、少しテストを設定しました。いくつかのヌルデータを生成します（ランダムな特徴、グループラベル間の2：1の比率） class.weightsパラメータを設定してsvmを適合させます。多数の新しいヌルデータセットを予測し、クラスの割合を調べます。異なるヌルトレーニングセットに対してプロセス全体を何度も複製します。私が使用しているRコードは次のとおりです。 nullSVM <- function(n.var, n.obs) { # Simulate null training data vars = matrix(rnorm(n.var*n.obs), nrow=n.obs) labels = rep(c('a', 'a', 'b'), length.out=n.obs) data = data.frame(group=labels, vars) # Fit SVM fit = svm(group ~ ., data=data, class.weights=c(a=0.5, b=1)) # Calculate the average fraction of 'a' we …

12 r machine-learning svm

2

Rでのモンテカルロシミュレーションを使用した積分の近似

MCシミュレーションを使用して次の積分を近似するにはどうすればよいですか？ ∫1−1∫1−1|x−y|dxdy∫−11∫−11|x−y|dxdy \int_{-1}^{1} \int_{-1}^{1} |x-y| \,\mathrm{d}x \,\mathrm{d}y ありがとう！編集（一部のコンテキスト）：シミュレーションを使用して積分を近似する方法を学習しようとしており、いくつかの困難に直面したときにいくつかの練習を行っています。編集2 + 3：どういうわけか混乱して、積分を別々の部分に分割する必要があると思いました。だから、私は実際にそれを理解しました： n <- 15000 x <- runif(n, min=-1, max=1) y <- runif(n, min=-1, max=1) mean(4*abs(x-y))

12 r self-study monte-carlo

5

lme4またはasreml-Rと同等のその他のオープンソースRパッケージコード

lme4、nlme、ベイジアン回帰パッケージまたは利用可能な任意のものを使用して混合モデルに適合させたい。 Asreml-Rコーディング規約の混合モデル具体的に説明する前に、ASREMLコードに不慣れな人のために、asreml-Rの規則について詳しく知りたいと思うかもしれません。 y = Xτ + Zu + e ........................(1) ; 通常の混合モデル、yは観測のn×1ベクトルを示します。ここで、τは固定効果のp×1ベクトル、Xは観測を固定効果の適切な組み合わせに関連付けるフル列ランクのn×p設計行列です。、uはランダム効果のq×1ベクトル、Zは観測値をランダム効果の適切な組み合わせに関連付けるn×q設計行列、eは残差エラーのn×1ベクトルです。モデル（1）は線形混合モデルまたは線形混合効果モデル。想定されるここで、行列GとRは、それぞれパラメーターγとφの関数です。パラメーターθは、スケールパラメーターと呼ばれる分散パラメーターです。たとえば、複数のセクションまたは変量を持つデータの分析で生じる、複数の残差分散を持つ混合効果モデルでは、パラメーターθは1に固定されます。単一の残差分散を持つ混合効果モデルでは、θは残差分散（σ2）に等しくなります。この場合、Rは相関行列でなければなりません。モデルの詳細については、Asremlマニュアル（リンク）を参照してください。エラーの分散構造：R構造およびランダム効果の分散構造：G構造を指定できます。 asreml（）の分散モデリングでは、直接積による分散構造の形成を理解することが重要です。通常の最小二乗の仮定（およびasreml（）のデフォルト）は、これらが独立して同一に分布している（IID）ということです。ただし、データがr行c列の長方形配列にレイアウトされたフィールド実験からのものである場合、たとえば、残差eを行列として配置し、潜在的にそれらが行と列内で自己相関していると考えることができます。フィールド順のベクトル。つまり、列内の残差行（ブロック内のプロット）を並べ替えることにより、残差の分散は次のようになります。は、それぞれ行モデル（次数r、自己相関パラメーター½r）および列モデル（次数c、自己相関パラメーター½c）の相関行列です。より具体的には、2次元の分離可能な自己回帰空間構造（AR1 x AR1）が、フィールドトライアル分析の一般的なエラーに対して想定される場合があります。サンプルデータ： nin89はasreml-Rライブラリからのもので、さまざまな種類が長方形フィールドの複製/ブロックで成長しました。行または列の方向の追加の変動を制御するために、各プロットは行変数および列変数として参照されます（行列設計）。したがって、この行と列のデザインはブロックされます。利回りは測定変数です。モデル例 asreml-Rコードと同等のものが必要です。単純なモデル構文は次のようになります。 rcb.asr <- asreml(yield ∼ Variety, random = ∼ Replicate, data = nin89) .....model 0 線形モデルは、式オブジェクトとして固定（必須）、ランダム（オプション）、rcov（エラーコンポーネント）引数で指定されます。デフォルトは単純なエラー項であり、モデル0のようにエラー項に対して正式に指定する必要はありません。ここで、多様性は固定効果であり、ランダムは複製（ブロック）です。ランダム項と固定項のほかに、エラー項を指定できます。このモデル0のデフォルトです。モデルの残差またはエラーコンポーネントは、rcov引数を介して数式オブジェクトで指定されます。次のモデル1：4を参照してください。次のmodel1は、G（ランダム）およびR（エラー）構造の両方が指定されている、より複雑なものです。モデル1： data(nin89) # Model 1: RCB …

12 r

3

read.csvで3列のうち2列のみを読み取る

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け付けていません。 3つの列で構成されるASCIIデータセットがありますが、最後の2つだけが実際のデータです。次に、を使用してデータのドットチャートを作成しread.csv(file = "result1", sep= " ")ます。Rは3つの列すべてを読み取ります。これを回避するにはどうすればよいですか？

12 r

4

バイナリ時系列の予測

車が動いていないときは1、車が動いているときは0のバイナリ時系列があります。36時間先までの時間範囲と1時間ごとの予測を行います。私の最初のアプローチは、次の入力を使用してNaive Bayesを使用することでした：t-24（毎日の季節）、t-48（毎週の季節）、時間。ただし、結果はあまり良くありません。この問題に対してどの記事またはソフトウェアをお勧めしますか？

12 r time-series forecasting binary-data

2

車を使用して繰り返し測定ANOVAの特定のコントラストを指定する方法は？

RでAnovaを繰り返し測定した後、そのデータセットでいくつかの特定のコントラストを実行しようとしています。正しいアプローチはAnova()、車のパッケージから使用することだと思います。データの?Anova使用から得られた例で私の質問を説明しましょうOBrienKaiser（注：例から性別因子を省略しました）：被験者因子、治療（3レベル：コントロール、A、B）、および2反復の間の1つのデザインがあります-測定（被験者内）要因、フェーズ（3レベル：事前テスト、事後テスト、フォローアップ）および時間（5レベル：1〜5）。標準のANOVAテーブルは次のようになります（example（Anova）とは異なり、タイプ3の二乗和に切り替えました。これが私の分野の望みです）。 require(car) phase <- factor(rep(c("pretest", "posttest", "followup"), c(5, 5, 5)), levels=c("pretest", "posttest", "followup")) hour <- ordered(rep(1:5, 3)) idata <- data.frame(phase, hour) mod.ok <- lm(cbind(pre.1, pre.2, pre.3, pre.4, pre.5, post.1, post.2, post.3, post.4, post.5, fup.1, fup.2, fup.3, fup.4, fup.5) ~ treatment, data=OBrienKaiser) av.ok <- Anova(mod.ok, idata=idata, …

12 r anova repeated-measures contrasts sums-of-squares

2

Rのグラフに複数のバープロットを描く[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新することがありますので、話題のクロス検証済みのため。 4年前に閉鎖されました。 Rの1つのグラフに4つの棒グラフをプロットしたいと思います。次のコードを使用しました。ここで、どのように凡例をグラフの上に保持することができますか、具体的には凡例は2〜3のバープロットでなければなりません。私も試しましpar(mar=c(4.1,4.1,8.1,4.1)たが、成功していません。また、legend()2番目のバープロットを実行しようとしましたが、役に立ちません。凡例は、4つのバープロットすべてに対するものです。これで私を助けてください。 par(mfrow=c(1,4)) barplot(t(A), beside=T, ylim=c(-100,100),..) barplot(t(B), beside=T, ylim=c(-100,100),..) barplot(t(C), beside=T, ylim=c(-100,100),..) barplot(t(D), beside=T, ylim=c(-100,100),..) legend(...)

12 r data-visualization barplot

9

統計的手法の広く概念的な概要のための本

シミュレーション/予測/関数推定などの統計分析の可能性に非常に興味があります。しかし、私はそれについてあまり知りませんし、私の数学的な知識はまだかなり限られています-私はソフトウェア工学の学部生です。線形回帰とその他の回帰、ベイジアン法、モンテカルロ法、機械学習など、読み続けている特定のことから始められる本を探しています。両方を組み合わせた本がありました。できれば、技術的な詳細ではなく概念的に物事を説明してください。統計には非常に多くの危険な落とし穴があることを理解しているため、統計を非常に直感的にしたいと思います。価値があると思われるトピックの理解を深めるために、もっと本を読むつもりはありません。

12 r regression machine-learning references simulation

2

Rでの空間データのクラスタリング

一連の海面水温（SST）の月次データがあり、いくつかのクラスター方法論を適用して、同様のSSTパターンを持つ領域を検出したいと考えています。1985年から2009年まで実行される毎月のデータファイルのセットがあり、最初のステップとして各月にクラスタリングを適用したいと考えています。各ファイルには358416ポイントのグリッドデータが含まれており、約50％が陸地であり、NAである99.99値でマークされています。データ形式は次のとおりです。 lon lat sst -10.042 44.979 12.38 -9.998 44.979 12.69 -9.954 44.979 12.90 -9.910 44.979 12.90 -9.866 44.979 12.54 -9.822 44.979 12.37 -9.778 44.979 12.37 -9.734 44.979 12.51 -9.690 44.979 12.39 -9.646 44.979 12.36 CLARAクラスタリング手法を試してみたところ、見かけ上は良い結果が得られましたが、それはただの平滑化（グループ化）アイソラインであるようにも思えます。そして、これが空間データを分析するのに最適なクラスタリング手法であるかどうかはわかりません。このタイプのデータセット専用のクラスタリング方法はありますか？いくつかの参照は、読み始めるのに良いでしょう。前もって感謝します。

12 r clustering spatial

1

ネストされていないモデルの等価性をテストする

yyyがxxxとダミー線形関数だとしましょうddd。私の仮説は、自体は他の変数のベクトル快楽主義的なインデックスのようなものだということです。dの（つまりz_1、z_2、...、z_n）でこれをサポートしています。これらの2つのモデルの等価性をテストする方法はありますか？dddZZZMANOVAMANOVAMANOVAZZZz1z1z_1z2z2z_2znznz_nddd モデル1：y=b0+b1⋅x+b2⋅d+e1y=b0+b1⋅x+b2⋅d+e1y = b_0 + b_1 \cdot x + b_2\cdot d + e_1 モデル2：y=g0+Z⋅G+e2y=g0+Z⋅G+e2y = g_0 + Z\cdot G + e_2 ここで、はパラメーターの列ベクトルです。GGG

12 r hypothesis-testing regression model-selection

3

3レベルの分割表を処理する適切な方法

いくつかの種、それらが収集された宿主植物、およびその収集が雨の日に起こったかどうか（これは実際に重要です！）のカウントデータを含む3レベルの分割表があります。Rを使用すると、偽のデータは次のようになります。 count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- rep(c("c","c", "d", "d"), 2) rain <- c(rep(0,4), rep(1,4)) my.table <- xtabs(count ~ host + species + rain) , , rain = 0 species host a b c 12 15 d 10 13 , , rain = 1 species …

12 r categorical-data log-linear

タグ付けされた質問 「r」

タグ付けされた質問「r」