統計とビッグデータ r

3

明らかに2つあるにもかかわらず、k-meansのギャップ統計が1つのクラスターを示唆するのはなぜですか？

K-meansを使用してデータをクラスター化し、「最適な」クラスター番号を提案する方法を探していました。ギャップ統計は、適切なクラスター番号を見つける一般的な方法のようです。何らかの理由で最適なクラスター番号として1を返しますが、データを見ると2つのクラスターがあることが明らかです。これは私がRのギャップを呼び出す方法です： gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) 結果セット： > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 3.884438 -0.0395891064 0.1231152 [4,] 3.564816 3.563931 -0.0008853886 0.1387907 [5,] 3.356504 3.327964 -0.0285393917 …

18 r machine-learning clustering k-means

1

H0の下でブートストラップを使用して、2つの手段の違いのテストを実行します。グループ内またはプールされたサンプル内の置換

2つの独立したグループを持つデータがあるとします。 g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …

18 r hypothesis-testing bootstrap small-sample permutation-test

5

時系列の変化の検出（Rの例）

通常は同じ形状の時系列データの変化を検出したいと思います。これまでのところ私が働いてきたchangepointR用のパッケージとcpt.mean(), cpt.var()してcpt.meanvar()機能します。cpt.mean()データが通常1つのレベルにとどまっている場合、PELTメソッドを使用するとうまく機能します。しかし、降下中の変化も検出したいと思います。変化の例として、検出したいのは、実際に例の赤い点線に従うはずの黒い曲線が突然落ちる部分です。私はcpt.var（）関数を試しましたが、良い結果を得ることができませんでした。推奨事項はありますか（必ずしもRを使用する必要はありません）？変更されたデータ（Rオブジェクトとして）は次のとおりです。 dat.change <- c(12.013995263488, 11.8460207231808, 11.2845153487846, 11.7884417180764, 11.6865425802022, 11.4703118125303, 11.4677576899063, 11.0227199625084, 11.274775836817, 11.03073498338, 10.7771805591742, 10.7383206158923, 10.5847230134625, 10.2479315651441, 10.4196381241735, 10.467607842288, 10.3682422713283, 9.7834431752935, 9.76649842404295, 9.78257968297228, 9.87817694914062, 9.3449034905713, 9.56400153361727, 9.78120084558148, 9.3445162813738, 9.36767436354887, 9.12070987223648, 9.21909859069157, 8.85136359917466, 8.8814423003979, 8.61830163359642, 8.44796977628488, 8.06957847272046, 8.37999165387824, 7.98213210294954, 8.21977468333673, 7.683960439316, 7.73213584532496, 7.98956476021092, 7.83036046746187, 7.64496198988985, 4.49693528397253, 6.3459274845112, 5.86993447552116, 4.58301192892403, …

18 r time-series change-point structural-change

3

負の二項GLM対カウントデータのログ変換：タイプIエラー率の増加

あなたの何人かはこの素晴らしい論文を読んだかもしれません： O'Hara RB、Kotze DJ（2010）カウントデータをログ変換しません。生態学と進化の方法1：118–122。クリック。私の研究分野（生態毒性学）では、再現性の低い実験を扱っており、GLMは広く使用されていません。そこで、O'Hara＆Kotze（2010）と同様のシミュレーションを行いましたが、生態毒性データを模倣しました。電力シミュレーション： 1つのコントロールグループ（）と5つの治療グループ（）を使用した要因計画のデータをシミュレートしました。治療1の存在量は対照（）と同一であり、治療2-5の存在量は対照の存在量の半分（）でした。シミュレーションでは、サンプルサイズ（3,6,9,12）とコントロールグループの量（2、4、8、...、1024）を変化させました。豊度は、固定分散パラメーター（）を持つ負の二項分布から引き出されました。100のデータセットが生成され、負の二項GLMとガウスGLM +対数変換データを使用して分析されました。μ 1 - 5 μ 1 = μ C μ 2 - 5 = 0.5 μ C θ = 3.91μcμc\mu_cμ1 − 5μ1−5\mu_{1-5}μ1= μcμ1=μc\mu_1 = \mu_cμ2 − 5= 0.5 μcμ2−5=0.5μc\mu_{2-5} = 0.5 \mu_cθ = 3.91θ=3.91\theta = 3.91 結果は予想通りです。GLMのパワーは、特に多くの動物がサンプリングされていない場合に大きくなります。コードはこちらです。タイプIエラー：次に、タイプ1のエラーを見ました。シミュレーションは上記のように行われましたが、すべてのグループは同じ量（）。μc= μ1 − 5μc=μ1−5\mu_c …

18 r generalized-linear-model simulation negative-binomial type-i-and-ii-errors

1

順序ロジスティック回帰のプロットと解釈

1（簡単ではない）から5（非常に簡単）の範囲の順序依存変数easinessがあります。独立因子の値の増加は、容易性評価の増加に関連しています。私の独立変数のうちの2つ（condAおよびcondB）はカテゴリカルであり、それぞれ2つのレベルがあり、2（abilityA、abilityB）は連続しています。私が使用している序それは私がであると信じるものを使用してR、パッケージをロジット（p （Y⩽ グラム））= lnp （Y⩽ グラム）p （Y> g）= β0g− （β1バツ1+ ⋯ + βpバツp）（g= 1 、… 、k − 1 ）ロジット（p（Y⩽g））=ln⁡p（Y⩽g）p（Y>g）=β0g−（β1バツ1+⋯+βpバツp）（g=1、…、k−1）\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1) （@caracalの回答はこちら）私はこれを独自に学習してきましたが、まだ苦労しているので、可能な限りの助けをお願いします。通常のパッケージに付属するチュートリアルに加えて、次の情報も役立つことがわかりました。順序ロジスティック回帰の解釈順序ロジスティック回帰の負の係数 …

18 r regression logistic interpretation ordered-logit

1

疎データ行列で動作するクラスタリングアルゴリズム[非公開]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 5年前に閉鎖されました。次のクラスタリングアルゴリズムのリストをコンパイルしようとしています。 Rで実装 sparseMatrix関数によって作成されるような、スパースデータ行列（（非）非類似度行列ではない）で操作します。 CVにはこの概念を説明する他のいくつかの質問がありますが、スパース行列で直接操作できるRパッケージにリンクするものはありません。大規模で疎なデータセットのクラスタリング高次元のスパースバイナリデータのクラスタリング疎で高次元のクラスタリング実装を探していますスペース効率の高いクラスタリングこれまでのところ、スパース行列をクラスター化できるRの関数を1つだけ見つけました。 skmeans：球面kmeans skmeansパッケージから。コサイン距離を使用したkmeans 。dgTMatrixオブジェクトを操作します。遺伝的k-meansアルゴリズム、pclust、CLUTO、gmeans、およびkmndirsへのインターフェースを提供します。例： library(Matrix) set.seed(42) nrow <- 1000 ncol <- 10000 i <- rep(1:nrow, sample(5:100, nrow, replace=TRUE)) nnz <- length(i) M1 <- sparseMatrix(i = i, j = sample(ncol, nnz, replace = TRUE), x = sample(0:1 , …

18 r clustering sparse

4

勾配制約のある線形回帰

で非常に単純な線形回帰を実行したいですR。式はと同じくらい簡単です。ただし、スロープ（）が間隔内、たとえば1.4から1.6の間にあるようにします。y=ax+by=ax+by = ax + baaa これをどのように行うことができますか？

18 r regression constrained-regression

3

プロファイル尤度と信頼区間の関係は何ですか？

このチャートを作成するために、mean = 0およびsd = 1の正規分布から異なるサイズのランダムサンプルを生成しました。その後、t.test（）関数を使用して.001から.999（赤い線）の範囲のアルファカットオフを使用して信頼区間を計算し、以下のコードを使用してプロファイル尤度を計算しました。現時点でリンクを見つける編集：見つかった）、これは青い線で示されています。緑の線は、R density（）関数を使用して正規化された密度を示し、データは各チャートの下部にある箱ひげ図で示されます。右側には、95％の信頼区間（赤）と最大尤度区間の1/20（青）のキャタピラープロットがあります。プロファイル尤度に使用されるRコード： #mn=mean(dat) muVals <- seq(low,high, length = 1000) likVals <- sapply(muVals, function(mu){ (sum((dat - mu)^2) / sum((dat - mn)^2)) ^ (-n/2) } ) 私の特定の質問は、これらの2種類の間隔の間に既知の関係があるかどうか、およびn = 3の場合を除いてすべてのケースで信頼区間がより保守的に見える理由です。計算が有効かどうか（およびこれを行うためのより良い方法）およびこれら2つのタイプの間隔の一般的な関係についてのコメント/回答も必要です。 Rコード： samp.size=c(3,4,5,10,20,1000) cnt2<-1 ints=matrix(nrow=length(samp.size),ncol=4) layout(matrix(c(1,2,7,3,4,7,5,6,7),nrow=3,ncol=3, byrow=T)) par(mar=c(5.1,4.1,4.1,4.1)) for(j in samp.size){ #set.seed(200) dat<-rnorm(j,0,1) vals<-seq(.001,.999, by=.001) cis<-matrix(nrow=length(vals),ncol=3) cnt<-1 for(ci in …

18 r confidence-interval profile-likelihood

3

lmerの分散共分散行列

混合モデルの利点の1つは、データの分散共分散行列（化合物の対称性、自己回帰、非構造化など）をlmer指定できることです。ただし、Rの関数ではこの行列を簡単に指定できません。lmerデフォルトでどの構造が使用されているのか、それを簡単に指定する方法がない理由を誰もが知っていますか？

18 r mixed-model lme4-nlme covariance-matrix

1

極端なランダムフォレストとランダムフォレストの違いは何ですか？

ERはより効率的な実装ですか（Extreme Gradient Boosting勾配ブースティングに似ています）-実際の観点からの違いは重要ですか？それらを実装するRパッケージがあります。それは、効率の点だけでなく、他のいくつかの分野でも「一般的な」実装（RのRandomForestパッケージ）を克服する新しいアルゴリズムですか？エクストリームランダムフォレストhttp://link.springer.com/article/10.1007%2Fs10994-006-6226-1

18 r machine-learning algorithms random-forest

9

ペアワイズマハラノビス距離

共変量のn×pn×pn \times p行列の観測の各ペア間のRのサンプルマハラノビス距離を計算する必要があります。効率的な解決策が必要です。つまり、n(n−1)/2n(n−1)/2n(n-1)/2距離のみが計算され、C / RCpp / Fortranなどで実装することが望ましいです。母共分散行列ΣΣ\Sigmaは未知であり、サンプル共分散を使用すると仮定しますその場所のマトリックス。 Rのペアワイズマハラノビス距離を計算するための「コンセンサス」方法がないように思われるため、この質問に特に興味distがありcluster::daisyます。つまり、関数にも関数にも実装されていません。このmahalanobis関数は、プログラマーの追加作業なしにペアワイズ距離を計算しません。これはすでにここでRのペアワイズマハラノビス距離を求められましたが、そこでの解は間違っているようです。これは正しいですが、ひどく非効率です（n × nn×nn \times n距離が計算されるため）： set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) これはCで自分でコーディングするのに十分簡単ですが、この基本的なものには既存のソリューションがあるはずです。あるの？不足している他のソリューションがあります：n （n − 1 ）/ 2個の一意の距離のみが必要な場合、n × n距離をHDMD::pairwise.mahalanobis()計算します。有望に思えますが、に依存するパッケージから関数を取得したくないので、コードを実行する他の人の能力が大幅に制限されます。この実装が完全でない限り、自分で作成したいです。この機能の経験はありますか？n × nn×nn \times nn （n − 1 ）/ 2n(n−1)/2n(n-1)/2compositions::MahalanobisDist()rgl

18 r algorithms distance

6

コア外のデータ分析オプション

私はSASを5年近くプロとして使用しています。私はそれをラップトップにインストールし、1,000〜2,000の変数と数十万の観測値を持つデータセットを頻繁に分析する必要があります。私は、同様のサイズのデータセットで分析を実行できるSASの代替を探しています。このような状況で他の人が何を使用するのか興味があります。これは確かに、今日使用されている方法では「ビッグデータ」ではありません。また、私のデータセットはメモリ内に保持するのに十分なほど小さくありません。ハードドライブに保存されたデータにアルゴリズムを適用できるソリューションが必要です。これらは私が役に立たないと調査したものです： R-BigMemoryはメモリ外に格納された行列を作成できますが、要素は同じモードでなければなりません。私は、文字と数値がほぼ50/50に分割されているデータを使用しています。FFパッケージは必要なものに近づきますが、どのプロシージャがFFパッケージと互換性があるのかよくわかりません。サポートはやや限られていると思います。 Pandas-RのPythonの代替案に非常に興奮しました。しかし、それもすべてのデータをメモリに保持する必要があります。 Revolution R-これはかなりの見込みを示しています。自宅のコンピューターにコピーがあり（Kaggleにサインアップした場合は無料）、SASの実行可能な代替手段としてまだテストしていません。SASの代替としてのRevolution Rに関するコメントは大歓迎です。ありがとう更新1 編集して、私が実際に使っている実用的なソリューションを探しています。ほとんどの場合、SASを使用すると、メモリの制約について少し心配することなく、大きなファイルを一気に検索できます。SASが実装されている場合、メモリ管理をユーザーに対して透過的にする方法を見つけました。しかし、私は仕事にSASを使用しなければならなかったので、データがどこにあるのかをあまり考えずに「大きな」データに取り組むことができるFOSSの代替手段が大好きです。特定の時間（メモリ内またはディスク上）。私が遭遇した最も近いものは、RのFFパッケージとPythonの地平線上にあるBlazeと呼ばれるものです。それでも、これらの問題は長年にわたって存在していたので、その間にアナリストは何をしていたのでしょうか？メモリ制限でこれらの同じ問題をどのように処理していますか？提供されているソリューションの大部分は次のようです。 RAMを増やす-これは良い解決策ではありません、imo。RAMを超えてもハードドライブに収まるデータセットを簡単に見つけることができます。さらに、ワークフローは、探索的データ分析中に作成されるすべての構造に対応する必要があります。データのサブセット化-これは調査には適していますが、結果とレポートの最終処理には適していません。最終的には、サブセットで開発されたプロセスはすべて、データセット全体に適用する必要があります（私の場合、とにかく）。データのチャンク-これは、このワークフローを実際に実装している人々からもっと知りたいことです。どうやって？どのツールで？ユーザーに対して透過的な方法で実行できますか？（つまり、ディスク上のデータ構造を作成し、フレームワークが内部のチャンクを処理します）。

18 r sas large-data

2

のcoxphモデルの要約で与えられた「

のcoxphモデルの要約で与えられるR 2値は何ですか？例えば、R2R2R^2 Rsquare= 0.186 (max possible= 0.991 ) 私は愚かにも原稿を値として含めましたが、レビュアーはCoxモデル用に開発された古典的な線形回帰からのR 2統計の類似体に気づいていないと言いました。参照。どんな助けも素晴らしいでしょう！R2R2R^2R2R2R^2

18 r survival r-squared cox-model

1

混合効果モデルの推定値の標準誤差はどのように計算する必要がありますか？

特に、線形混合効果モデルの固定効果の標準誤差をどのように計算する必要がありますか（頻度主義的な意味で）？ Laird and Ware [1982]で提示されているような典型的な推定値（）がSEに与えるとされました推定された分散成分は真の値として扱われるため、サイズが過小評価されます。Var(β^)=(X′VX)−1Var(β^)=(X′VX)−1{\rm Var}(\hat\beta)=(X'VX)^{-1} R のパッケージ内のlmeおよびsummary関数によって生成されるSE nlmeは、上記の分散共分散行列の対角の平方根に単純に等しくないことに気付きました。それらはどのように計算されますか？また、ベイジアンは分散成分の推定に逆ガンマ事前分布を使用するという印象を受けています。これらは（正しい設定で）と同じ結果をもたらしlmeますか？

18 r mixed-model random-effects-model

5

実際に使用されている堅牢な相関法はどれですか？

いくつかのロバストな相関手法のパフォーマンスを異なる分布（スキュー、外れ値など）と比較するシミュレーション研究を行う予定です。で堅牢、私は）歪んだ分布、b）の外れ値、およびc）重い尾に対して堅牢であることの理想的なケースを意味します。ベースラインとしてのピアソン相関に加えて、次のより堅牢な測定を含めることを考えていました。スピアマンのρρ\rho パーセント曲げ相関（Wilcox、1994、[1]）最小量は（共分散行列式、最小楕円体cov.mve/ cov.mcdとcor=TRUEオプション）おそらく、ウィンザー化された相関もちろん、さらに多くのオプションがあります（特に堅牢な回帰手法も含める場合）が、ほとんど使用されている/ほとんど有望なアプローチに限定したいと思います。現在、3つの質問があります（1つだけお気軽に回答してください）。他に含めることができる/含めるべき堅牢な相関法はありますか？あなたの分野で実際に使用されている堅牢な相関技術はどれですか？（心理学の研究について言えば、スピアマンの除いて、技術論文以外ではロバストな相関技術を見たことはありません。ブートストラップはますます一般的になっていますが、他のロバストな統計は多かれ少なかれ存在しません）。ρρ\rho すでに知っている複数の相関手法の体系的な比較はありますか？また、上記のメソッドのリストにコメントしてください。 [1]ウィルコックス、RR（1994）。曲げ相関係数のパーセンテージ。Psychometrika、59、601から616まで。

18 r correlation robust spearman-rho winsorizing

タグ付けされた質問 「r」

タグ付けされた質問「r」