統計とビッグデータ r

9

私は最近結核クリニックで働き始めました。現在治療中の結核症例の数、投与された検査の数などについて定期的に話し合います。何かが異常であるかどうかを推測するだけではないように、これらのカウントのモデリングを開始したいと思います。残念ながら、私は時系列のトレーニングをほとんど受けていませんでした。私の露出のほとんどは、非常に連続的なデータ（株価）または非常に多くのカウント（インフルエンザ）のモデルを扱ってきました。ただし、月ごとに0〜18のケース（平均6.68、中央値7、変数12.3）を扱い、次のように配布されます。 [時間の霧に負けたイメージ] [グルーに食われるイメージ] このようなモデルに対処する記事をいくつか見つけましたが、これらのアプローチを実装するために使用できるアプローチとRパッケージの両方について、あなたからの提案を聞いていただければ幸いです。編集： mbqの答えは、私がここで何を求めているかについて、より慎重に考えることを余儀なくさせました。私は毎月のカウントに夢中になりすぎて、質問の実際の焦点を失いました。私が知りたいのは、たとえば2008年以降の（かなり目に見える）減少は、症例の総数の減少傾向を反映していますか？2001年から2007年までの毎月の症例数は安定したプロセスを反映しているように思えます。多少の季節性があるかもしれませんが、全体的に安定しています。2008年から現在まで、そのプロセスは変化しているように見えます。ランダム性と季節性により毎月のカウントが上下する可能性がある場合でも、ケースの総数は減少しています。プロセスに実際の変更があるかどうかをテストするにはどうすればよいですか？そして、衰退を特定できれば、

23 r time-series poisson-distribution count-data epidemiology

2

自己相関時間の定義（有効なサンプルサイズの場合）

文献には、弱定常時系列の自己相関時間に関する2つの定義があります。 τa= 1 + 2 ∑k = 1∞ρk対τb= 1 + 2 ∑k = 1∞| ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| ここで、はラグでの自己相関です。 kρk= Cov [ Xt、Xt + h]ヴァー[ Xt]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}kkk 自己相関時間の1つの用途は、「有効なサンプルサイズ」を見つけることです。時系列の観測値があり、その自己相関時間がわかっている場合、τnnnττ\tau neff= nτneff=nτ n_\text{eff} = \frac{n}{\tau} 平均を求めるために、相関するサンプルの代わりに独立したサンプル。データからを推定することは簡単ではありませんが、その方法はいくつかあります（Thompson 2010を参照）。τnnnττ\tau 絶対値なしの定義は、文献ではより一般的です。しかし、可能性を認めています。Rと「coda」パッケージの使用：τ A < 1τaτa\tau_aτa< 1τa<1\tau_a<1 require(coda) …

23 r time-series correlation

1

離散データを使用したコルモゴロフ-スミルノフ：Rでのdgof :: ks.testの適切な使用とは？

初心者の質問： 2つの個別のデータセットが同じ分布に由来するかどうかをテストします。コルモゴロフ・スミルノフのテストが提案されました。 Conover（Practical Nonparametric Statistics、3d）は、コルモゴロフ-スミルノフ検定をこの目的に使用できると言っているようですが、その動作は離散分布で「保守的」であり、ここで何を意味するのかわかりません。別の質問に対する DavidRのコメントは、「... KS統計に基づいてレベルα検定を作成することはできますが、シミュレーションなどによって重要な値を取得する他の方法を見つける必要があります。」 dgof Rパッケージ（article、cran）のks.test（）のバージョンは、statsパッケージのks.test（）のデフォルトバージョンにはない機能を追加します。とりわけ、dgof :: ks.testには次のパラメーターが含まれています。 simulate.p.value：離散適合度検定のみのために、モンテカルロシミュレーションによってp値を計算するかどうかを示す論理値。 Simulate.p.value = Tの目的は、DavidRが提案することを達成することですか？たとえそうであっても、2サンプルテストにdgof :: ks.testを本当に使用できるかどうかはわかりません。連続分布に対して2サンプルのテストのみを提供しているように見えます。 yが数値の場合、xとyが同じ連続分布から引き出されたという帰無仮説の2標本検定が実行されます。または、yは連続（累積）分布関数（またはそのような関数）を指定する文字列、または離散分布を与えるecdf関数（またはクラスstepfunのオブジェクト）にすることができます。これらの場合、1サンプルテストは、xを生成した分布関数が分布y ...であるというヌルから実行されます。（背景の詳細：厳密に言えば、基礎となる分布は連続的ですが、データは少数のポイントに非常に近い傾向があります。各ポイントはシミュレーションの結果であり、-1から10までの実数の平均です。 1.シミュレーションの終わりまでに、これらの数値はほぼ常に.9または-.9に非常に近いため、平均値はいくつかの値に集中し、それらを離散として扱います。シミュレーションは複雑で、データが既知の分布に従うと考える理由。）助言？

23 r goodness-of-fit discrete-data kolmogorov-smirnov

4

PCAの欠損値の代入

prcomp()RでPCA（主成分分析）を実行するためにこの関数を使用しました。ただし、その関数にはバグがあり、na.actionパラメーターが機能しません。私はstackoverflowの助けを求めました。そこで2人のユーザーが、NA値を処理する2つの異なる方法を提供しました。ただし、両方のソリューションの問題は、NA値がある場合、その行が削除され、PCA分析で考慮されないことです。私の実際のデータセットは100 x 100のマトリックスであり、単一のNA値が含まれているという理由だけで行全体を失いたくありません。次の例はprcomp()、NA値が含まれているため、関数が行5の主成分を返さないことを示しています。 d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] <- NA # $ result <- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …

23 r pca missing-data data-imputation

1

Rの自然な3次スプラインにノットを設定する

多くの相関する特徴を持つデータがあり、LDAを実行する前に、滑らかな基底関数で特徴を減らすことから始めたいと思います。関数でsplinesパッケージ内の自然な3次スプラインを使用しようとしていnsます。ノットを割り当てるにはどうすればよいですか？基本的なRコードは次のとおりです。 library(splines) lda.pred <- lda(y ~ ns(x, knots=5)) しかし、私はどのようにノットを選択するのか分からないns。

23 r splines

7

3パーセンタイルに基づく分布の推定

パーセンタイルが3つしかわからない場合、どの方法を使用して分布を推測できますか？たとえば、特定のデータセットでは、5パーセンタイルが8,135、50パーセンタイルが11,259、95パーセンタイルが23,611であることを知っています。他の数値からそのパーセンタイルに移行できるようにしたいです。それは私のデータではなく、それらはすべて私が持っている統計です。分布が正規でないことは明らかです。私が持っている他の唯一の情報は、このデータがさまざまな学区の政府の一人当たりの資金を表しているということです。この問題には明確な解決策がないことを知るには統計については十分知っていますが、良い推測を見つける方法を知るには十分ではありません。対数正規分布は適切でしょうか？回帰を実行するためにどのツールを使用できますか（または自分で行う必要がありますか）？

23 r regression quantiles

2

最小二乗回帰の段階的な線形代数計算

Rの線形混合モデルに関する質問の前編として、および初心者/中級の統計愛好家の参考として共有するために、独立した「Q＆Aスタイル」として、単純な線形回帰の係数と予測値。この例は、Rの組み込みデータセットをmtcars使用しており、独立変数として機能する車両が消費するガロンあたりのマイル数として設定され、車の重量（連続変数）に対して回帰し、シリンダー数を相互作用のない3つのレベル（4、6、または8）の係数。編集：あなたがこの質問に興味があるなら、あなたは間違いなくCVの外のマシュー・ドゥルリーによるこの投稿で詳細で満足のいく答えを見つけるでしょう。

22 r regression linear-model lm

3

randomForestにランダム効果（または反復測定）を含めるにはどうすればよいですか

質問が意味を成すかどうかはわかりませんが、ランダムな効果を持つランダムフォレストを提案した論文のタイトルを見たと思います。これはRで可能ですか？

22 r random-forest random-effects-model

3

データが指数分布に適合するかどうかを確認するにはどうすればよいですか？

給与などのデータがRの連続指数分布からのものであるかどうかを確認するにはどうすればよいですか？これが私のサンプルのヒストグラムです。。どんな助けも大歓迎です！

22 r distributions goodness-of-fit exponential

2

Rのブートストラップは実際にどのように機能しますか？

私はRのブートパッケージを調査してきましたが、その使用方法に関する多くの優れた入門書を見つけましたが、「舞台裏」で何が起こっているかを正確に説明するものはまだ見つけていません。たとえば、この例では、ガイドは標準の回帰係数をブートストラップ回帰の開始点として使用する方法を示していますが、ブートストラップ回帰係数を導出するためにブートストラップ手順が実際に何をしているのかについては説明しません。何らかの反復プロセスが行われているように見えますが、何が起こっているのかを正確に把握できないようです。

22 r regression bootstrap regression-coefficients

2

形式

Webディスカッションフォーラムの統計データセットがあります。私は、トピックが持つことが期待される返信の数の分布を見ています。特に、トピックの返信数のリストを含むデータセットを作成し、その数の返信を含むトピックの数を作成しました。 "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 データセットを対数プロットでプロットすると、基本的に直線が得られます：（これはZipfianディストリビューションです）。ウィキペディアによると、対数プロットの直線は形式の単項式でモデル化できる関数を意味します。そして実際、私はそのような機能を目撃しました：y= a xky=aバツky = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") 私の眼球は明らかにRほど正確ではありません。それでは、どうやってRをこのモデルのパラメーターにもっと正確に合わせることができますか？多項式回帰を試みましたが、Rが指数をパラメーターとして適合させようとは思わない-私が望むモデルの適切な名前は何ですか？編集：みんなの回答をありがとう。示唆されたように、このレシピを使用して、入力データのログに対して線形モデルを適合させました。 data <- read.csv(file="result.txt") # Avoid taking the log of zero: data$num_replies = data$num_replies + 1 plot(data$num_replies, data$count, log="xy", cex=0.8) # Fit just the first …

22 r regression nonlinear-regression

2

制限付きボルツマンマシンと多層ニューラルネットワーク

私が直面している分類問題について、ニューラルネットワークで実験したいと思っていました。RBMについての論文に出くわしました。しかし、私が理解できることから、それらは多層ニューラルネットワークを持つことと違いはありません。これは正確ですか？さらに、私はRで働いていますが、RBMの缶詰パッケージは見ていません。私は基本的にスタックされたRBMであるディープラーニングネットワークについて話している文献に出会いましたが、Rでそれらを実装する努力の価値があるかどうかはわかりません。ありがとう

22 r machine-learning classification neural-networks

5

RのrandomForestは32レベル以上を処理できません。回避策は何ですか？

RのrandomForestパッケージは、32レベルを超える係数を処理できません。32レベルを超えると、エラーメッセージが表示されます。 32を超えるカテゴリを持つカテゴリカル予測子を処理できません。しかし、私が持っているデータにはいくつかの要因があります。それらの一部には1000以上のレベルがあり、一部には100以上があります。52の米国の「状態」もあります。だから、ここに私の質問があります。なぜそのような制限があるのですか？randomForestは、単純な場合でも実行を拒否します。 > d <- data.frame(x=factor(1:50), y=1:50) > randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with more than 32 categories. 単にメモリ制限が原因である場合、scikit学習のrandomForeestRegressorは32を超えるレベルでどのように実行できますか？この問題を処理する最良の方法は何ですか？X1、X2、...、X50の独立変数があり、Yが従属変数であるとします。そして、X1、X2、X3には32を超えるレベルがあるとします。私は何をすべきか？私が考えているのは、距離がYの差として定義されるX1、X2、X3のそれぞれに対してクラスタリングアルゴリズムを実行することです。3つの問題のある変数があるので、3つのクラスタリングを実行します。そして、各クラスタリングで、同様のレベルを見つけることができればと思います。そして、それらをマージします。これはどのように聞こえますか？

22 r random-forest many-categories

3

不等分散の回帰モデリング

残差分散が説明変数に明らかに依存している線形モデル（lm）を近似したいと思います。私がこれを行う方法は、ガンマファミリでglmを使用して分散をモデル化し、その逆関数をlm関数の重みに入れることです（例：http : //nitro.biosci.arizona.edu/r/chapter31 .pdf）私は考えていた：これが唯一のテクニックですか？関連する他のアプローチは何ですか？このタイプのモデリングに関連するRパッケージ/機能は何ですか？（glm、lm以外）

22 r generalized-linear-model linear-model heteroscedasticity gamlss

4

Rに100個の変数がある線形モデル式を書く方法

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Rに100個のパラメータを持つモデルで線形回帰を作成するRの簡単な方法はありますか？10個の値を持つベクトルYと10個の列と100個の行を持つデータフレームXがあるとしましょうY = X[[1]] + X[[2]] + ... + X[[100]]。R構文で似たようなものを書くにはどうすればよいですか？

22 r

タグ付けされた質問 「r」

タグ付けされた質問「r」