統計とビッグデータ r

3

ロジスティック回帰の95％信頼区間を手動で計算することと、Rでconfint（）関数を使用することに違いがあるのはなぜですか？

皆さん、私は説明できない奇妙なことに気づきました、できますか？要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer＆LemeshowのApplied Logistic Regression（第2版）を行ってきました。第3章には、オッズ比と95％の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

2

Rで四分位を見つける

私はRを学習しながら統計の教科書を読んでいますが、次の例で障害に遭遇しました：見た後、?quantile私は次のようにしてRでこれを再作成しようとしました： > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 104.0 テキストとRの結果が異なることを考えると、Rが1番目と3番目の四分位数の計算で中央値を利用していることを収集しています。質問： 1番目と3番目の四分位数の計算に中央値を含める必要がありますか？より具体的には、教科書またはRにこれは正しいですか？教科書にこれが正しい場合、Rでこれを適切に達成する方法はありますか？前もって感謝します。

33 r quantiles

1

Rでニューラルネットワークモデルをトレーニングおよび検証する方法

ニューラルネットワークを使用したモデリングは初めてですが、観測されたデータによく適合するすべての利用可能なデータポイントでニューラルネットワークを確立することができました。ニューラルネットワークは、nnetパッケージを使用してRで実行されました。 require(nnet) ##33.8 is the highest value mynnet.fit <- nnet(DOC/33.80 ~ ., data = MyData, size = 6, decay = 0.1, maxit = 1000) mynnet.predict <- predict(mynnet.fit)*33.80 mean((mynnet.predict - MyData$DOC)^2) ## mean squared error was 16.5 分析中のデータは次のようになります。DOCはモデル化する必要のある変数です（約17,000の観測値があります）。 Q GW_level Temp t_sum DOC 1 0.045 0.070 12.50 0.2 11.17 2 0.046 …

33 r neural-networks

4

Rの標準エラークラスタリング（手動またはplmのいずれか）

標準エラーの「クラスタリング」とRでの実行方法を理解しようとしています（Stataでは簡単です）。RIでは、どちらplmかを使用するか、独自の関数を作成することに失敗しました。パッケージのdiamondsデータを使用しggplot2ます。いずれかのダミー変数で固定効果を実行できます > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …

33 r panel-data standard-error fixed-effects-model clustered-standard-errors

14

生存分析の参考文献

生存分析について学ぶための良い本/チュートリアルを探しています。Rで生存分析を行う際の参考資料にも興味があります。

33 r survival references

5

モデル選択のAICガイドライン

私の理解では、AICよりもpar約をより重視するということなので、私は通常BICを使用します。ただし、私は今、より包括的なアプローチを使用することを決定し、AICも使用したいと考えています。Raftery（1995）がBICの違いに関する優れたガイドラインを提示したことを知っています：0-2は弱い、2-4は1つのモデルが優れているという肯定的な証拠などです。私は教科書を調べましたが、AICでは奇妙に見えます（差が大きいほど弱く、AICの差が小さいほど1つのモデルが優れているように見えます）。これは、私が教えられたことを知っていることに反します。私の理解では、AICを低くしたいということです。 RafteryのガイドラインがAICにも適用されるかどうか、またはあるモデルと別のモデルの「証拠の強さ」に関するガイドラインをどこで引用できるかを知っていますか？そして、はい、カットオフは素晴らしいものではありません（私はそれらをいらいらさせます）が、それらは異なる種類の証拠を比較するときに役立ちます。

32 r model-selection references aic bic

1

Rでanova（）関数を使用して2つのモデルを比較する

次のドキュメントからanova()：オブジェクトのシーケンスが与えられると、「anova」は指定された順序でモデルを互いにテストします... モデルを互いにテストすることはどういう意味ですか？そして、なぜ順序が重要なのですか？ GenABELチュートリアルの例を次に示します。 > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, test="Chisq") Analysis of Variance Table Model 1: qt ~ as.numeric(snp1) Model 2: qt ~ snp1 Res.Df RSS Df Sum of Sq Pr(>Chi) 1 2372 2320 2 2371 2320 1 0.0489 0.82 anova(modelDom, …

32 r anova

1

なぜRはNAをlm（）係数として返すのですか？

lm()財務四半期の指標（Q1、Q2、Q3、Q4をデフォルトにする）を含むデータセットにモデルを適合させています。を使用してlm(Y~., data = data）NAQ3の係数としてaを取得し、1つの変数が特異点のために除外されたことを警告します。 Q4列を追加する必要がありますか？

32 r regression

6

ほぼ正規分布のスケールを推定するためのロバストなベイジアンモデルはどうなりますか？

scaleの多数の堅牢な推定量が存在します。顕著な例は、標準偏差に関する中央値絶対偏差であるσ= M A D ⋅ 1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826。ベイジアンフレームワークでは、位置をロバストに推定する方法がいくつか存在しますは、おおよそ正規分布（たとえば、外れ値に汚染された正規）のたとえば、データが分布またはラプラス分布で分布していると仮定できます。今私の質問：ほぼ正規分布のスケールをロバストな方法で測定するためのベイジアンモデルは、MADまたは同様のロバストな推定量と同じ意味でロバストでしょうか？ MADの場合と同様に、データの分布が実際に正規分布している場合に、ベイジアンモデルが正規分布のSDに近づくことができれば適切です。編集1：データy私y私y_iがほぼ正規であると仮定した場合の汚染/外れ値に対してロバストなモデルの典型的な例は、次のような分布で使用しています。 y私〜T（M 、S 、ν）y私〜t（m、s、ν）y_i \sim \mathrm{t}(m, s,\nu) ここで、mmmは平均、sssはスケール、νν\nuは自由度です。m 、sm、sm, sおよびνν\nuに適切な事前分布がある場合、mmmは外れ値に対してロバストなの平均の推定yiy私y_i値になります。ただし、sssはνに依存するため、sはのSDの一貫した推定値ではありません。たとえば、νが4.0に固定され、上記のモデルがN o r m（μ =yiy私y_isssνν\nuνν\nu分布の場合、 sは約0.82になります。私が探しているのは、tモデルのようなロバストなモデルですが、平均の代わりに（または平均に加えて）SDです。Norm(μ=0,σ=1)Norm（μ=0、σ=1）\mathrm{Norm}(\mu=0,\sigma=1)sss 編集2：ここで、上記のtモデルがどのように平均に関してより堅牢であるかを示すRとJAGSのコード例を示します。 # generating some contaminated data y <- c( rnorm(100, mean=10, sd=10), rnorm(10, mean=100, sd= 100)) #### A "standard" normal model #### model_string …

32 r bayesian estimation standard-deviation robust

5

Rでワイド形式とロング形式の間でデータを変更するにはどうすればよいですか？[閉まっている]

データはワイド形式またはロング形式で保存できます。使用可能なメソッドは形式によって異なるため、これは非常に重要なことです。reshapeパッケージを使用したり、パッケージを変更しmelt()たりする必要があることは承知していますが、理解できないことがcast()いくつかあります。誰かがこれをどのように行うのか簡単な概要を教えてもらえますか？

32 data-transformation r

4

過剰分散ポアソン結果のマルチレベルモデルをどのように適合させるのですか？

Rを使用して、多レベルGLMMをポアソン分布（過剰分散）に適合させたいと思っています。現時点では、lme4を使用していますが、最近quasipoissonファミリーが削除されたことに気付きました。他の場所で、観測ごとに1レベルのランダム切片を追加することで、二項分布の加法的な過分散をモデル化できることを見てきました。これはポアソン分布にも当てはまりますか？それを行うより良い方法はありますか？推奨する他のパッケージはありますか？

32 r mixed-model poisson-distribution lme4-nlme overdispersion

3

Rはlmの欠損値をどのように処理しますか？

行列Aの各列に対してベクトルBを回帰させたいと思います。欠損データがない場合、これは簡単ですが、行列Aに欠損値が含まれている場合、Aに対する回帰はすべての行のみを含むように制限されます値が存在します（デフォルトのna.omit動作）。これにより、欠落データのない列に対して誤った結果が生成されます。列行列Bを行列Aの個々の列に対して回帰することはできますが、何千回も回帰を行う必要があり、これは非常に遅く、洗練されていません。na.exclude機能は、このような場合のために設計されているように見えるが、私はそれを動作させることはできません。ここで何が間違っていますか？重要な場合、OSXでR 2.13を使用します。 A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) # Missing value in first column; now we have 9 residuals A[1,1] = NA dim(lm(A~B)$residuals) #[1] 9 2 (the expected 9 residuals, given na.omit() is the default) # …

32 r missing-data linear-model

4

生データではなくサンプル統計を入力して、Rで2サンプルのt検定を実行する方法は？

以下の統計があるとしましょう gender mean sd n f 1.666667 0.5773503 3 m 4.500000 0.5773503 4 実際のデータではなく、このような統計を使用して、2サンプルのt検定（ある変数の男性と女性の平均に有意差があるかどうかを確認する）を実行するにはどうすればよいですか？インターネット上でこれを行う方法を見つけることができませんでした。ほとんどのチュートリアルとマニュアルは、実際のデータセットのみを使用したテストを扱っています。

32 r t-test

5

線プロットの色と線の太さの推奨事項

一般に、マップ、ポリゴン、および陰影領域の色覚異常に優しい色の選択について多くのことが書かれています（たとえばhttp://colorbrewer2.orgを参照）。線グラフの線の色と線の太さの推奨事項を見つけることができませんでした。目標は次のとおりです。線が絡み合っていても簡単に区別できます線は色盲の最も一般的な形態を持つ個人によって簡単に区別できます（それほど重要ではない）行はプリンターに優しい（上記のColor Brewerを参照）黒とグレーのスケールラインのコンテキストでは、細い黒のラインと太いグレースケールのラインを使用すると非常に効果的であることがわかりました。さまざまな色、グレースケールの程度、および線の太さを含む特定の推奨事項に感謝します。私はさまざまな線種（実線/点線/破線）が好きではありませんが、その意見から話をすることができます。 1つのグラフで最大10個の曲線を推奨することが望ましいでしょう。Color Brewerと同様に、m行の推奨がn行の推奨のサブセットではなく、n> mであり、mを1から10に変更できるようにすることをお勧めします。注：質問の線の色付け部分のみに対処するガイダンスも歓迎します。一部の開業医は、異なるクラスをより明確に区別するために、数センチメートルごとにシンボルを線に追加します。クラスを区別するために複数の機能（色+シンボルタイプなど）を必要とすることはあまり好きではありません。また、異なる情報を示すためにシンボルを予約することもあります。他のガイダンスがない場合、colorbrewer2.orgのポリゴンに推奨されているのと同じ色を線に使用し、線の幅を2.5倍するために、より明るく/濃い色で描画された線を提案します。これを設定するR関数を作成しています。醸造者の色に加えて、最初の2色を黒一色（薄い）とグレースケール（太い）にすると思いますが、薄い黒一色と薄い青であると主張できます。 R関数はhttp://biostat.mc.vanderbilt.edu/wiki/pub/Main/RConfiguration/Rprofileにあります。関数を定義したら、次のようにcolBrew入力して設定の動作を確認できます showcolBrew(number of line types) # add grayscale=TRUE to use only grayscale グラフィックパラメータを新しい設定に設定する機能latticeSetも提供されlatticeます。アルゴリズムの改善を歓迎します。調べるには：R dichromatパッケージ：http : //cran.r-project.org/web/packages/dichromat/

31 r data-visualization

1

GBMパラメータの有用なガイドラインは何ですか？

GBMを使用してパラメータ（相互作用の深さ、ミンチャイルド、サンプルレートなど）をテストするための有用なガイドラインは何ですか？人口が200,000の70-100の機能があり、相互作用の深さ3と4をテストするつもりだとしましょう。明らかに、パラメーターのどの組み合わせが最適なサンプル外であるかを確認するためにテストを行う必要があります。このテスト設計にアプローチする方法に関する提案はありますか？

31 r hypothesis-testing cart boosting

タグ付けされた質問 「r」

タグ付けされた質問「r」