統計とビッグデータ r

3

私はRにかなり慣れていません。時系列分析を読み込もうとして、すでに終了しています ShumwayとStofferの時系列分析とそのアプリケーション第3版、 Hyndmanの優れた予測：原則と実践 Avril Coghlan による時系列分析でのRの使用 A. Ian McLeod et al Rによる時系列分析 Marcel Dettling博士の適用時系列分析編集：これをどのように処理するかはわかりませんが、相互検証の外に役立つリソースを見つけました。誰かがこの質問に遭遇した場合に備えて、ここに含めたいと思いました。薬物使用研究における中断された時系列研究のセグメント化回帰分析 7年間毎日測定された消費アイテム数（カウントデータ）の単変量時系列があります。時系列のほぼ中央で調査母集団に介入が適用されました。この介入は、即時の効果を生み出すとは期待されておらず、効果の発現のタイミングは本質的に知られていません。 Hyndmanのforecastパッケージを使用して、ARIMAモデルをを使用して介入前のデータに適合させましたauto.arima()。しかし、このフィットを使用して、傾向に統計的に有意な変化があったかどうかを答え、その量を定量化する方法がわかりません。 # for simplification I will aggregate to monthly counts # I can later generalize any teachings the community supplies count <- c(2464, 2683, 2426, 2258, 1950, 1548, 1108, 991, 1616, 1809, 1688, …

12 r time-series

2

複数の予測子を使用したロジスティック回帰モデルの解釈

私は、多変量ロジスティック回帰を実行してY、特定の入場期間内に特別養護老人ホームでの従属変数が死亡するようにし、次の結果を得ました（変数が開始する変数がA連続値であり、開始する変数Bがカテゴリカルである場合）。 Call: glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial) Deviance Residuals: Min 1Q Median 3Q Max -1.0728 -0.2167 -0.1588 -0.1193 3.7788 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 20.048631 6.036637 3.321 0.000896 *** A1 0.051167 …

12 r regression logistic

1

glm（）関数の「開始値」とは何ですか？

パラメータはどのようなものがありstart、etastart、mustartでGLM（）関数？私はドキュメントとインターネットを調べてきましたが、これが何を意味するのか明確な説明は見つかりませんでした。これはチェーンのベイジアン「初期値」に似ていますが、Rのglm（）関数は頻出統計なので、これは関連しているとは思えません...

12 r generalized-linear-model starting-values

1

統計モデルの近似値と予測値を見つける

次のデータがあり、回帰モデルを実行しているとします。 df=data.frame(income=c(5,3,47,8,6,5), won=c(0,0,1,1,1,0), age=c(18,18,23,50,19,39), home=c(0,0,1,0,0,1)) 一方では、収入を予測するために線形モデルを実行します。 md1 = lm(income ~ age + home + home, data=df) 次に、ロジットモデルを実行して、ウォン変数を予測します。 md2 = glm(factor(won) ~ age + home, data=df, family=binomial(link="logit")) どちらのモデルでも、予測子の応答カテゴリ、近似値、モデルの予測値を含むテーブルまたはデータフレームをどのように生成できるのでしょうか。したがって、線形モデルの場合、次のようになります。 age fitted_income predicted_income 18 3 5 23 3 3 50 4 2 19 5 5 39 6 4 home fitted_income predicted_income 0 …

12 r

4

Rでggplot2を使用してファンネルプロットを描画する方法

タイトルとして、私はこのようなものを描く必要があります： ggplot、またはggplotが機能しない場合は他のパッケージを使用して、このようなものを描画できますか？

12 r data-visualization ggplot2 funnel-plot

4

ブートストラップ、モンテカルロ

宿題の一部として次の質問が設定されました。データの1変量サンプルの平均で95％の信頼区間を取得するためのブートストラップのパフォーマンスを調べるシミュレーションスタディを設計および実装します。RまたはSASで実装できます。確認したいパフォーマンスの側面は、信頼区間カバレッジ（つまり、信頼区間に真の平均が含まれる割合）とモンテカルロ変動（つまり、シミュレーション間で信頼限界の上限と下限がどれだけ変化するか）です。誰かがこれのモンテカルロ変動の側面に取り組む方法を知っていますか？アルゴリズムなど何も考えられないようです。それはモンテカルロ統合と関係がありますか？ありがとう！

12 r self-study bootstrap monte-carlo

5

機械学習の問題のプロトタイプを作成するには、どのプログラミング言語をお勧めしますか？

現在Octaveで作業していますが、ドキュメントが不十分なため、進捗は非常に遅くなっています。どの言語が学習および使用が簡単で、機械学習の問題を解決するために十分に文書化されていますか？私は小さなデータセット（数千の例）のプロトタイプを探しているので、速度は重要ではありません。編集：私は推奨エンジンを開発しています。したがって、私は正則化線形回帰、ニューラルネット、SVN、または協調フィルタリングの使用に興味があります。

12 r machine-learning matlab software python

2

二次計画法によるサポートベクターマシンの最適化

線形サポートベクターマシンのトレーニングプロセスを理解しようとしています。SMVのプロパティを使用すると、2次プログラミングソルバーを使用するよりもはるかに速く最適化できることを理解していますが、学習目的でこれがどのように機能するかを確認したいと思います。トレーニングデータ set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5))) df X1 X2 Y 1 -1.5454484 0.50127 1 2 -0.5283932 -0.80316 1 3 -1.0867588 0.63644 1 4 -0.0001115 1.14290 1 5 0.3889538 0.06119 1 6 5.5326313 3.68034 -1 7 3.1624283 2.71982 -1 8 5.6505985 3.18633 -1 9 4.3757546 …

12 r svm optimization

1

RのAIC（）とextractAIC（）の違いは何ですか？

どちらのRのドキュメントもあまり明らかにしていません。このリンクから得られることは、どちらを使用しても問題ないということです。私が得られないのは、なぜ彼らが等しくないのかです。事実：Rのステップワイズ回帰関数はをstep()使用しextractAIC()ます。興味深いことに、Rの 'mtcars'データセットでlm()モデルとglm()'null'モデル（切片のみ）を実行すると、AICとで異なる結果が得られextractAIC()ます。 > null.glm = glm(mtcars$mpg~1) > null.lm = lm(mtcars$mpg~1) > AIC(null.glm) [1] 208.7555 > AIC(null.lm) [1] 208.7555 > extractAIC(null.glm) [1] 1.0000 208.7555 > extractAIC(null.lm) [1] 1.0000 115.9434 上記の両方のモデルが同じであり、両方のモデルでAIC()同じ結果が得られることを考えると、奇妙です。誰も問題にいくつかの光を投げることができますか？

11 r regression aic stepwise-regression

2

Rの多重線形回帰のフィッティング：自己相関残差

私はこのような方程式でRの多重線形回帰を推定しようとしています： regr <- lm(rate ~ constant + askings + questions + 0) 質問と質問は、で構成された四半期ごとのデータ時系列askings <- ts(...)です。問題は、自己相関残差を得たことです。gls関数を使用して回帰を適合させることができることは知っていますが、gls関数に実装する必要がある正しいARまたはARMAエラー構造を識別する方法はわかりません。私は今、再び推定しようとします、 gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) しかし、残念ながら、pとqを特定するRの専門家でも統計の専門家でもありません。誰かが私に有用なヒントを与えてくれたら嬉しいです。事前にどうもありがとうございました！ジョー

11 r time-series multiple-regression autocorrelation residuals

1

RandomForestとクラスの重み

一文の質問：誰かがランダムなフォレストの適切なクラスの重みを決定する方法を知っていますか？説明：私は不均衡なデータセットで遊んでいます。このRパッケージを使用して、randomForestポジティブな例がほとんどなく、ネガティブな例が多い、非常にゆがんだデータセットでモデルをトレーニングします。他にも方法はありますが、最終的にはそれらを利用しますが、技術的な理由から、ランダムフォレストの構築は中間段階です。そこで、パラメータをいじってみましたclasswt。半径2のディスクに5000の負の例の非常に人工的なデータセットを設定し、半径1のディスクに100の正の例をサンプリングします。 1）クラスの重み付けを行わないと、モデルは「退化」しFALSEます。つまり、どこでも予測されます。 2）公平なクラスの重み付けを使用すると、中央に「緑色の点」が表示されます。つまり、TRUE負の例があるように、半径1のディスクを予測します。データは次のようになります。これは、重み付けせずに何が起こるかである：（呼び出しは次のとおりです。randomForest(x = train[, .(x,y)],y = as.factor(train$z),ntree = 50)）チェックのために、関係が再び1：1になるように、負のクラスをダウンサンプリングしてデータセットを激しくバランス調整したときに何が起こるかを試しました。これは私に期待される結果を与えます：ただし、クラスの重みが「FALSE」= 1、「TRUE」= 50のモデルを計算すると（これは、正の50倍のネガティブがあるため、これは適切な重みです）、次のようになります。重みを 'FALSE' = 0.05や 'TRUE' = 500000などの奇妙な値に設定した場合のみ、意味のある結果が得られます。そして、これは非常に不安定です。つまり、「FALSE」の重みを0.01に変更すると、モデルは再び縮退します（つまり、TRUEどこでも予測されます）。質問：ランダムフォレストの適切なクラスの重みを決定する方法を誰かが知っていますか？ Rコード： library(plot3D) library(data.table) library(randomForest) set.seed(1234) amountPos = 100 amountNeg = 5000 # positives r = runif(amountPos, 0, 1) phi = runif(amountPos, 0, 2*pi) x …

11 r random-forest

1

ベイジアンスパイクおよびスラブとペナルティ付きメソッド

私はBSTS Rパッケージに関するSteven Scottのスライドを読んでいます（ここで見つけることができます：スライド）。ある時点で、構造的時系列モデルに多くのリグレッサを含めることについて話すとき、彼は回帰係数のスパイクとスラブの事前分布を導入し、それらはペナルティ付き手法と比較して優れていると述べています。スコット氏は、100個の予測子を含むデータセットの例を参照します。ペナルティ付きメソッドは、どの変数が含まれる/除外されるかについて単一の決定を行います。つまり、予測子の1つのサブセット、つまり可能なものの中から1つのモデルを決定します。210021002^{100} "なげなわ（および関連する）事前分布はスパースではなく、モードでスパース性を誘導しますが、事後分布では誘導しません" この時点で、彼はスパイクとスラブの事前分布を紹介します。私は直感を得たと思いますが、それについて確認したいと思います。それらは、基本的にブルートフォースアプローチを使用して、含めることができるリグレッサの各サブセットをテストするという意味で優れていますか？欠点はそうすることで計算時間ですか？「なげなわ（および関連）...事後分布ではない」と言うとき、彼は何を意味していると思いますか？

11 r bayesian feature-selection penalized bsts

1

Mclustモデルの選択

Rパッケージmclustは、BICをクラスターモデル選択の基準として使用します。私の理解では、BICが最も低いモデルを他のモデルよりも選択する必要があります（BICのみに関心がある場合のみ）。ただし、BIC値がすべて負の場合、Mclust関数はデフォルトで最大のBIC値を持つモデルになります。さまざまなトライアルから私の全体的な理解は、mclust「最良の」モデルをを持つモデルとして識別することです。max{BICi}max{BICi}max\{BIC_i\} 著者がこの決定をした理由を理解しようとしています。CRANサイトで説明されています：https : //cran.r-project.org/web/packages/mclust/vignettes/mclust.html また、mclustパッケージの作成者は、5ページのモデルベースの分類方法：ケモメトリックスでのmclustソフトウェアの使用を参照してください。「最良の」モデルは、適合モデルの中で最高のBICを持つモデルと見なされます。誰でもこの問題に光を当てることができますか？低いBICが常に優れている場合、著者はなぜ最小のBICを持つモデルではなく、最小の絶対BICを持つモデルを選択するのですか？可能であれば、参照を提供します。

11 r clustering gaussian-mixture bic model-based-clustering

3

逆変換ではなく、アーレンスとディーター（1972）の方法を使用する指数ランダムジェネレーターの利点は何ですか？

私の質問は、Rの組み込みの指数乱数ジェネレーターである関数に触発されましたrexp()。指数分布の乱数を生成しようとする場合、多くの教科書では、このWikipediaページで概説されている逆変換方法を推奨しています。このタスクを実行する他の方法があることを知っています。特に、Rのソースコードは、Ahrens＆Dieter（1972）の論文で概説されているアルゴリズムを使用しています。アーレンスディーター（AD）法が正しいことを確信しました。それでも、逆変換（IT）メソッドと比較して、これらのメソッドを使用する利点はわかりません。ADは、ITよりも実装が複雑なだけではありません。スピードメリットもないようです。以下に、両方の方法のベンチマークを行うためのRコードと、それに続く結果を示します。 invTrans <- function(n) -log(runif(n)) print("For the inverse transform:") print(system.time(invTrans(1e8))) print("For the Ahrens-Dieter algorithm:") print(system.time(rexp(1e8))) 結果： [1] "For the inverse transform:" user system elapsed 4.227 0.266 4.597 [1] "For the Ahrens-Dieter algorithm:" user system elapsed 4.919 0.265 5.213 2つの方法のコードを比較すると、ADは少なくとも2つの均一な乱数（C関数を使用unif_rand()）を描画して、1つの指数乱数を取得します。ITは1つの均一な乱数のみを必要とします。対数を取るのがより均一な乱数を生成するよりも遅いかもしれないと想定していたため、おそらくRコアチームはITの実装に反対しました。対数を取る速度はマシンに依存する可能性があることを理解していますが、少なくとも私にとってはその逆です。おそらく、ITの数値精度に関連して、0の対数の特異性に関係する問題があるのでしょうか。しかし、その後、R ソースコードsexp.cは、Cコードの次の部分が一様乱数uから先頭ビットを削除するため、ADの実装も数値精度を失うことを示しています。 double u = unif_rand(); while(u <= 0. || u …

11 r simulation random-generation exponential inverse-cdf

1

TBATSモデルの結果とモデル診断を解釈する方法

マルチシーズンの時系列である、30分ごとの需要データを取得しました。私はRのパッケージで使用tbatsしforecast、次のような結果を得ました： TBATS(1, {5,4}, 0.838, {<48,6>, <336,6>, <17520,5>}) それは、シリーズが必ずしもBox-Cox変換を使用する必要がないことを意味し、エラー項はARMA（5、4）であり、季節性を説明するために6、6、および5項が使用されますか？そのダンピングされたパラメーター0.8383は何を意味しますか？それは変換用でもありますか？以下はモデルの分解プロットです：私はモデルについて何をしlevel、slope伝えるのか疑問に思っています。「スロープ」はトレンドを伝えますが、どうlevelですか？以下のための明確なプロットを取得する方法session 1とsession 2、それぞれの日常や季節毎週です。またtbats、RMSE値を除いて、モデルを評価するためにモデル診断を行う方法を知る必要があります。通常の方法は、エラーがホワイトノイズかどうかをチェックすることですが、ここではエラーはARMAシリーズであると想定されています。エラーの「acf」と「pacf」をプロットしましたが、ARMA（5,4）のようには見えません。私のモデルが良くないということですか？ acf(resid(model1),lag.max = 1000) pacf(resid(model1),lag.max=1000) 最後の質問RMSEは、適合値と真の値を使用して計算されます。fc1.week$meanモデルを評価するために予測値と真の値を使用するとどうなりますRMSEか？または、これには別の名前がありますか？ fc1.week <-forecast(model1,h=48*7) fc1.week.demand<-fc1.week$mean

11 r time-series diagnostic multiple-seasonalities tbats

タグ付けされた質問 「r」

タグ付けされた質問「r」