統計とビッグデータ r

1

このページは新しく、統計とRはかなり新しいです。私は大学で、雨と川の水位の相関を見つけることを目的としたプロジェクトに取り組んでいます。相関が証明されたら、それを予測/予測したいと思います。データには、以下を含む特定の河川の数年（5分ごとに取得）のデータセットがあります。降雨量（ミリメートル）立方メートル/秒の河川流量この川には雪がありませんので、モデルは雨と時間に基づいています。時々気温が氷点下になることがありますが、この状況は私のプロジェクトの範囲外であるため、これらの期間をデータから除外することを考えています。例ここでは、数時間後の雨と水の上昇からのサンプルデータのプロットがいくつかあります。赤い線は川の流れです。オレンジは雨です。川で水が上がる前にいつも雨が降るのを見ることができます。時系列の終わりに再び雨が降り始めますが、後で川の流れに影響を与えます。相関関係があります。Rでccfを使用して相関関係を証明するためにRで行ったことを次に示します。相互相関先行変数遅れこれは、2番目の例（1つの降雨期間）に使用される私のRラインです。 ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain") 私の解釈は：雨が降る（最初に起こる）遅れでピークに達する重要な相関関係があり（正確な数を確認できます。その部分は知っています）。≈ 450≈450\approx 450 相関が川の流れに影響を与える時間を見つける方法がわかりません。名前は「保持」だと思います。私が見るものは、川が雨の後に水を失うとき、最初のグラフと同じ形をしたグラフです。それに基づいて、保持がからピークでまで続くと言えない場合（返されたデータフレームで作成されたオブジェクトでこれを確認し、水位が値に戻ったときを確認できます）「雨の前」のことです正しいですか？保持を見つけるより良い方法はありますか？≈ 450≈450\approx 450≈ 800≈800\approx 800ccf 私は正しいですか？時系列について。この時系列には周期性や季節性はありません。雨はいつでも降り、影響を及ぼします。夏には減りますが、それでも起こります。一年中雨が多い地域です。モデルと予測。雨が降った後に川がどれだけの量を増やすかを予測する予測を行うことができるようにモデルを作成する方法がわかりません。私はいくつか試してみましたがarima、auto arimaあまり成功していません。Arima、varsまたは他の異なる多変量モデルを使用する必要がありますか？例へのリンクは大いに役立ちます。この予測を作成する最良の方法を知っている場合は、どのモデルを使用すればよいか教えてください。他にもいくつか検討していることがありますが、簡単にするためにこの説明から除外しています。必要に応じてデータを共有できます。

16 r time-series forecasting cross-correlation lags

1

glmerの収束警告の意味

R glmerのlme4パッケージの関数を使用しており、bobyqaオプティマイザーを使用しています（つまり、私の場合のデフォルト）。私は警告を受けており、それが何を意味するのか興味があります。 Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust region step failed to reduce q 「信頼領域のステップでqを減らすことができませんでした」を検索しました。「説明のためにパウエルに相談してください」と言ったminqaパッケージで情報を見つけました。私はやりました（もし望むなら、あなたもできます！以下への参照とリンクを見てください）が、理解できません。実際、qを減らすことに関して何も見つけることができませんでした。 MJDパウエル（2007）「派生物のない制約のない最小化のためのNEWUOAの開発」、ケンブリッジ大学、応用数学および理論物理学、数値解析グループ、レポートNA2007 / 05、http： //www.damtp.cam.ac.uk/ ユーザー/ NA / NA_papers / NA2007_05.pdf。 MJDパウエル（2009）、「デリバティブを使用しないバインド制約付き最適化のためのBOBYQAアルゴリズム」、レポート番号DAMTP 2009 / NA06、英国ケンブリッジ大学数学科学センター http://www.damtp.cam.ac.uk/user/na/NA_papers/NA2009_06.pdf。 Psオプティマイザーを変更できることはわかっているので、警告やエラーなしで出力を取得できるかどうかを確認します。Ben Bolkerのコメント/回答に従って、可能な場合は勾配とヘッセ行列もチェックします。私はfrom glmer内で使用しています。ベンの答えが追加の調整なしで機能するかどうかはわかりませんが、コンピューターがそれを行っていることを完了したら、それで作業します、とにかく、私は脱線します。dredgeMuMIn 更新以下のBolker博士のコメントに従って、私はFORTRANコードを調べ始めました（これは、ダウンロードするのではなく、見ることに興味がある人のためのコードです）コードのbobyqb.f部分に「430」が表示されます。「430」または「Qを減らす」を検索して、関連するコードを見つけます。これはFORTRANコードとの最初の出会いですが、次の条件が満たされた場合に警告が生成されるとコードに書かれていると思います：NTRITS> …

16 r optimization lme4-nlme convergence glmm

3

不均衡なデータのROC曲線の下の領域またはPR曲線の下の領域？

使用するパフォーマンス測定値、ROC曲線下の領域（FPRの関数としてのTPR）または精度-リコール曲線下の領域（リコールの関数としての精度）について疑問があります。私のデータは不均衡です。つまり、負のインスタンスの数は正のインスタンスよりもはるかに多くなっています。 wekaの出力予測を使用しています。サンプルは次のとおりです。 inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 そして、私はpROCおよびROCR rライブラリーを使用しています。

16 r machine-learning roc precision-recall auc

1

lmer（）モデルの変量効果の分散を理解する

lmer()モデルの出力を理解できません。これは、さまざまな状態インターセプト/状態ランダム効果を持つ結果変数（サポート）の単純なモデルです。 mlm1 <- lmer(Support ~ (1 | State)) 結果は次のsummary(mlm1)とおりです。 Linear mixed model fit by REML Formula: Support ~ (1 | State) AIC BIC logLik deviance REMLdev 12088 12107 -6041 12076 12082 Random effects: Groups Name Variance Std.Dev. State (Intercept) 0.0063695 0.079809 Residual 1.1114756 1.054265 Number of obs: 4097, groups: State, …

16 r mixed-model random-effects-model lme4-nlme

2

マップでの空間的および時間的相関の表示

私は全米の気象観測所のネットワークのデータを持っています。これにより、日付、緯度、経度、測定値を含むデータフレームが表示されます。データは1日に1回収集され、地域規模の天候によって駆動されると仮定します（いいえ、その議論に入るつもりはありません）。同時に測定された値が時間と空間にわたってどのように相関するかをグラフィカルに示したいと思います。私の目標は、調査されている価値の地域的な均質性（またはその欠如）を示すことです。データセットまず、マサチューセッツ州とメイン州の地域にあるステーションのグループに参加しました。NOAAのFTPサイトで利用可能なインデックスファイルから緯度と経度でサイトを選択しました。すぐに1つの問題が表示されます。同じような識別子を持つサイトや非常に近いサイトがたくさんあります。FWIW、私はUSAFとWBANコードの両方を使用してそれらを識別します。メタデータを詳しく見ると、座標と標高が異なり、データはあるサイトで停止してから別のサイトで開始することがわかりました。それで、私はそれ以上良く分からないので、それらを別々のステーションとして扱わなければなりません。これは、データが互いに非常に近いステーションのペアを含むことを意味します。予備分析暦月ごとにデータをグループ化して、異なるデータのペア間の通常の最小二乗回帰を計算してみました。次に、すべてのペア間の相関を、ステーションを結ぶ線としてプロットします（下図）。線の色は、OLS近似からのR2の値を示しています。図は、1月、2月などからの30以上のデータポイントが、対象エリアの異なるステーション間でどのように相関しているかを示しています。 6時間ごとにデータポイントがある場合にのみ1日の平均が計算されるように基礎となるコードを記述したため、データはサイト間で比較可能である必要があります。問題点残念ながら、1つのプロットで意味をなさないデータが多すぎます。行のサイズを小さくしても修正できません。領域内の最近傍間の相関をプロットしようとしましたが、それはすぐに混乱に変わります。以下のファセットは、ステーションのサブセットから最近傍を使用して、相関値のないネットワークを示しています。この図は、概念をテストするためのものです。 kkk ネットワークは複雑すぎるように見えるので、複雑さを軽減する方法、または何らかの空間カーネルを適用する方法を見つける必要があると思います。また、相関を示すのに最も適切なメトリックが何であるかはわかりませんが、意図した（非技術的な）対象者にとっては、OLSからの相関係数が最も簡単に説明できるかもしれません。勾配や標準誤差などの他の情報も提示する必要がある場合があります。ご質問私はこの分野とRへの道を同時に学んでいます。私がやろうとしていることの正式な名前は何ですか？より多くの文献を見つけることができる役立つ用語はありますか？私の検索は、一般的なアプリケーションでなければならないもののために空白を描いています。スペースで区切られた複数のデータセット間の相関を示すより適切な方法はありますか？ ...特に、視覚的に結果を簡単に表示できる方法はありますか？これらのいずれかがRに実装されていますか？これらのアプローチのいずれかが自動化に役立ちますか？

16 r regression data-visualization pca spatial

3

重回帰の予測変数間でr 2乗を分割する方法は？

著者が2つの予測変数を使用して重回帰を実行した論文を読んだばかりです。全体のr 2乗値は0.65でした。彼らは、2つの予測変数の間でr 2乗を分割する表を提供しました。テーブルは次のようになりました。 rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 1, 10 0.030 データセットRを使用して実行したこのモデルではmtcars、全体のr 2乗値は0.76です。 summary(lm(mpg ~ drat + wt, mtcars)) Call: lm(formula = mpg ~ drat + wt, data = mtcars) Residuals: Min 1Q …

16 r multiple-regression r-squared importance variance-decomposition

2

拡張ディッキーフラーテストとの混乱

私はelectricityRパッケージで利用可能なデータセットに取り組んでいますTSA。私の目的は、arimaモデルがこのデータに適切であり、最終的に適合するかどうかを調べることです。私は進んように、次：第1回：次のグラフ場合は結果の時系列プロット第二は：私のログを撮りたかったelectricity分散を安定化させ、その後、必要に応じて、一連の差分を取ったが、ちょうどその前に、私は上の定常性について試験をadf（Augmented Dickey Fuller）テストを使用した元のデータセットと、驚くべきことに、次のようになりました。コードと結果： adf.test(electricity) Augmented Dickey-Fuller Test data: electricity Dickey-Fuller = -9.6336, Lag order = 7, p-value = 0.01 alternative hypothesis: stationary Warning message: In adf.test(electricity) : p-value smaller than printed p-value さて、私の初心者の時系列の概念によると、データが定常的であることを意味すると思います（小さなp値、非定常性の帰無仮説を棄却）。しかし、tsプロットを見ると、これが静止している可能性はありません。誰にもこれについて有効な説明がありますか？

16 r time-series stationarity

2

R言語rnormとrunifの違い[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 6年前に閉鎖されました。関数rnormとrunifR の違いは何ですか？

16 r

1

STL s.windowの幅を設定する基準

を使用RしてSTL分解を実行s.windowし、季節成分がどれだけ速く変化するかを制御します。値を小さくすると、より迅速に変更できます。季節性ウィンドウを無限に設定することは、季節性成分を強制的に周期的にすることと同等です（つまり、年間を通して同一）。私の質問：毎月の時系列（頻度が等しい）がある場合、どの基準を使用して設定する必要がありますか？121212s.window それと時系列周波数の間にリンクはありますか？

16 r time-series trend seasonality

2

CARTで複雑度パラメーターを選択する

CARTモデルを作成するrpart（）ルーチンで、ツリーをプルーニングする複雑度パラメーターを指定します。複雑度パラメーターを選択するための2つの異なる推奨事項を見てきました。可能な最小相互検証エラーに関連付けられた複雑度パラメーターを選択します。この方法は、Quick-RおよびHSAURで推奨されています。推定交差検定誤差が、最小可能交差検定誤差のSE内にある最大の複雑度パラメーターを選択します。これは、このプロットを参照して、「プルーニング用のcpの適切な選択は、平均が水平線より下にある最も左の値であることが多い」というパッケージドキュメントの解釈です。 cpの2つの選択により、データセット内でまったく異なるツリーが生成されます。最初の方法は常に、より複雑な、潜在的にオーバーフィットしたツリーを生成するようです。他の長所、短所、文献の推奨事項などはありますか。どの方法を使用するかを決める際に考慮する必要がありますか？特定のモデリング問題が役立つ場合は、それに関する詳細情報を提供できますが、この質問を他の人に関連するように十分に広くしようとしています。

16 r cart rpart

3

シーケンスデータからのマルコフ遷移確率の推定

私は4つの状態のシーケンスのセット（正確には432の観測）を持っています：例A−DA−DA-D Y=⎛⎝⎜⎜⎜⎜AB⋮BCA⋮CDA⋮ADC⋮DBA⋮AA−⋮BC−⋮A⎞⎠⎟⎟⎟⎟Y=(ACDDBACBAACA−−⋮⋮⋮⋮⋮⋮⋮BCADABA)Y=\left(\begin{array}{c c c c c c c} A& C& D&D & B & A &C\\ B& A& A&C & A&- &-\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ B& C& A&D & A & B & A\\ \end{array}\right) 編集：観測シーケンスの長さが等しくありません！これは何かを変えますか？ MatlabまたはRなどで遷移行列を計算する方法はありますか？HMMパッケージが役立つと思います。何かご意見は？Pij(Yt=j|Yt−1=i)Pij(Yt=j|Yt−1=i)P_{ij}(Y_{t}=j|Y_{t-1}=i) 例：マルコフ連鎖確率の推定

16 r matlab markov-process

2

GBM分類は、クラスサイズの不均衡に悩まされますか？

監視対象のバイナリ分類の問題を扱っています。GBMパッケージを使用して、個人を未感染/感染として分類したいと思います。私は、感染した個人の15倍も感染していない。クラスサイズが不均衡な場合にGBMモデルが影響を受けるかどうか疑問に思っていましたか？この質問に答える参考文献は見つかりませんでした。感染していない人に1の重みを、感染した人に15の重みを割り当てることで重みを調整しようとしましたが、結果は良くありませんでした。

16 r machine-learning boosting unbalanced-classes gbm

2

glmmのR構造G構造とは何ですか？

MCMCglmm最近このパッケージを使用しています。ドキュメントでR構造およびG構造と呼ばれているものに混乱しています。これらはランダム効果に関連しているようです-特にそれらの事前分布のパラメータを指定していますが、ドキュメントの議論は読者がこれらの用語が何であるかを知っていると仮定しているようです。例えば： 3つの可能な要素を持つ事前仕様のオプションのリスト：R（R構造）G（G構造）およびB（固定効果）............分散構造の事前（RおよびG ）は、逆ウィシャートの期待される（共）分散（V）および信念度パラメーター（nu）を含むリストです ... ここから取ります。編集：ステファンからのコメントに続く質問の残りを書き直したことに注意してください。線形予測子がでおよび E 0 I J〜N （0 、σ 2 0 E）U 0 J〜N （0 、σ 2 0 U）β0+ e0 i j+ あなた0 jβ0+e0私j+あなたは0j\beta_0 + e_{0ij} + u_{0j} e0 i j〜N（0 、σ20 e）e0私j〜N（0、σ0e2）e_{0ij} \sim N(0,\sigma_{0e}^2)あなたは0 j〜N（0 、σ20 u）あなたは0j〜N（0、σ0あなたは2）u_{0j} \sim N(0,\sigma_{0u}^2) 付属のデータを使用して次の例を作成しました MCMCglmm > require(MCMCglmm) > …

16 r bayesian mixed-model lme4-nlme

2

Rの正規性または分散の等値性のないデータで双方向ANOVAを実行する方法は？

現在、修士論文に取り組んでおり、SigmaPlotで統計を実行することを計画しています。しかし、データにしばらく時間を費やした後、SigmaPlotが問題に合わない可能性がある（間違っている可能性がある）という結論に達しました。計画では、3つの異なるタンパク質とそれらの8つの異なる処理から得られる私のデータに対して単純な2因子分散分析を実行することでした。そのため、私の2つの要因はタンパク質と処理です。両方を使用して正常性をテストしました > shapiro.test(time) そして > ks.test(time, "norm", mean=mean(time), sd=sqrt(var(time))) どちらの場合も（驚くことではないかもしれませんが）、私は非正規分布になりました。これにより、分散の等式に使用するテストの最初の質問が残りました。思いついた > chisq.test(time) その結果、データにも分散の等値性がありませんでした。さまざまなデータ変換（ログ、中央、標準化）を試しましたが、それらはすべて分散の問題を解決しませんでした。今、私は途方に暮れています。どのタンパク質とどの治療法が互いに有意に異なるかをテストするためにANOVAを実施する方法です。Kruskal-Walis-Testについて何かを見つけましたが、それは1つの要因（？）だけです。また、ランキングやランダム化についても発見しましたが、Rでそれらの手法を実装する方法はまだありません。誰かが私がすべきことを提案していますか？編集：あなたの答えに感謝します、私は読書に少し圧倒されます（それはちょうどより少なくよりむしろますます得ているようです）、しかし、私はもちろん続けます。提案されたデータの例を次に示します（形式が非常に残念で、別の解決策やファイルを置く場所がわかりませんでした。私はまだこのすべてに慣れていません。）： protein treatment time A con 2329.0 A HY 1072.0 A CL1 4435.0 A CL2 2971.0 A CL1-HY sim 823.5 A CL2-HY sim 491.5 A CL1+HY mix 2510.5 A CL2+HY mix …

16 r anova nonparametric heteroscedasticity

4

Rの一貫性のない形式のデータをクリーニングしますか？

統計を行う前に多くのクリーンアップを必要とする厄介な調査データをよく扱います。私はこれをExcelで「手動」で実行していました。Excelの式を使用したり、エントリを1つずつ確認したりすることもありました。これらのタスクの多くをRで実行するスクリプトを作成することで始めました。これは非常に有益でした（実行したことの記録、ミスの可能性の減少、データセットが更新しました）。しかし、効率的に処理するのが難しいいくつかの種類のデータがまだあります。例えば： > d <- data.frame(subject = c(1,2,3,4,5,6,7,8,9,10,11), + hours.per.day = c("1", "2 hours", "2 hr", "2hr", "3 hrs", "1-2", "15 min", "30 mins", "a few hours", "1 hr 30 min", "1 hr/week")) > d subject hours.per.day 1 1 1 2 2 2 hours 3 3 2 hr 4 4 …

16 r data-cleaning

タグ付けされた質問 「r」

タグ付けされた質問「r」