統計とビッグデータ r

2

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 5年前に移行されました。ガンマ分布従属変数を持つGLMのパラメーターの解釈に関して質問があります。これは、ログリンクを使用してGLMに対してRが返すものです。 Call: glm(formula = income ~ height + age + educat + married + sex + language + highschool, family = Gamma(link = log), data = fakesoep) Deviance Residuals: Min 1Q Median 3Q Max -1.47399 -0.31490 -0.05961 0.18374 1.94176 Coefficients: Estimate Std. Error t value Pr(>|t|) …

21 r generalized-linear-model interpretation gamma-distribution

2

yes-noカウントではなくパーセンテージに二項GLMM（glmer）を適用する方法は？

従属変数がパーセンテージである反復測定実験があり、独立変数として複数の要因があります。このセットアップに直接対応していると思われるためglmer、Rパッケージから使用してlme4（を指定してfamily=binomial）ロジスティック回帰問題として扱いたいと思います。私のデータは次のようになります。 > head(data.xvsy) foldnum featureset noisered pooldur dpoolmode auc 1 0 mfcc-ms nr0 1 mean 0.6760438 2 1 mfcc-ms nr0 1 mean 0.6739482 3 0 melspec-maxp nr075 1 max 0.8141421 4 1 melspec-maxp nr075 1 max 0.7822994 5 0 chrmpeak-tpor1d nr075 1 max 0.6547476 6 1 chrmpeak-tpor1d nr075 1 …

21 r logistic mixed-model glmm lme4-nlme

5

ランダムフォレストと回帰

5つの独立変数を持つデータセットでOLS回帰モデルを実行しました。独立変数と従属変数は両方とも連続的であり、線形に関連しています。Rスクエアは約99.3％です。しかし、Rでランダムフォレストを使用して同じことを実行すると、結果は「％Var説明：88.42」になります。なぜランダムフォレストの結果は、回帰に比べてそれほど劣るのでしょうか？私の仮定では、ランダムフォレストは少なくともOLS回帰と同じくらい良いだろうということでした。

21 r regression random-forest

5

ランダムフォレストの誤分類のコストを制御する方法は？

RパッケージrandomForestで誤分類のコストを制御することは可能ですか？私自身の研究では、偽陰性（例えば、人が病気にかかっている可能性があるというミス）は、偽陽性よりもはるかに費用がかかります。パッケージrpartを使用すると、損失マトリックスを指定して誤分類に異なる重みを付けることにより、誤分類コストを制御できます。同様の何かが存在しrandomForestますか？たとえば、classwtGini基準を制御するオプションを使用する必要がありますか？

21 r classification random-forest loss-functions metric

5

Rを介して（実行中だけでなく）統計/数学を学習するためのソース

Rを使用して統計的および数学的な概念を学習するためのソースの例（Rコード、Rパッケージ、書籍、書籍の章、記事、リンクなど）に興味があります（他の言語でも可能ですが、Rは私のお気に入りです）。課題は、素材の学習がアルゴリズムを実行するコードの実行方法だけでなく、プログラミングに依存することです。だから（たとえば）Rのある線形モデルのような本（これは素晴らしい本です）は私が探しているものではありません。これは、この本が主にRで線形モデルを実装する方法を示しているためですが、Rを使用して線形モデルを教えることを中心としていません。（素晴らしい）TeachingDemosパッケージのヘルプファイルは、私が探しているものの良い例です。これは、さまざまなRアプレットおよびシミュレーションを通じて統計概念を学習するための関数を含むRパッケージです。付属のヘルプファイルは便利です。もちろん、どちらも十分ではなく、正確な詳細の多くを習得してそれらを学習するには、外部のテキストブックが必要です（ヘルプファイルでも同様です）。すべてのリードが高く評価されます。

21 r references mathematical-statistics

1

MCMCベースの回帰モデルの残留診断

最近、MCMCアルゴリズム（実際にはRの関数MCMCglmm）を使用して、ベイジアンフレームワークで回帰混合モデルの適合に着手しました。推定プロセスの収束を診断する方法を理解したと思います（トレース、gewekeプロット、自己相関、事後分布...）。ベイジアンフレームワークで私を襲ったことの1つは、それらの診断を行うために多くの努力が注がれているように思えるのに対し、近似モデルの残差のチェックに関してはほとんど行われていないように見えることです。たとえば、MCMCglmmでは、residual.mcmc（）関数は存在しますが、実際にはまだ実装されていません（つまり、戻り値：「MCMCglmmオブジェクトにはまだ実装されていない残差」。predict.mcmc（）にも同じ話があります）。他のパッケージにも欠けているようで、より一般的には、私が見つけた文献ではほとんど議論されていません（非常に頻繁に議論されているDICは別として）。誰かが私にいくつかの便利なリファレンス、そして理想的には私が遊んだり修正したりできるRコードを教えてくれますか？どうもありがとう。

21 r bayesian mixed-model mcmc residuals

3

キャレットを使用したモデルのスタック/アンサンブル

caretRを使用していくつかの異なる予測モデルをトレーニングすることがよくあります。すべてを同じクロス検証フォールドでトレーニングし、を使用してcaret::: createFolds、クロス検証エラーに基づいて最適なモデルを選択します。ただし、いくつかのモデルからの予測の中央値は、独立したテストセットで最良の単一モデルを上回ることがよくあります。同じクロス検証フォールドでトレーニングされたキャレットモデルをスタック/アンサンブルするための関数を書くことを考えています。たとえば、各フォールドの各モデルから中央値予測を取得したり、「メタモデル」をトレーニングしたりします。もちろん、これには外側の相互検証ループが必要になる場合があります。キャレットモデルをアセンブルするための既存のパッケージ/オープンソースコードを知っている人はいますか？

21 r caret ensemble

4

重回帰における予測変数の重要性：部分対標準化係数

部分モデルと線形モデルの係数との正確な関係と、因子の重要性と影響を説明するためにどちらか一方のみを使用すべきかどうか疑問に思っています。R2R2R^2 私が知る限りsummary、係数の推定値を取得しanova、各因子の平方和を取得します-1つの因子の平方和を平方和と残差の合計で割った割合は部分（次のコードはにあります）。R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 *** young 8.173e-01 …

21 r regression multiple-regression regression-coefficients r-squared

1

2つの信号を整列/同期するにはどうすればよいですか？

私はいくつかの研究を行っていますが、分析段階で立ち往生しています（統計の講義にもっと注意を払うべきでした）。私は2つの同時信号を収集しました：体積に統合された流量と胸部拡張の変化。信号を比較し、最終的に胸部拡張信号からボリュームを導き出したいと思います。しかし、最初にデータを調整/同期する必要があります。記録が正確に同時に開始されず、胸部拡張がより長い期間キャプチャされるため、胸部拡張データセット内でボリュームデータに対応するデータを見つけ、それらがどれだけ適切に調整されているかを測定する必要があります。2つの信号がまったく同じ時間に開始しない場合、または異なるスケールと異なる解像度のデータ間でこれを実行する方法がわからない。 2つの信号の例（https://docs.google.com/spreadsheet/ccc?key=0As4oZTKp4RZ3dFRKaktYWEhZLXlFbFVKNmllbGVXNHc）を添付しました。さらに提供できるものがあればお知らせください。

21 r time-series signal-processing measurement

3

ビッグデータの最初のステップ（

1日あたり数十億回の観測値で膨大なデータセットを分析しており、各観測値には数千のスパースで冗長な数値変数およびカテゴリ変数があるとします。回帰問題が1つ、不均衡なバイナリ分類問題が1つ、「どの予測変数が最も重要かを調べる」タスクが1つあるとします。問題にアプローチする方法についての私の考えは次のとおりです。次の状態になるまで、データの次第に大きくなる（ランダムな）サブサンプルに予測モデルを適合させます。モデルの適合と相互検証が計算上困難になります（たとえば、ラップトップで不当に遅くなる、Rでメモリが不足するなど）、またはトレーニングおよびテストRMSEまたは精度/リコール値が安定します。トレーニングエラーとテストエラーが安定しなかった場合（1.）、より単純なモデルを使用するか、モデルのマルチコアバージョンまたはマルチノードバージョンを実装して、最初からやり直します。トレーニングエラーとテストエラーが安定した場合（2.）：場合（つまり、私はまだ上のアルゴリズムを実行することができますそれはまだ大きすぎないよう）、特徴空間の拡大や、より複雑なモデルを使用して、最初から再起動することで、パフォーマンスを改善しよう。Nsubset≪NNsubset≪NN_{subset} \ll NXsubsetXsubsetX_{subset} 場合「大きい」およびさらなる分析を実行することは高価であり、変数の重要度および終了を分析します。NsubsetNsubsetN_{subset} 私のようなパッケージを使用する予定のbiglm、speedglm、multicore、およびffR中に最初に、そして後に必要に応じて、より複雑なアルゴリズムおよび/または（EC2上の）マルチノードを使用します。これは理にかなったアプローチのように聞こえますか？そうであれば、具体的なアドバイスや提案はありますか？そうでない場合、このサイズのデータセットに対して代わりに何を試してみますか？

21 r machine-learning data-mining large-data

3

回帰とANOVAの不一致（Rのaovとlm）

私は常に回帰はANOVAのより一般的な形式であり、結果は同一であるという印象を受けていました。しかし、最近、同じデータに対して回帰と分散分析の両方を実行しましたが、結果は大きく異なります。つまり、回帰モデルでは主効果と交互作用の両方が重要ですが、ANOVAでは主効果の1つは重要ではありません。これはインタラクションと関係があると思いますが、同じ質問をモデル化するこれら2つの方法の違いは明確ではありません。以下のシミュレーションに示すように、重要な場合、一方の予測子はカテゴリカルであり、他方の予測子は連続的です。以下は、私のデータがどのように見えるか、実行している分析の例ですが、結果に同じp値または影響がありません（実際の結果の概要は上記のとおりです）。 group<-c(1,1,1,0,0,0) moderator<-c(1,2,3,4,5,6) score<-c(6,3,8,5,7,4) summary(lm(score~group*moderator)) summary(aov(score~group*moderator))

21 r regression anova

1

Rの線形モデルの新しい入力から値を予測するにはどうすればよいですか？

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 R：で線形モデルを作成しましたmod = lm(train_y ~ train_x)。Xのリストを渡して、その予測/推定/予測Yを取得しpredict()たいのですが、それは何か他のもののためだと思うか、それを使用する方法がわかりません。私は自分のモデルの係数を取ることで推測しているので、手動でtest_x変数をプラグインし、予測されたYを取得できますが、これを行うためのより効率的な方法があると推測しています。

21 r forecasting linear-model

1

Rの逆行列の効率的な計算

逆行列を計算する必要があり、solve関数を使用しています。小さなマトリックスでsolveはうまく機能しますが、大きなマトリックスでは非常に遅くなる傾向があります。より高速な結果を得ることができる他の機能または機能の組み合わせ（SVD、QR、LU、またはその他の分解機能を使用）があるかどうか疑問に思いました。

21 r matrix-decomposition matrix-inverse

5

高いp値を持つ強い相関係数の例

私は、非常に強い相関係数（たとえば.9以上）と高いp値（たとえば.25以上）を持つことは可能だろうかと思っていました。これは、高いp値を持つ低い相関係数の例です。 set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0.03908927、p = 0.6994 高い相関係数、低いp値： y <- rnorm(100) x <- rnorm(100)+2*y cor.test(x,y) cor = 0.8807809、p = 2.2e-16 低相関係数、低p値： y <- rnorm(100000) x <- rnorm(100000)+.1*y cor.test(x,y) cor = 0.1035018、p = 2.2e-16 高い相関係数、高いp値：???

21 r hypothesis-testing correlation

1

時系列のロジスティック回帰

ストリーミングデータ（多次元時系列）のコンテキストでバイナリロジスティック回帰モデルを使用して、過去の観測から与えられたデータ（行）の従属変数の値を予測します。私が知る限り、ロジスティック回帰は伝統的に事後分析に使用されており、各従属変数は既に（検査または研究の性質により）設定されています。ただし、時系列の場合、履歴データの観点から従属変数について（オンザフライで）予測したい場合（たとえば、最後の秒の時間枠）、そしてもちろん前の従属変数の推定値？ttt また、上記のシステムが長期にわたって見られる場合、回帰が機能するためにはどのように構築する必要がありますか？最初にデータの最初の50行にラベルを付けて（つまり、従属変数を0または1に設定して）トレーニングし、次にベクトル現在の推定値を使用して、新しい確率を推定する必要がありますか到着したばかりのデータ（つまり、システムに追加されたばかりの新しい行）の従属変数は0または1ですか？ββ{\beta} 私の問題をより明確にするために、私はデータセットを行ごとに解析し、以前のすべての依存または説明の知識（観察または推定）を前提として、バイナリ結果（依存変数）の予測を試みるシステムを構築しようとしています固定時間枠に到着した変数。私のシステムはRerlにあり、推論にRを使用しています。

21 r time-series logistic

タグ付けされた質問 「r」

タグ付けされた質問「r」