タグ付けされた質問 「aggregation」

不均一である可能性のあるデータのグループを「ひとまとめにする」ことを指します。

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
1週間分のデータを時間単位で集計するにはどうすればよいですか?
複数のデータ列、1日ごとに1時間ごとの平均を取得し、同じグラフに12個の「ホスト」の結果を表示するにはどうすればよいですか?つまり、1週間分のデータについて、24時間の期間をグラフ化したいと思います。最終的な目標は、サンプリングの前後にこのデータの2つのセットを比較することです。 dates Host CPUIOWait CPUUser CPUSys 1 2011-02-11 23:55:12 db 0 14 8 2 2011-02-11 23:55:10 app1 0 6 1 3 2011-02-11 23:55:09 app2 0 4 1 私はxyplot(CPUUser〜dates | Host)を効果的に実行できました。ただし、週の各日付を表示するのではなく、X軸を1日の時間にしたいと思います。 このデータをxtsオブジェクトに取得しようとすると、「order.byには適切な時間ベースのオブジェクトが必要」などのエラーが発生します データフレームのstr()は次のとおりです。 'data.frame': 19720 obs. of 5 variables: $ dates : POSIXct, format: "2011-02-11 23:55:12" "2011-02-11 23:55:10" ... $ Host …

6
Rで識別子によってグループ化されたデータフレームの最初の行を取得する高速な方法[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 個人ごとに複数の観測があるときに年齢と性別を取得するときのように、データセットの最初の行のみを識別子でグループ化する必要がある場合があります。Rでこれを行うための高速(または最速)の方法は何ですか?下のaggregate()を使用しましたが、もっと良い方法があると思います。この質問を投稿する前に、Googleで少し検索し、ddplyを見つけて試しましたが、非常に遅く、データセット(400,000行×16列、7,000の一意のID)でメモリエラーが発生したことに驚きましたが、aggregate()バージョンかなり速かった。 (dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1)))) # ID AGE FEM # 1 30 1 # 1 30 1 # 2 40 0 # 2 40 0 # 3 35 1 # 3 35 1 ag <- data.frame(ID=levels(dx$ID)) ag <- merge(ag, …
14 r  dataset  aggregation  plyr 

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

1
時系列で分析の単位(集計レベル)をどのように選択しますか?
観測の時系列を任意のレベルの精度で測定でき、調査の目標がXとYの関係を特定することである場合、特定のレベルの集約を別の集約よりも選択するための経験的な正当化がありますか?選択は、理論および/または実際の制限に基づいて単純に行われますか? このメインの質問には3つのサブ質問があります。 XまたはYの任意の非ランダムな変動は、より小さなレベルの集約を選択するのに十分な理由付けになりますか(非ランダムな観測の一時的なパターン)。 XとYの関係の変化は、より小さな分析単位を正当化するために、より小さなレベルの集約で十分ですか?ある程度の変動が許容される場合、どの程度の変動が大きすぎるかをどのように判断しますか? 人々は、経験的理由または理論的理由のいずれかで、ある分析単位が別の分析単位よりも説得力がある/明確に定義されていると主張することができますか? 空間解析における修正可能な面積単位の問題をよく知っています(Openshaw 1984)。私はその材料の専門家であると主張していませんが、これまでのところ、生態学的な誤lessを犯す可能性が低いため、分析の単位が小さい方が常に良いと思うだけです(Robinson 1950)。地理的単位の集約に関して直接関連する参照または回答がある場合は、その回答も歓迎します。

2
集計の下で保持される統計情報は何ですか?
ノイズの多い長い高解像度の時系列がある場合、何が起こっているのかをよりよく理解し、効果的にいくつかを削除するために、データを低い解像度(たとえば、毎日から毎月の値)に集約するのが理にかなっています雑音。 別の変数での線形回帰のを含む統計を集計データに適用する論文を少なくとも1つ見ました。それは有効ですか?ノイズが減少するため、平均化プロセスは結果をかなり変更すると考えていたでしょう。r2r2r^2 一般に、集計された時系列データに適用できる統計とそうでない統計はありますか?もしそうなら、どれ?多分線形結合であるもの?

1
正規分布の組み合わせからの分位点
私は、さまざまな年齢の子供の人体寸法(肩幅など)の分布に関する情報を持っています。年齢と次元ごとに、平均、標準偏差があります。(8つの変位値もありますが、それらから必要なものを取得できるとは思いません。) 各次元について、長さ分布の特定の分位数を推定したいと思います。各次元が正規分布していると仮定した場合、平均と標準偏差を使用してこれを行うことができます。分布の特定の分位に関連付けられた値を取得するために使用できるきれいな式はありますか? その逆は非常に簡単です。特定の値について、各正規分布(年齢)の値の右側の領域を取得します。結果を合計し、分布の数で割ります。 更新:同じ質問をグラフィカル形式で示します。各色付き分布が正規分布していると仮定します。 また、明らかに、さまざまな長さの束を試して、精度のために目的の分位点に十分に近い長さになるまで変更し続けることができます。これよりも良い方法があるかどうか疑問に思っています。そして、これが正しいアプローチである場合、その名前はありますか?

2
コミュニティごとに個別の回帰を実行する必要がありますか、それともコミュニティを単に集約モデルの制御変数にできますか?
DVとして連続資産インデックス変数を使用してOLSモデルを実行しています。私のデータは、地理的に近い3つの類似したコミュニティから集約されています。それにもかかわらず、コミュニティを制御変数として使用することが重要だと思いました。結局のところ、コミュニティは1%レベルで有意です(tスコアは-4.52)。コミュニティは、3つの異なるコミュニティのうちの1つに対して、1,2,3としてコード化された名義/カテゴリ変数です。 私の質問は、この重要度の高さは、集合体としてではなく、コミュニティに対して個別に回帰を行うべきであることを意味するかどうかです。それ以外の場合は、コミュニティを制御変数として使用して、本質的にそうしていますか?

6
Rのdata.frame内の因子のすべての一意の組み合わせの要約統計を見つける方法は?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。 data.frame内の因子の一意の組み合わせごとに、data.frame内の変数の要約を計算したいと思います。これを行うにはplyrを使用する必要がありますか?apply()ではなくループを使用しても問題ありません。したがって、それぞれの固有の組み合わせを見つけるだけで十分です。

1
ランダムフォレストの確率的予測と多数決
Scikitの学習では、モデル集約手法に多数決投票ではなく確率的予測を使用しているようですが、その理由は説明されていません(1.9.2.1。ランダムフォレスト)。 理由は明確に説明されていますか?さらに、ランダムフォレストのバギングに使用できるさまざまなモデル集約手法に関する優れた論文またはレビュー記事はありますか? ありがとう!

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
回帰モデルを組み合わせる方法は?
それぞれがサイズ 3つのデータセットがあるとします。nnn =米国のみの人の身長y1y1y_1 =全世界の男性の身長y2y2y_2 =全世界の女性の身長y3y3y_3 そして、因子、i = 1 、を使用して、それぞれの線形モデルを構築します。。。、k:xixix_ii=1,...,ki=1,...,ki = 1,..., k y^j=β0+β1x1+β2x2+ϵjy^j=β0+β1x1+β2x2+ϵj\hat{y}_{j} = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + \epsilon_{j} OLSのための通常の特性を有します。また、複数の回帰で係数x iを使用する場合があります。 ϵϵ\epsilonxixix_i 私の質問は、次の推定値を取得できるように回帰を組み合わせるにはどうすればよいですか。 =米国のみの男性の身長y12y12y_{12} =米国のみの女性の身長y13y13y_{13} データがありません 私はおそらく何らかの重み付けを考えました: y^12=w1y^1+(1−w1)y^2y^12=w1y^1+(1−w1)y^2 \hat{y}_{12} = w_{1} \hat{y}_{1} + (1 - w_{1}) \hat{y}_{2} w1w1w_1

3
クラス内の相関と集約
想像してみろ: それぞれに10メンバーの1000チームのサンプルがあります。 信頼できる複数項目の数値スケールを使用して、チームが機能していると各チームメンバーにどれだけ考えているかを尋ねて、チームの機能を測定しました。 チームの有効性の測定が、チームメンバーの特異な信念の特性であるか、またはチームに関する共有された信念の特性である範囲を説明する必要があります。 この状況および関連する状況(組織への集計など)では、多くの研究者がクラス内相関を報告します(たとえば、Campion&Medskerの表1、1993)。したがって、私の質問は次のとおりです。 クラス内相関のさまざまな値にどの説明ラベルを付けますか?つまり、クラス内相関の値を次のような定性的な言語に実際に関連付けることを目的としています。 クラス内相関は適切な統計だと思いますか、それとも別の戦略を使用しますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.