タグ付けされた質問 「average」

確率変数の期待値。または、サンプルの位置メジャー。

2
データの平均化とフィッティング、データのフィッティングと平均化の違い
ある場合は、線を複数の個別の「実験」にフィッティングした後、フィッティングを平均化するか、個別の実験からのデータを平均化してから、平均データをフィッティングします。詳しく説明します。 以下に示す曲線を生成するコンピュータシミュレーションを実行します。量を抽出し、プロットの線形領域に当てはめることにより(長い時間)、それを "A"と呼びます。値は単に線形領域の勾配です。もちろん、この線形回帰に関連するエラーがあります。 通常、これらのシミュレーションをさまざまな初期条件で100回ほど実行して、「A」の平均値を計算します。(下のプロットの)生データを平均して10のグループにまとめ、「A」に適合させ、それらの10の「A」を平均するほうがよいと言われています。 これにメリットがあるのか​​、それとも100個の "A"値をフィッティングして平均するよりも良いのか、私には直観がありません。
10 error  fitting  average 

1
「平均化」差異
分散のリストからある種の「平均」を取得する必要がありますが、妥当な解決策を見つけるのに問題があります。このスレッドでは、ピタゴラスの3つの平均(算術、幾何学、調和)の違いについて興味深い議論があります。しかし、私はまだそれらのどれもが良い候補になるとは思いません。助言がありますか? PS一部のコンテキスト-これらの分散は、人の被験者からのサンプル分散であり、各被験者はほぼ同じサンプルサイズ同じ実験計画を通過しました。つまり、被験者に対応する標本分散、、...、あります。メタ分析はすでに人口レベルで実行されています。ある種の「平均」または「要約された」サンプル分散を取得する必要がある理由は、メタ分析の後にそれを使用してICCなどのインデックスを計算するためです。K N σ 2 1 σ 2 2 σ 2 N Nんnnkkkんnnσ21σ12\sigma_1^2σ22σ22\sigma_2^2σ2んσn2\sigma_n^2んnn PPS議論をより具体的にするために、Rで次の例を使用して問題を説明しましょう。 library(metafor) dat <- get(data(dat.konstantopoulos2011)) dat$district <- as.factor(dat$district) dat$school <- as.factor(dat$school) データセットには、各学校の成績スコアに関連する差異があります。 str(dat) Classes ‘escalc’ and 'data.frame': 56 obs. of 6 variables: $ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 …
10 variance  average 

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
平均の平均(平均の、平均の…)
次の細胞生物学実験を考えてみましょう。比較していますTTT培養細胞の異なる処理。各治療ttt変数によってインデックス付けされたいくつかの(マイクロタイター)ウェルで複製されますW ∈ { 1 、2 、⋯ 、W}w∈{1、2、⋯、W}w \in \{1, 2, \cdots, W\}。治療に対する反応をよく測定するにはwww、 の合計 FwFwF_w重複しない顕微鏡写真、またはフィールドが記録されます。次に、フィールドごとにfff よく www、 の合計 Cw fCwfC_{wf} セルは計算により識別され、これにより各セルは ccc (よく www、フィールド fff)は、 Pw fcPwfcP_{wfc}ピクセル。最後に、各ピクセルに関連付けppp 測定です バツw fc pバツwfcpx_{wfcp} (そのピクセルで記録されたさまざまな蛍光信号の強度から派生)。 問題は、すべてのピクセル測定値を集計することです バツw fc pバツwfcpx_{wfcp} 「合理的な手段」を生み出す バツtバツtX_t 治療効果の ttt それで処理された細胞と同様に「広がり」のいくつかの測定 バツtバツtX_t。 このような問題に対する標準的なアプローチは、平均を「メジャー」として使用し、分散(または標準偏差)を「スプレッド」として使用することです。ただし、この場合は、平均と分散を計算する方法が複数あり、同等ではありません。 今のところ手段に焦点を合わせると、極端な場合、単に バツw fc pバツwfcpx_{wfcp} すべてのピクセルにわたって(セル、フィールド、ウェルの分布を無視して)、この合計をピクセルの総数で割ります PPP (治療用 ttt): …

1
不均衡なクラスでFスコアを平均化する最良の方法
不均衡なクラスのデータセットがあります。3つのクラスがデータの約60%を占めます。また、不均衡を引き起こすさまざまなテスト分割があります。たとえば: トレインセット:label_1 ... label_n テストセット:label_1、label_3、label_9 これは、テストセットにラベルが3つしかない場合でも、nラベルの1つとして予測される可能性があることを意味します。したがって、sklearn.metrics.precision_recall_fscore_supportを使用すると、ゼロが多い行列が得られます。 私の問題は、クラスごとの値ではなく、すべてのクラスにわたって平均Fスコアを取得する必要があることです。ただし、上記のsklearn関数から返された行列の平均を取るだけでは、非常に多くのゼロがあるため、常に非常に低い値になります。一方、潜在的な予測の総数はクラスの総数でなければならないため、ゼロ以外の値の平均を取ることも、私には意味がありません。 この場合、平均を取る良い方法はありますか?ミクロ、マクロ、加重平均のオプションを使用してみましたが、どちらが正しいかわかりません。 誰かこれを手伝ってくれませんか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.