統計とビッグデータ average

2

ある場合は、線を複数の個別の「実験」にフィッティングした後、フィッティングを平均化するか、個別の実験からのデータを平均化してから、平均データをフィッティングします。詳しく説明します。以下に示す曲線を生成するコンピュータシミュレーションを実行します。量を抽出し、プロットの線形領域に当てはめることにより（長い時間）、それを "A"と呼びます。値は単に線形領域の勾配です。もちろん、この線形回帰に関連するエラーがあります。通常、これらのシミュレーションをさまざまな初期条件で100回ほど実行して、「A」の平均値を計算します。（下のプロットの）生データを平均して10のグループにまとめ、「A」に適合させ、それらの10の「A」を平均するほうがよいと言われています。これにメリットがあるのか、それとも100個の "A"値をフィッティングして平均するよりも良いのか、私には直観がありません。

10 error fitting average

1

「平均化」差異

分散のリストからある種の「平均」を取得する必要がありますが、妥当な解決策を見つけるのに問題があります。このスレッドでは、ピタゴラスの3つの平均（算術、幾何学、調和）の違いについて興味深い議論があります。しかし、私はまだそれらのどれもが良い候補になるとは思いません。助言がありますか？ PS一部のコンテキスト-これらの分散は、人の被験者からのサンプル分散であり、各被験者はほぼ同じサンプルサイズ同じ実験計画を通過しました。つまり、被験者に対応する標本分散、、...、あります。メタ分析はすでに人口レベルで実行されています。ある種の「平均」または「要約された」サンプル分散を取得する必要がある理由は、メタ分析の後にそれを使用してICCなどのインデックスを計算するためです。K N σ 2 1 σ 2 2 σ 2 N Nんnnkkkんnnσ21σ12\sigma_1^2σ22σ22\sigma_2^2σ2んσn2\sigma_n^2んnn PPS議論をより具体的にするために、Rで次の例を使用して問題を説明しましょう。 library(metafor) dat <- get(data(dat.konstantopoulos2011)) dat$district <- as.factor(dat$district) dat$school <- as.factor(dat$school) データセットには、各学校の成績スコアに関連する差異があります。 str(dat) Classes ‘escalc’ and 'data.frame': 56 obs. of 6 variables: $ district: Factor w/ 11 levels "11","12","18",..: 1 1 1 1 2 2 2 2 …

10 variance average

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

平均の平均（平均の、平均の…）

次の細胞生物学実験を考えてみましょう。比較していますTTT培養細胞の異なる処理。各治療ttt変数によってインデックス付けされたいくつかの（マイクロタイター）ウェルで複製されますW ∈ { 1 、2 、⋯ 、W}w∈{1、2、⋯、W}w \in \{1, 2, \cdots, W\}。治療に対する反応をよく測定するにはwww、の合計 FwFwF_w重複しない顕微鏡写真、またはフィールドが記録されます。次に、フィールドごとにfff よく www、の合計 Cw fCwfC_{wf} セルは計算により識別され、これにより各セルは ccc （よく www、フィールド fff）は、 Pw fcPwfcP_{wfc}ピクセル。最後に、各ピクセルに関連付けppp 測定ですバツw fc pバツwfcpx_{wfcp} （そのピクセルで記録されたさまざまな蛍光信号の強度から派生）。問題は、すべてのピクセル測定値を集計することですバツw fc pバツwfcpx_{wfcp} 「合理的な手段」を生み出すバツtバツtX_t 治療効果の ttt それで処理された細胞と同様に「広がり」のいくつかの測定バツtバツtX_t。このような問題に対する標準的なアプローチは、平均を「メジャー」として使用し、分散（または標準偏差）を「スプレッド」として使用することです。ただし、この場合は、平均と分散を計算する方法が複数あり、同等ではありません。今のところ手段に焦点を合わせると、極端な場合、単にバツw fc pバツwfcpx_{wfcp} すべてのピクセルにわたって（セル、フィールド、ウェルの分布を無視して）、この合計をピクセルの総数で割ります PPP （治療用 ttt）： …

8 mean multilevel-analysis average weighted-mean

1

不均衡なクラスでFスコアを平均化する最良の方法

不均衡なクラスのデータセットがあります。3つのクラスがデータの約60％を占めます。また、不均衡を引き起こすさまざまなテスト分割があります。たとえば：トレインセット：label_1 ... label_n テストセット：label_1、label_3、label_9 これは、テストセットにラベルが3つしかない場合でも、nラベルの1つとして予測される可能性があることを意味します。したがって、sklearn.metrics.precision_recall_fscore_supportを使用すると、ゼロが多い行列が得られます。私の問題は、クラスごとの値ではなく、すべてのクラスにわたって平均Fスコアを取得する必要があることです。ただし、上記のsklearn関数から返された行列の平均を取るだけでは、非常に多くのゼロがあるため、常に非常に低い値になります。一方、潜在的な予測の総数はクラスの総数でなければならないため、ゼロ以外の値の平均を取ることも、私には意味がありません。この場合、平均を取る良い方法はありますか？ミクロ、マクロ、加重平均のオプションを使用してみましたが、どちらが正しいかわかりません。誰かこれを手伝ってくれませんか？

7 machine-learning scikit-learn average unbalanced-classes

タグ付けされた質問 「average」

タグ付けされた質問「average」