タグ付けされた質問 「weighted-mean」

加重平均(または加重平均)は通常の平均に似ていますが、観測値は等しく貢献しません。他のデータ値よりもいくつかのデータ値に重点が置かれています。それらは、1 / nよりも大きいまたは小さい量で重み付けされます。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

5
加重標準偏差を計算するにはどうすればよいですか?Excelで?
だから、私はそのようなパーセンテージのデータセットを持っています: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) パーセンテージの標準偏差を見つけたいのですが、データ量に重みがあります。つまり、最初と最後のデータポイントが計算を支配する必要があります。 それ、どうやったら出来るの?そして、Excelでそれを行う簡単な方法はありますか?

2
加重分散のバイアス補正
重み付けされていない分散 場合、同じデータから平均が推定されたときにバイアス補正されたサンプル分散が存在します: ヴァー(X):= 1n∑私(x私- μ )2ヴァール(バツ):=1n∑私(バツ私−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2ヴァー(X):= 1n − 1∑私(x私− E[ X] )2ヴァール(バツ):=1n−1∑私(バツ私−E[バツ])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 私は加重平均と分散を調べており、加重分散の適切なバイアス補正とは何なのか疑問に思っています。使用: 平均(X):= 1∑私ω私∑私ω私バツ私平均(バツ):=1∑私ω私∑私ω私バツ私\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i 私が使用している「単純な」未修正の分散は、次のとおりです。 ヴァー(X):= 1∑私ω私∑私ω私(x私− 平均(X))2ヴァール(バツ):=1∑私ω私∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 だから、バイアスを修正する正しい方法は A) ヴァー(X):= 1∑私ω私− 1∑私ω私(x私− 平均(X))2ヴァール(バツ):=1∑私ω私−1∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 またはB) ヴァー(X):= nn − 11∑私ω私∑私ω私(x私− 平均(X))2ヴァール(バツ):=nn−11∑私ω私∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 またはC) …

1
加重分散、もう一度
偏りのない重み付き分散は、すでにここや他の場所で対処されましたが、依然として驚くべき量の混乱があるようです。最初のリンクとWikipediaの記事で提示された公式に対する合意があるようです。これは、R、Mathematica、およびGSLで使用される式(MATLABではない)のようにも見えます。ただし、Wikipediaの記事には、重み付き分散の実装に対する優れた健全性チェックのように見える次の行も含まれています。 たとえば、値{2,2,4,5,5,5}が同じ分布から引き出される場合、このセットを重み付けされていないサンプルとして扱うか、重み付けされたサンプルとして扱うことができます{2,4、 5}に対応する重み{2,1,3}があり、同じ結果が得られます。 私の計算では、元の値の分散に対して2.1667の値が、重み付き分散に対して2.9545の値が得られます。それらが同じであることを本当に期待すべきですか?なぜですか?

2
現在の菜食主義者に関する調査データしかない場合、菜食主義の平均遵守期間を計算する方法は?
ランダムな人口サンプルが調査されました。彼らは菜食を食べるか尋ねられました。「はい」と答えた場合、菜食主義者の食事を中断することなくどのくらいの期間食べているかを指定するように求められました。このデータを使用して、菜食主義の平均遵守期間を計算します。言い換えれば、誰かが菜食主義者になったとき、私は平均して彼らが菜食主義者のままでいることを長く知りたいと思います。それを仮定しましょう: すべての回答者が正確かつ正確に回答した 世界は安定しています:菜食主義の人気は変わらず、アドヒアランスの平均期間も変わりません。 これまでの私の推論 毎年の初めに2人がベジタリアンになる世界のおもちゃモデルを分析すると役立つことがわかりました。毎回、1人は1年間ベジタリアンを続け、もう1人は3年間滞在します。明らかに、この世界のアドヒアランスの平均期間は(1 + 3)/ 2 = 2年です。以下に例を示します。各長方形は、菜食主義の期間を表します。 4年目の半ばに調査を行ったとしましょう(赤線)。次のデータを取得します。 調査を3年目以降の任意の年に受けた場合、同じデータが得られます。得られた回答の平均をとると、次のようになります。 (2 * 0.5 + 1.5 + 2.5)/ 4 = 1.25 誰もが調査直後に菜食主義者でなくなったと仮定しているため、過小評価していますが、これは明らかに間違っています。これらの参加者がベジタリアンのままでいる実際の平均時間に近い推定値を取得するために、平均して、菜食主義の期間の約半分の時間を報告し、報告された期間に2を掛けると仮定できます。 (私が分析しているような)人口から、これは現実的な仮定だと思います。少なくとも、正しい期待値が得られます。ただし、2倍にすることが唯一の場合、平均2.5になりますが、これは過大評価です。これは、菜食主義者が長くいるほど、現在の菜食主義者のサンプルに含まれる可能性が高くなるためです。 誰かが現在の菜食主義者のサンプルに含まれている確率は、菜食主義の長さに比例すると思いました。この偏りを説明するために、私は現在のベジタリアンの数を彼らの予測されたアドヒアランスの長さで割ろうとしました: ただし、これにより不正確な平均も得られます。 (2 * 1 +⅓* 3 +⅕* 5)/(2 +⅓+⅕)= 4 / 2.533333 = 1.579年 菜食主義者の数を正しいアドヒアランスの長さで割った場合、正しい推定値が得られます。 (1 +⅓*(1 + 3 + 5))/(1 +⅓* 3)= 2年 しかし、アドヒアランスの予測された長さを使用し、それが実際に私が持っているすべてである場合、それは機能しません。他に何を試すべきかわかりません。私はサバイバル分析について少し読みましたが、この場合にどのようにそれを適用するのかわかりません。理想的には、90%の信頼区間も計算できるようにしたいと思います。どんなヒントでも大歓迎です。 …

2
加重平均推定の標準誤差の計算
その仮定とそれぞれ描かれているIIDと、いくつかのディストリビューションからの独立した。厳密に正です。すべての観察しますが、は観察しません。むしろを観察します。この情報からを推定することに興味があります。明らかに、推定器 \ bar {x} = \ frac {\ sum_i w_i x_i} {\ sum_i w_i} は偏りがなく、手元にある情報を基に計算できます。w1,w2,…,wnw1,w2,…,wnw_1,w_2,\ldots,w_nw i x i w i w i x i ∑ i x i w ix1,x2,...,xnx1,x2,...,xnx_1,x_2,...,x_nwiwiw_ixixix_iwiwiw_iwiwiw_ixixix_i∑ixiwi∑ixiwi\sum_i x_i w_iE[x]E⁡[x]\operatorname{E}\left[x\right]x¯=∑iwixi∑iwix¯=∑iwixi∑iwi \bar{x} = \frac{\sum_i w_i x_i}{\sum_i w_i} この推定器の標準誤差をどのように計算できますか?xixix_iが値0と1のみをとるサブケースでは、 se≈x¯(1−x¯)∑iw2i−−−−−−−−−−−−√∑iwi,se≈x¯(1−x¯)∑iwi2∑iwi, se \approx \frac{\sqrt{\bar{x}(1-\bar{x})\sum_i w_i^2}}{\sum_i w_i}, 基本的に変動を無視してwiwiw_iが、これは250の周りよりも小さいサンプルサイズの不振ことがわかった(そして、これはおそらくの分散に依存wiwiw_i。)多分私がするのに十分な情報を持っていないようです「より良い」標準誤差を計算します。

1
ノイズの多い観測から真の平均を決定する
フォーム(平均、標準偏差)のデータポイントの大規模なセットがあります。これを単一の(より良い)平均に、そして(できれば)より小さな標準偏差に減らしたいと思います。 明らかに、単に計算できましたが、データポイントのいくつかが他のものよりもはるかに正確であるという事実を考慮に入れていません。∑ dトンのAM E NN∑datameanN\frac{\sum data_{mean}}{N} 簡単に言えば、これらのデータポイントの加重平均を作成したいのですが、標準偏差に関して加重関数がどうあるべきかはわかりません。

1
各有権者の精度と関連する不確実性を使用する投票システム
たとえば、答えを知りたい単純な「はい/いいえ」の質問があるとします。そして、正解に「投票」するN人がいます。すべての有権者には履歴があります。1と0のリストで、過去にこの種の質問が正しかったか間違っていたかを示します。履歴を2項分布と仮定すると、そのような質問に対する有権者の平均パフォーマンス、その変動、CI、およびその他の種類の信頼性指標を見つけることができます。 基本的に、私の質問は、信頼情報を投票システムに組み込む方法ですか? たとえば、各有権者の平均パフォーマンスのみを考慮する場合、単純な重み付け投票システムを構築できます。 result=sign(∑v∈votersμv×(−1)1−vote)result=sign(∑v∈votersμv×(−1)1−vote)result = sign(\sum_{v \in voters}\mu_v \times (-1)^{1-vote}) つまり、投票者の重みに(「はい」の場合)または(「いいえ」の場合)を掛けた値を合計するだけです。それは理にかなっています:有権者1がに等しい正解の平均を持ち、有権者2がしか持っていない場合、おそらく、一人称投票がより重要であると考えられるべきです。一方、1人がこの種の質問に10個しか回答せず、2人が1000個の質問に回答した場合、2人目のスキルレベルは1人目よりもはるかに自信があります。1人目が幸運だった可能性があります。 、そして10の比較的成功した答えの後、彼はずっと悪い結果を続けます。+1+1+1−1−1-1.9.9.9.8.8.8 したがって、より正確な質問は次のように聞こえるかもしれません:いくつかのパラメーターについての強度と信頼性の両方を組み込んだ統計的メトリックはありますか?

4
一連の平均値の平均は、生データのセット全体から得られる平均と常に同じですか?
4つのデータセット(サンプルサイズが異なる)の平均を計算した場合、「平均の平均」を計算して「全体の平均」を取得できますか?はいの場合、この「平均の平均」は、4つのセットすべてのデータを組み合わせて平均を計算した場合と同じですか?

2
加重平均の分散が非加重平均よりも大きい
私のレビュー担当者が、重み付けされたデータではなく、重み付けされていないデータを使用した理由を尋ねています。私は統計学者とこの問題について話し合いました、そして彼の反応は 独立した観測値があり、全体の平均を取る場合、その分散は、推定量としての加重平均からの分散より常に小さくなります。...したがって、信頼区間が拡大されます。 その後、このWebサイトで次の質問を見つけました。私の理解から、分散は同じである必要があると示唆されています。ですから、私よりも統計的に才能のある心を持った誰かが、統計学者からの応答を確認し、理論を平易な言葉で説明したり、実際の例を使ったりしてください。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
指数加重移動平均を計算するより簡単な方法は?
提案された方法: 時系列与えられた場合、Nポイントの平均化ウィンドウで加重移動平均を計算します。加重は、古い値よりも新しい値を優先します。バツ私バツ私x_iNNN 重みを選択する際には、幾何級数が1に収束するというよく知られた事実、つまり、無限に多くの項が取られる場合。∑ (12)kΣ(12)k\sum (\frac{1}{2})^k 合計が1になる離散的な重みの数を取得するには、幾何学的系列の最初の項を取得し、それらの合計で正規化します。(1NNN(12)k(12)k(\frac{1}{2})^k 場合、例えば、これは、非正規化重みを与えますN= 4N=4N=4 0.0625 0.1250 0.2500 0.5000 合計で正規化すると、 0.0667 0.1333 0.2667 0.5333 移動平均は、これらの正規化された重みに対する最新の4つの値の積の合計になります。 この方法は、長さウィンドウを移動する明白な方法で一般化されており、計算上も同様に簡単に見えます。NNN 質問: 「指数加重」を使用して加重移動平均を計算するためにこの簡単な方法を使用しない理由はありますか? EWMAのWikipediaエントリはより複雑に見えるので、私は尋ねます。EWMAの教科書の定義に、上記の単純な定義にはない統計的特性があるのではないかと思うのはどれですか。それとも実際には同等ですか?

1
平均の平均(平均の、平均の…)
次の細胞生物学実験を考えてみましょう。比較していますTTT培養細胞の異なる処理。各治療ttt変数によってインデックス付けされたいくつかの(マイクロタイター)ウェルで複製されますW ∈ { 1 、2 、⋯ 、W}w∈{1、2、⋯、W}w \in \{1, 2, \cdots, W\}。治療に対する反応をよく測定するにはwww、 の合計 FwFwF_w重複しない顕微鏡写真、またはフィールドが記録されます。次に、フィールドごとにfff よく www、 の合計 Cw fCwfC_{wf} セルは計算により識別され、これにより各セルは ccc (よく www、フィールド fff)は、 Pw fcPwfcP_{wfc}ピクセル。最後に、各ピクセルに関連付けppp 測定です バツw fc pバツwfcpx_{wfcp} (そのピクセルで記録されたさまざまな蛍光信号の強度から派生)。 問題は、すべてのピクセル測定値を集計することです バツw fc pバツwfcpx_{wfcp} 「合理的な手段」を生み出す バツtバツtX_t 治療効果の ttt それで処理された細胞と同様に「広がり」のいくつかの測定 バツtバツtX_t。 このような問題に対する標準的なアプローチは、平均を「メジャー」として使用し、分散(または標準偏差)を「スプレッド」として使用することです。ただし、この場合は、平均と分散を計算する方法が複数あり、同等ではありません。 今のところ手段に焦点を合わせると、極端な場合、単に バツw fc pバツwfcpx_{wfcp} すべてのピクセルにわたって(セル、フィールド、ウェルの分布を無視して)、この合計をピクセルの総数で割ります PPP (治療用 ttt): …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.