タグ付けされた質問 「weighted-data」

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
加重分散のバイアス補正
重み付けされていない分散 場合、同じデータから平均が推定されたときにバイアス補正されたサンプル分散が存在します: ヴァー(X):= 1n∑私(x私- μ )2ヴァール(バツ):=1n∑私(バツ私−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2ヴァー(X):= 1n − 1∑私(x私− E[ X] )2ヴァール(バツ):=1n−1∑私(バツ私−E[バツ])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 私は加重平均と分散を調べており、加重分散の適切なバイアス補正とは何なのか疑問に思っています。使用: 平均(X):= 1∑私ω私∑私ω私バツ私平均(バツ):=1∑私ω私∑私ω私バツ私\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i 私が使用している「単純な」未修正の分散は、次のとおりです。 ヴァー(X):= 1∑私ω私∑私ω私(x私− 平均(X))2ヴァール(バツ):=1∑私ω私∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 だから、バイアスを修正する正しい方法は A) ヴァー(X):= 1∑私ω私− 1∑私ω私(x私− 平均(X))2ヴァール(バツ):=1∑私ω私−1∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 またはB) ヴァー(X):= nn − 11∑私ω私∑私ω私(x私− 平均(X))2ヴァール(バツ):=nn−11∑私ω私∑私ω私(バツ私−平均(バツ))2\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 またはC) …

2
不均衡なデータのロジスティック回帰に重みを追加する
不均衡なデータ(9:1)でロジスティック回帰をモデル化します。glmR の関数でweightsオプションを試してみたかったのですが、それが何をするのか100%確信できません。 私の出力変数がであるとしましょうc(0,0,0,0,0,0,0,0,0,1)。今、私は「1」に10倍の重みを与えたいです。だから私は重みの引数を与えますweights=c(1,1,1,1,1,1,1,1,1,1,1,10)。 私がそれをするとき、それは最尤法の計算で考慮されます。私は正しいですか?「1」の誤分類は、「0」の誤分類よりも10倍悪いだけです。

2
加重主成分分析
いくつかの検索の後、主成分分析に観測値の重み/測定誤差を組み込むことはほとんどありません。私が見つけたものは、重み付けを含めるために反復アプローチに依存する傾向があります(たとえば、ここ)。私の質問は、なぜこのアプローチが必要なのですか?なぜ重み付き共分散行列の固有ベクトルを使用できないのですか?

1
加重分散、もう一度
偏りのない重み付き分散は、すでにここや他の場所で対処されましたが、依然として驚くべき量の混乱があるようです。最初のリンクとWikipediaの記事で提示された公式に対する合意があるようです。これは、R、Mathematica、およびGSLで使用される式(MATLABではない)のようにも見えます。ただし、Wikipediaの記事には、重み付き分散の実装に対する優れた健全性チェックのように見える次の行も含まれています。 たとえば、値{2,2,4,5,5,5}が同じ分布から引き出される場合、このセットを重み付けされていないサンプルとして扱うか、重み付けされたサンプルとして扱うことができます{2,4、 5}に対応する重み{2,1,3}があり、同じ結果が得られます。 私の計算では、元の値の分散に対して2.1667の値が、重み付き分散に対して2.9545の値が得られます。それらが同じであることを本当に期待すべきですか?なぜですか?

1
重み付き相関などですか?
ストリーミング配信された最も人気のある音楽アーティストに関する興味深いデータを、場所ごとに約200の議会地区に分割しています。音楽の好みについて人に投票して、その人が「民主党員のように聞く」のか、「共和党員のように聞く」のかを判断できるかどうかを見たい。(当然、これは簡単ですが、データには実際のエントロピーがあります!) 約100人のアーティストに関するデータに加えて、過去3回の選挙サイクルにおける各地区の共和党員と民主党員の平均投票率があります。そこで、各アーティストについて相関関係を調べ、どのアーティストが最も不釣り合いに聴かれているかを、民主党の投票シェアの関数として調べました。これらの相関関係は、どのアーティストでも約-0.3から0.3の範囲であり、中間には予測力がほとんどまたはまったくないものがたくさんあります。 2つの質問があります。1つ目は、地区ごとのストリームの総数は大きく異なります。現在、私は、たとえばビヨンセに属する地区ごとのすべてのストリームの割合を、民主党に投じられた票の割合と相関させています。しかし、ある地区の総河川は数百万、もう1つの地区は100,000の低さです。これを説明するために、どういうわけか相関に重みを付ける必要がありますか? 第二に、これらの相関関係を組み合わせて、ユーザーの政治に関する複合的な推測を行う方法に興味があります。絶対相関値が最も高い20人のアーティスト(正と負)をそれぞれの方向に10人ずつ取り、各アーティストがどれだけ好きかについてユーザーに投票するとします。したがって、私は各アーティストに賛成または反対票を投じ、さらに20の価値すべてに対する政治との相関関係を持っています。これらの相関を単一の推定値に結合する標準的な方法はありますか?(私はNYTimesの有名な方言クイズのようなものを考えています。そこでは25の質問に対する地域の確率をヒートマップに結合しました。しかしこの場合、音楽に対する民主党や共和党員の好みに関する単一の値が必要です。 ありがとうございました!

1
重み付き最小二乗重みの定義:R lm関数と
R重み付けされた最小二乗法とマトリックス演算による手動のソリューションから異なる結果が得られる理由を誰かに教えてもらえますか? 具体的には、を手動で解決しようとしています。ここで、は重みの対角行列、はデータ行列、は応答ですベクター。 W A bWAx=WbWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Abb\mathbf b 引数R lmを使用して結果を関数と比較しようとしていweightsます。

1
加重不偏標本共分散の正しい方程式
私は、加重不偏サンプル共分散を計算するための正しい方程式を探しています。このテーマではインターネットソースは非常にまれであり、それらはすべて異なる方程式を使用します。 私が見つけた最もありそうな方程式はこれです: qjk=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑Ni=1wi(xij−x¯j)(xik−x¯k).qjk=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xij−x¯j)(xik−x¯k).q_{jk}=\frac{\sum_{i=1}^{N}w_i}{\left(\sum_{i=1}^{N}w_i\right)^2-\sum_{i=1}^{N}w_i^2} \sum_{i=1}^N w_i \left( x_{ij}-\bar{x}_j \right) \left( x_{ik}-\bar{x}_k \right) . 送信元:https : //en.wikipedia.org/wiki/Sample_mean_and_sample_covariance#Weighted_samples もちろん、重み付けされた(バイアスされていない)サンプル平均を事前に計算する必要があります。 しかし、私は他のいくつかの式を見つけました: qjk=1∑Ni=1wi)−1∑Ni=1wi(xij−x¯j)(xik−x¯k).qjk=1∑i=1Nwi)−1∑i=1Nwi(xij−x¯j)(xik−x¯k).q_{jk}= \frac{1}{\sum_{i=1}^N w_i)-1}\sum_{i=1}^N w_i \left( x_{ij}-\bar{x}_j \right) \left( x_{ik}-\bar{x}_k \right) . または、標準の共分散式を使用しているが、サンプル平均の代わりに加重サンプル平均を使用しているソースコードや学術論文を見たこともあります... 誰かが私を助けて光を当てることができますか? / EDIT:私の重みは、データセット内のサンプルの観測値の数です。したがって、weights.sum()= n

2
加重平均の分散が非加重平均よりも大きい
私のレビュー担当者が、重み付けされたデータではなく、重み付けされていないデータを使用した理由を尋ねています。私は統計学者とこの問題について話し合いました、そして彼の反応は 独立した観測値があり、全体の平均を取る場合、その分散は、推定量としての加重平均からの分散より常に小さくなります。...したがって、信頼区間が拡大されます。 その後、このWebサイトで次の質問を見つけました。私の理解から、分散は同じである必要があると示唆されています。ですから、私よりも統計的に才能のある心を持った誰かが、統計学者からの応答を確認し、理論を平易な言葉で説明したり、実際の例を使ったりしてください。

2
(任意に)重み付けされた最尤推定量の分布は何ですか?
独立変数のベクトルと従属変数を、尤度で観察するとします。が独立していると仮定します。またあなたが肯定与えられていると仮定した重み、任意であり、加重最尤推定量を計算する(WMLEか?): WMLE、の分布は?XiXiX_iyiyiy_il(θ;Xi,yi)l(θ;Xi,yi)l\left(\theta;X_i,y_i\right)yiyiy_iwiwiw_iθ^=argmaxθ∑1≤i≤nwilogl(θ;Xi,yi).θ^=arg⁡maxθ∑1≤i≤nwilog⁡l(θ;Xi,yi). \hat{\theta} = \arg \max_{\theta} \sum_{1\le i\le n} w_i \log l\left(\theta;X_i,y_i\right). θ^θ^\hat{\theta} 2つに分割せずに質問をさらに複雑にする可能性がある場合は、2つのケースを検討する必要があります。 wiwiw_i完全に独立してXiXiX_iとyiyiy_i。 wiwiw_i従属変数に依存yiyiy_i何らかの方法で(おそらく、決定論的または確率的。)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.