タグ付けされた質問 「weighted-sampling」

1
ビニングされた観測値の標準偏差
サンプル観測値のデータセットがあり、範囲ビン内のカウントとして保存されています。例えば: min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 さて、これから平均の推定値を見つけることは非常に簡単です。各範囲ビンの平均(または中央値)を観測値として使用し、カウントを重みとして使用して、加重平均を見つけます。 x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i 私のテストケースでは、53.82になります。 私の質問は、標準偏差(または分散)を見つける正しい方法は何ですか? 検索を通じていくつかの答えを見つけましたが、どれが実際にデータセットに適切かはわかりません。ここでの別の質問とランダムなNISTドキュメントの両方で次の公式を見つけることができました。 s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } テストケースの標準偏差は8.35です。ただし、加重平均に関するウィキペディアの記事には、両方の式が記載されています。 s2∗=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑i=1Nwi(xi−x¯∗)2s2∗=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xi−x¯∗)2s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2 そして s2 …

1
重み付けされたサンプルの変位値の定義
分位を計算したい重み付きサンプルがあります。1 理想的には、重みが等しい場合(= 1またはそれ以外)、結果はscipy.stats.scoreatpercentile()とRの結果と一致しquantile(...,type=7)ます。 単純なアプローチの1つは、指定された重みを使用してサンプルを「乗算」することです。これにより、重量が1を超える領域で局所的に「フラットな」ecdfが効果的に得られます。これは、サンプルが実際にサブサンプリングである場合、直感的に間違ったアプローチのように見えます。特に、すべてが1の重みを持つサンプルは、すべてが2または3の重みを持つサンプルとは異なる分位点を持つことを意味します(ただし、[1]で参照されている論文はこのアプローチを使用しているようです)。 http://en.wikipedia.org/wiki/Percentile#Weighted_percentileは、加重パーセンタイルの代替公式を提供します。この定式化では、同じ値を持つ隣接するサンプルを最初に組み合わせて重みを合計する必要があるかどうかは明確ではなく、いずれの場合も、その結果はquantile()、重みなし/等しい重みの場合のRのデフォルトタイプ7と一致しないようです。変位値に関するウィキペディアのページでは、加重ケースについてはまったく言及していません。 Rの「タイプ7」クォンタイル関数の加重一般化はありますか? [Pythonを使用しますが、アルゴリズムを探しているだけです。実際、どの言語でも実行できます] M [1]重みは整数です。重みは、http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdfで説明されているように、「折りたたみ」操作と「出力」操作で結合されるバッファーの重みです。基本的に、重み付けされたサンプルは、重み付けされていない完全なサンプルのサブサンプリングであり、サブサンプル内の各要素x(i)は、完全なサンプル内のweight(i)要素を表します。

2
Rの複雑な調査データへのマルチレベルモデルの近似
Rのマルチレベルモデルで複雑な調査データを分析する方法に関するアドバイスを探していsurveyます。1レベルモデルでの選択の等しくない確率を重み付けするためにパッケージを使用しましたが、このパッケージにはマルチレベルモデリングの機能がありません。このlme4パッケージはマルチレベルモデリングに最適ですが、クラスタリングのさまざまなレベルで重みを含める方法を知る方法はありません。Asparouhov(2006)は問題を設定します: マルチレベルモデルは、クラスターサンプリング設計からのデータを分析するために頻繁に使用されます。ただし、このようなサンプリング設計では、クラスターレベルと個々のレベルで選択の確率が等しくないことがよくあります。サンプリングの重みは、これらの確率を反映するために、1つまたは両方のレベルで割り当てられます。いずれかのレベルでサンプリングの重みが無視された場合、パラメーター推定値は大幅にバイアスされる可能性があります。 2レベルモデルの1つのアプローチは、MPLUSに実装されているマルチレベルの疑似最尤(MPML)推定器です(Asparouhov et al、?)。Carle(2009)は主要なソフトウェアパッケージをレビューし、続行方法についていくつかの推奨事項を作成します。 複雑な調査データと設計の重みでMLMを適切に実施するには、アナリストは、プログラムの外部でスケーリングされた重みを含み、自動プログラム変更なしで「新しい」スケーリングされた重みを含むことができるソフトウェアが必要です。現在、3つの主要なMLMソフトウェアプログラムがこれを可能にしています:Mplus(5.2)、MLwiN(2.02)、およびGLLAMM。残念ながら、HLMもSASもこれを行うことはできません。 WestとGalecki(2013)はさらに最新のレビューを提供しています。関連する一節を詳しく引用します。 時折、アナリストは、複雑なデザインのサンプルから収集されたデータセットを調査するためにLMMを適合させたいと望んでいます(Heeringa et al、2010、Chapter 12を参照)。複雑なサンプル設計は、一般に、人口を層に分割すること、層内から個人のクラスターを多段階で選択すること、およびクラスターとサンプリングされた最終的な個人の両方の選択確率が等しくないことを特徴とします。これらの等しくない選択確率は、一般的に個人のサンプリング重みの構築につながり、分析に組み込まれたときに記述パラメータの公平な推定を保証します。これらの重みは、調査の非応答用にさらに調整され、既知の母集団の合計に合わせて調整される場合があります。伝統的に、アナリストは、回帰モデルを推定するときに、これらの複雑なサンプリング機能を組み込むための設計ベースのアプローチを検討する場合があります(Heeringa et al。、2010)。最近では、統計学者がこれらのデータを分析するためのモデルベースのアプローチを模索し始めており、LMMを使用してサンプリング層の固定効果とサンプリングされたクラスターのランダム効果を組み込んでいます。 これらのデータを分析するためのモデルベースのアプローチの開発における主な困難は、サンプリングの重みを組み込むための適切な方法を選択することでした(問題の概要については、Gelman、2007を参照してください)。Pfeffermann et al。(1998)、Asparouhov and Muthen(2006)、およびRabe-Hesketh and Skrondal(2006)は、調査の重みを組み込んだ方法でマルチレベルモデルを推定する理論を開発しました。Rabe-HeskethおよびSkrondal(2006)、Carle(2009)そしてHeeringa等。(2010年、第12章)は、現在のソフトウェア手順を使用したアプリケーションを提示していますが、これは引き続き統計研究の活発な分野です。LMMをフィッティングできるソフトウェア手順は、これまでに複雑な設計機能を組み込むために文献で提案されてきたアプローチを実装するさまざまな段階にあります。分析者は、LMMを複雑なサンプル調査データにフィッティングするときにこれを考慮する必要があります。複雑なサンプル調査から収集されたデータにLMMをフィッティングすることに関心のあるアナリストは、調査の重みを推定手順(HLM、MLwiN、Mplus、xtmixed、およびgllamm)に正しく組み込むことができる手順に惹かれます。範囲。 これは私に私の質問をもたらします:Rの複雑な調査データにLMMをフィッティングするためのベストプラクティスの推奨事項はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.