タグ付けされた質問 「pooling」

分散などのプーリングは、複数のグループまたは母集団が共通のプロパティ(共通のパラメーター値)を持っていると想定され、すべてのグループまたは母集団からの情報を一緒に使用してその共通のプロパティを推定する場合に使用されます。


3
既知のグループ分散、平均、およびサンプルサイズを指定して、2つ以上のグループのプールされた分散を計算する方法は?
言うがあるm+nm+nm+n要素は、二つのグループに分け(mmmおよびnnn)。第1グループの分散であり、σ2mσm2\sigma_m^2及び第2グループの分散であり、σ2nσn2\sigma^2_n。要素自体は不明であると想定されているが、私は知っている手段μmμm\mu_mとμnμn\mu_n。 複合分散計算する方法があるσ2(m+n)σ(m+n)2\sigma^2_{(m+n)}? 分散は不偏である必要はないので、分母は(m+n)(m+n)(m+n)あり、(m+n−1)(m+n−1)(m+n-1)ありません。
32 variance  pooling 

7
さまざまなソースからの確率/情報の組み合わせ
3つの独立したソースがあり、それぞれが明日の天気を予測するとします。最初の人は明日の雨の確率が0であると言い、2番目の人は確率が1であると言い、最後の人は確率が50%であると言います。その情報が与えられた場合の合計確率を知りたいです。 独立したイベントに乗算定理を適用すると、0になりますが、これは正しくないようです。すべてのソースが独立している場合、3つすべてを乗算できないのはなぜですか?新しい情報が得られたときに事前を更新するベイジアンの方法はありますか? 注:これは宿題ではなく、私が考えていたものです。

2
たたみ込みニューラルネットワークで最大プーリングが必要なのはなぜですか?
最も一般的な畳み込みニューラルネットワークには、出力フィーチャの次元を削減するプーリングレイヤーが含まれています。畳み込み層のストライドを単純に増やすだけで同じことを達成できないのはなぜですか?プール層が必要な理由は何ですか?

5
「実際に」プールされた分散とはどういう意味ですか?
私は統計の初心者なので、ここで私を助けてください。 私の質問は次のとおりです。プールされた分散は実際に何を意味しますか? インターネットでプールされた分散の式を探すと、次の式を使用して多くの文献が見つかります(たとえば、http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html): S2p=S21(n1−1)+S22(n2−1)n1+n2−2Sp2=S12(n1−1)+S22(n2−1)n1+n2−2\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation} しかし、実際には何を計算しますか?プールされた分散を計算するためにこの式を使用すると、間違った答えが得られるためです。 たとえば、これらの「親サンプル」を考えてみましょう。 2,2,2,2,2,8,8,8,8,82,2,2,2,2,8,8,8,8,8\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation} この親サンプルの分散である、その平均であるˉ X P = 5。S2p=10Sp2=10S^2_p=10x¯p=5x¯p=5\bar{x}_p=5 ここで、この親サンプルを2つのサブサンプルに分割するとします。 最初のサブサンプルは、平均と2,2,2,2,2である、分散S 2 1 = 0。x¯1=2x¯1=2\bar{x}_1=2S21=0S12=0S^2_1=0 第2のサブサンプルは、平均と8,8,8,8,8である及び分散S 2 2 = 0。x¯2=8x¯2=8\bar{x}_2=8S22=0S22=0S^2_2=0 ここで、およびS 2 = 0であるため、上記の式を使用してこれら2つのサブサンプルのプール/親分散を計算すると、ゼロが生成されます。それでは、この式は実際に何を計算しますか?S1=0S1=0S_1=0S2=0S2=0S_2=0 一方、長い時間をかけて導出した後、正しいプール/親の分散を生成する式は次のとおりです。 S2p=S21(n1−1)+n1d21+S22(n2−1)+n2d22n1+n2−1Sp2=S12(n1−1)+n1d12+S22(n2−1)+n2d22n1+n2−1\begin{equation} \label{eq:smartpooledvar} \displaystyle S^2_p = …
15 variance  mean  pooling 

1
複数の代入後のキャリブレーションプロットのプーリング
複数の代入後のキャリブレーションプロット/統計のプーリングに関するアドバイスをお願いします。将来のイベントを予測するために統計モデルを開発する設定では(たとえば、病院の記録からのデータを使用して退院後の生存やイベントを予測する)、多くの情報が欠落していることが想像できます。複数の代入はそのような状況を処理する方法ですが、結果として、代入の固有の不確実性による追加の変動性を考慮して、各代入データセットからのテスト統計をプールする必要があります。 複数のキャリブレーション統計(hosmer-lemeshow、HarrellのEmax、推定キャリブレーションインデックスなど)があることを理解しています。プーリングに関する「通常の」Rubinのルールが適用される可能性があります。 ただし、これらの統計は多くの場合、モデルの特定のミスキャリブレーション領域を示さないキャリブレーションの全体的な測定値です。この理由から、私はむしろ較正プロットを見たいと思います。残念ながら、プロットまたはそれらの背後にあるデータ(個人ごとの予測確率と個人ごとの観測結果)を「プール」する方法については無知であり、生物医学文献(私がよく知っている分野)にはあまり見つけることができません、または、ここで、CrossValidatedで。もちろん、各代入データセットのキャリブレーションプロットを見ることは答えかもしれませんが、多くの代入セットが作成されると、非常に面倒になる可能性があります。 したがって、複数の代入(?)後にプールされたキャリブレーションプロットをもたらす手法があるかどうかを尋ねたいと思います

1
変数のエラー回帰:3つのサイトからのデータをプールすることは有効ですか?
サイトからのデータをプールするとき、分析には3つのサイトからのデータのプールが含まれるため、2つのサイトに含まれるサンプルが含まれるため同じ。 バックグラウンド クライアントは、既存の承認されたメソッドと「同等」であることを示したい新しいアッセイメソッドを持っていました。彼らのアプローチは、同じサンプルに適用された両方の方法の結果を比較することでした。テストには3つのサイトが使用されました。変数のエラー(デミング回帰)が各サイトのデータに適用されました。これは、回帰分析で勾配パラメーターが1に近く、切片が0に近い場合、2つのアッセイ手法でほぼ同じ結果が得られるため、新しい方法を承認する必要があるということです。サイト1には45のサンプルがあり、45のペアの観察結果が得られました。サイト2には40サンプル、サイト3には43サンプルがありました。彼らは、3つの別個のデミング回帰を行いました(2つの方法の測定誤差の比率を1と仮定)。そのため、アルゴリズムは垂直距離の二乗の合計を最小化しました。 クライアントは、サイト1とサイト2で使用されているサンプルの一部が同じであると指摘しました。レビューでは、FDAのレビューアは、モデルの仮定を無効にする「干渉」を引き起こす一般的なサンプルが使用されたため、デミング回帰は無効であると述べました。彼らは、この干渉を考慮して、ブートストラップ調整をデミング結果に適用することを要求しました。 その時点で、クライアントは私が持ち込まれたブートストラップの方法を知らなかったので、干渉という用語は奇妙であり、レビュアーが何を得ているのか正確にはわかりませんでした。プールされたデータには共通のサンプルがあるため、共通のサンプルに相関があり、したがってモデルの誤差項がすべて独立しているわけではない、というのが実際のポイントだと思いました。 クライアントの分析 3つの個別の回帰は非常に似ていました。それぞれが1に近い勾配パラメーターと0に近い切片を持ちました。95%信頼区間には、それぞれ勾配と切片にそれぞれ1と0が含まれていました。主な違いは、サイト3での残留分散がわずかに高いことでした。さらに、これをOLSの実行結果と比較し、非常に類似していることがわかりました(OLSに基づく勾配の信頼区間は1を含みませんでした)。勾配のOLS CIに1が含まれていない場合、区間の上限は0.99のようなものでした。 3つのサイトすべてで結果が非常に類似しているため、サイトデータをプールすることは妥当と思われました。クライアントはプールされたデミング回帰を行い、これも同様の結果をもたらしました。これらの結果を踏まえて、回帰が無効であるという主張に異議を唱えるクライアントのレポートを書きました。私の主張は、両方の変数に同様の測定誤差があるため、クライアントは同意/不一致を示す方法としてデミング回帰を使用するのが正しいということです。特定のサイト内でサンプルが繰り返されなかったため、個々のサイトの回帰には相関エラーの問題はありませんでした。データをプールして、信頼区間をより厳しくします。 この問題は、サイト1の一般的なサンプルでデータを単純にプールすることで解決できます。また、3つの個別のサイトモデルには問題がなく、有効です。これは、プーリングなしでも同意の強力な証拠を提供するようです。さらに、共通のサイトのサイト1と2で独立して測定が行われました。そのため、サイト1のサンプルの測定誤差はサイト2の対応するサンプルの測定誤差と相関しないため、すべてのデータを使用したプール分析でも有効であると思います。問題にならないスペース。相関/「干渉」を作成しません。 私のレポートでは、調整する相関関係がないため、ブートストラップ分析は不要であると書きました。3つのサイトモデルは有効であり(サイト内で「干渉」の可能性はありません)、プーリングを行うときにサイト1の共通サンプルを削除して、プールされた分析を行うことができました。このようなプールされた分析には干渉の問題はありません。調整するバイアスがないため、ブートストラップ調整は必要ありません。 結論 クライアントは私の分析に同意しましたが、FDAに持ち込むことを恐れていました。とにかく彼らは私にブートストラップの調整をしてほしい。 私の質問 A)(1)クライアントの結果の分析と(2)ブートストラップが不要であるという私の主張に同意しますか。 B)デミング回帰をブートストラップする必要があると仮定すると、ブートストラップサンプルでデミング回帰を実行するために利用可能なSASまたはRの手順はありますか? 編集:ビルフーバーの提案を考えると、私はx上のyとx上のxの両方の回帰による変数エラー回帰の限界を見ることを計画しています。OLSの1つのバージョンでは、2つの誤差分散が等しいと仮定した場合、答えは本質的に変数のエラーと同じであることをすでに知っています。これが他の回帰にも当てはまる場合、デミング回帰が適切なソリューションを提供することを示していると思います。同意しますか? クライアントの要求を満たすために、漠然と定義された要求されたブートストラップ分析を行う必要があります。倫理的には、ブートストラップを提供するだけでは、クライアントの実際の問題が解決されないため、アッセイ測定手順を正当化することは間違っていると思います。そこで、少なくとも分析と要求の両方を行い、ブートストラップに加えて、逆回帰を行い、より適切だと思うデミング回帰を制限したことをFDAに伝えるよう要求します。また、分析により、それらの方法が参照と同等であり、したがってデミング回帰も適切であることが示されると思います。 @whuberが彼の答えで提案したRプログラムを使用して、Deming回帰をブートストラップできるようにする予定です。私はRにあまり馴染みがありませんが、できると思います。R StudioとともにRをインストールしています。それは私のような初心者にとって十分に簡単になりますか? また、私はSASを所有しており、SASでより快適にプログラミングできます。SASでこれを行う方法を知っている人がいれば、それについて知っていただければ幸いです。

1
重み付き相関などですか?
ストリーミング配信された最も人気のある音楽アーティストに関する興味深いデータを、場所ごとに約200の議会地区に分割しています。音楽の好みについて人に投票して、その人が「民主党員のように聞く」のか、「共和党員のように聞く」のかを判断できるかどうかを見たい。(当然、これは簡単ですが、データには実際のエントロピーがあります!) 約100人のアーティストに関するデータに加えて、過去3回の選挙サイクルにおける各地区の共和党員と民主党員の平均投票率があります。そこで、各アーティストについて相関関係を調べ、どのアーティストが最も不釣り合いに聴かれているかを、民主党の投票シェアの関数として調べました。これらの相関関係は、どのアーティストでも約-0.3から0.3の範囲であり、中間には予測力がほとんどまたはまったくないものがたくさんあります。 2つの質問があります。1つ目は、地区ごとのストリームの総数は大きく異なります。現在、私は、たとえばビヨンセに属する地区ごとのすべてのストリームの割合を、民主党に投じられた票の割合と相関させています。しかし、ある地区の総河川は数百万、もう1つの地区は100,000の低さです。これを説明するために、どういうわけか相関に重みを付ける必要がありますか? 第二に、これらの相関関係を組み合わせて、ユーザーの政治に関する複合的な推測を行う方法に興味があります。絶対相関値が最も高い20人のアーティスト(正と負)をそれぞれの方向に10人ずつ取り、各アーティストがどれだけ好きかについてユーザーに投票するとします。したがって、私は各アーティストに賛成または反対票を投じ、さらに20の価値すべてに対する政治との相関関係を持っています。これらの相関を単一の推定値に結合する標準的な方法はありますか?(私はNYTimesの有名な方言クイズのようなものを考えています。そこでは25の質問に対する地域の確率をヒートマップに結合しました。しかしこの場合、音楽に対する民主党や共和党員の好みに関する単一の値が必要です。 ありがとうございました!

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

2
複数の帰属データセットで行われたテストでプールされたp値を取得するにはどうすればよいですか?
Rでアメリアを使用して、複数の帰属データセットを取得しました。その後、SPSSで繰り返し測定テストを行いました。ここで、テスト結果をプールします。Rubinのルール(Rの複数の代入パッケージを通じて実装)を使用して平均値と標準誤差をプールできることはわかっていますが、p値をプールするにはどうすればよいですか?出来ますか?Rにそうする関数はありますか?前もって感謝します。

1
パネルデータ:プールされたOLS対RE対FE効果
FEと比較したPooled-OLSおよびRE Estimatorの有用性について、いくつかの議論がありました。 つまり、私が知る限り、プールされたOLS推定は、単にPanelデータに対して実行されるOLS手法です。したがって、個々に固有の影響はすべて完全に無視されます。そのため、誤差項の直交性などの基本的な仮定の多くに違反しています。 REは、ランダムであると想定されるモデルに個別の仕様インターセプトを実装することによってこの問題を解決します。これは、モデルの完全な外来性を意味します。これはHausmann-Testでテストできます。 ほとんどすべてのモデルにはいくつかの内因性の問題があるため、FE-Estimationは最良の選択であり、最良の一貫した推定を提供しますが、個々の特定のパラメーターは失われます。 私が自問している質問は、プールされたOLSまたはランダム効果を使用することが実際に意味があるのはいつかということです。プールされたOLSは非常に多くの仮定に違反しているため、まったく意味がありません。また、RE-Estimatorの強力な外因性は基本的に与えられないので、いつそれが実際に役立つのでしょうか? これに加えて、すべてのモデルで、自己相関は考慮できませんか?

2
多重補完されたデータセットを組み合わせるためのルービンのルールの適用
多重に代入されたデータ(たとえば、重回帰分析、分散分析)に対して実行されたかなり基本的な分析セットの結果をプールしたいと思っています。複数の代入と分析はSPSSで完了していますが、SPSSはF値、共分散行列、R二乗などを含むいくつかの統計のプール結果を提供しません。 私は、Rに挑戦するか、利用可能なマクロを試してこの問題に対処するためにいくつかの試みを行いましたが、問題を正常に解決していません(たとえば、マウスで5つ以上の代入の統計をプールすることで問題が発生するなど)。 この時点で、SPSSが生成する出力を使用して、Rubinのルールを適用し、これらを手動で計算してみたいと思います。ただし、SPSSが生成する出力に基づいて、代入内の分散()をどのように導出できるかわかりません。 U¯= 1メートルΣメートルj = 1UjU¯=1m∑j=1mUj\bar U = \frac 1 m\sum_{j=1}^mU_j これについての詳細な説明を本当にいただければ幸いです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.