タグ付けされた質問 「sampling」

確率論的方法を使用して、指定された母集団からサンプルを作成し、指定された分布から乱数を生成します。このタグがあいまいなので、前者には[調査サンプリング]、後者には[モンテカルロ]または[シミュレーション]を検討してください。既知の分布からランダムサンプルを作成することに関する質問については、[random-generation]タグの使用を検討してください。


2
ギブスサンプリングと一般的なMH-MCMC
私はギブスのサンプリングとメトロポリス・ヘイスティングスのアルゴリズムについて読んでいるところですが、いくつか質問があります。 私が理解しているように、ギブスサンプリングの場合、大きな多変量問題がある場合、条件付き分布からサンプリングします。つまり、他のすべてを固定したまま1つの変数をサンプリングします。 文書によると、提案されたサンプルは常に Gibbs Samplingで受け入れられます。つまり、提案受け入れ率は常に1です。 。もしそうなら、事後分布を生成するために常にギブスサンプラーを使用しない理由は何ですか?

2
時系列の与えられたパワーとクロススペクトル密度のシミュレーション
共分散行列(それらのパワースペクトル密度(PSD)およびクロスパワースペクトル密度(CSD))を考えると、一連の定常色付き時系列の生成に問題があります。 2つの時系列と与えられると、yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t)ような多くの広く利用可能なルーチンを使用して、パワースペクトル密度(PSD)およびクロススペクトル密度(CSD)を推定できることを知っていますMatlabなどの関数psd()とcsd()関数。PSDとCSDは共分散行列を構成します C(f)=(PII(f)PJI(f)PIJ(f)PJJ(f)),C(f)=(PII(f)PIJ(f)PJI(f)PJJ(f)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, これは一般に周波数fff関数です。 逆にしたい場合はどうなりますか? 共分散行列が与えられた場合、yI(t)yI(t)y_{I}(t)とyJ(t)yJ(t)y_{J}(t)実現をどのように生成しますか? 背景理論を含めるか、これを行う既存のツールを指摘してください(Pythonのすべてが素晴らしいでしょう)。 私の試み 以下は、私が試したものと、私が気づいた問題の説明です。少し長い間読んでおり、誤用された用語が含まれている場合は申し訳ありません。間違っていることが指摘できる場合、それは非常に役立ちます。しかし、私の質問は上記の太字のものです。 PSDとCSDは、時系列のフーリエ変換の積の期待値(またはアンサンブル平均)として記述できます。したがって、共分散行列は次のように記述できます C(f)=2τ⟨Y†(f)Y(f)⟩,C(f)=2τ⟨Y†(f)Y(f)⟩, \mathbf{C}(f) = \frac{2}{\tau} \langle \mathbf{Y}^{\dagger}(f) \mathbf{Y}(f) \rangle \;, ここで、 Y(f)=(y~I(f)y~J(f)).Y(f)=(y~I(f)y~J(f)). \mathbf{Y}(f) = \left( \begin{array}{cc} \tilde{y}_{I}(f) & \tilde{y}_{J}(f) \end{array} \right) \;. 共分散行列はエルミート行列であり、ゼロまたは正の実固有値を持ちます。だから、に分解することができる C(f)= X(f)λ12(f)私λ12(f)X†(f)、C(f)=バツ(f)λ12(f)私λ12(f)バツ†(f)、 \mathbf{C}(f) = \mathbf{X}(f) \boldsymbol\lambda^{\frac{1}{2}}(f) …

3
からサンプリングする方法は
密度f (a )∝ c a d a − 1に従ってサンプリングしたい f(a )∝ cada − 1Γ (a )1(1 、∞ )(a)f(a)∝cada−1Γ(a)1(1,∞)(a) f(a) \propto \frac{c^a d^{a-1}}{\Gamma(a)} 1_{(1,\infty)}(a) ここで、cccとdddは厳密に正です。(動機:これは、ガンマ密度の形状パラメーターが均一な事前分布を持つ場合のギブスサンプリングに役立ちます。) 誰でもこの密度から簡単にサンプリングする方法を知っていますか?たぶんそれは標準的なもので、私が知らないことなのでしょうか? 私は、多かれ少なかれ仕事(モードを見つけるでしょう愚かな拒絶sampliingアルゴリズムと考えることができます*のF、サンプル(、U )大きな箱に均一からを[ 0 、10 * ] × [ 0 、F (A ∗)]およびu > f (a ))の場合は拒否しますが、(i)それはまったく効率的ではなく、(ii)f (a ∗)a∗a∗a^*fff(a,u)(a,u)(a,u)[0,10a∗]×[0,f(a∗)][0,10a∗]×[0,f(a∗)][0,10a^*]\times [0,f(a^*)]u>f(a)u>f(a)u>f(a)f(a∗)f(a∗)f(a^*)コンピュータが大きすぎて、適度に大きいおよびdでも簡単に処理できません。(大きなcとdのモードはおよそa = c dであることに注意してください。)cccdddcccddda=cda=cda=cd 助けてくれてありがとう!

3
最適化手法はサンプリング手法にマッピングされますか?
一般的なサンプリングアルゴリズムから、最適化アルゴリズムを導き出すことができます。 実際、任意の関数最大化するために、、それからサンプルを描画するために十分でG 〜EのF / T。Tが十分に小さい場合、これらのサンプルは関数fのグローバルな最大値(または実際にはローカルな最大値)に近くなります。f:x → f(x)f:バツ→f(バツ)f: \textbf{x} \rightarrow f(\textbf{x})g〜Ef/ Tg〜ef/Tg \sim e^{f/T}TTTfff 「サンプリング」とは、定数まで知られている対数尤度関数が与えられた分布から擬似ランダムサンプルを描画することを意味します。たとえば、MCMCサンプリング、ギブスサンプリング、ビームサンプリングなど。「最適化」とは、特定の関数の値を最大化するパラメーターを見つけることを意味します。 その逆は可能ですか?関数または組み合わせ式の最大値を見つけるためのヒューリスティックが与えられた場合、効率的なサンプリング手順を抽出できますか? たとえば、HMCは勾配情報を利用しているようです。ヘッセ行列のBFGSのような近似を利用するサンプリング手順を構築できますか?(編集:明らかにはい:http : //papers.nips.cc/paper/4464-quasi-newton-methods-for-markov-chain-monte-carlo.pdf)組み合わせの問題でMCTSを使用できます。サンプリング手順に? コンテキスト:サンプリングの難しさは、確率分布の質量のほとんどが非常に小さな領域内にあることです。そのような領域を見つけるための興味深い手法がありますが、それらはバイアスのないサンプリング手順に直接変換されません。 編集:私は今、その質問への答えは複雑度クラス#PとNPの平等性にいくらか同等であると感じており、答えを「ノー」と思われます。すべてのサンプリング手法が最適化手法を生み出す理由を説明していますが、その逆はありません。

4
整数ではない量の連続したベルヌーイの成功を生成する方法は?
与えられた: バイアスが不明なコイン(ヘッド)。ppp 厳密に正の実数 。a>0a>0a > 0 問題: バイアスランダムなベルヌーイ変量を生成します。papap^{a} 誰もこれを行う方法を知っていますか?たとえば、が正の整数である場合、コインを回反転し、すべての結果がHeadsであるかどうかを確認できます。それらが「0」を発行する場合は「1」を発行します。問題は、が必ずしも整数ではないという事実にあります。また、バイアスわかっていれば、目的のバイアスで別のコインを作成できます。 aaaaaaaaappp
18 sampling 

1
クラウドソーシングデータのサンプリングモデル?
私は、発展途上国での使用を計画しているオープンな健康調査アプリケーションに取り組んでいます。 基本的な考え方は、調査インタビューはクラウドソーシングであるということです-彼らはモバイルデバイスを使用して行ったインタビューのフォームデータを提出する未組織のボランティアによって行われ、各調査にはインタビュー場所のGPSデータが付随します。 政府機関がまとめた従来の調査は、通常、標準サンプリングモデル(通常は確率サンプリングモデル)を使用して実装されます。これには、常に実行できるとは限らない多くの集中計画が必要です。(私の質問を正しい文脈に置くためにこれに言及した) 私たちは、ボランティアが自分の地域の周辺で便利なサンプリングを実施すると言うことができます。彼は、彼が到達できる人数を任意にインタビューします。 基本的な問題は、この測量システムの全体的なサンプリングモデルをどのように理解し、特徴付けることができるかです。そのような場合に対処するための方法論または構成モデルはありますか?
18 sampling 

5
なぜ比率の信頼区間を構築するためにt分布を利用しないのですか?
未知の母標準偏差(sd)を持つ平均の信頼区間(CI)を計算するには、t分布を使用して母標準偏差を推定します。なお、ここで。ただし、母集団の標準偏差のポイント推定値がないため、近似を使用して推定しここでCI=X¯±Z95%σX¯CI=X¯±Z95%σX¯CI=\bar{X} \pm Z_{95\% }\sigma_{\bar X}σX¯=σn√σX¯=σn\sigma_{\bar X} = \frac{\sigma}{\sqrt n}CI=X¯±t95%(se)CI=X¯±t95%(se)CI=\bar{X} \pm t_{95\% }(se)se=sn√se=snse = \frac{s}{\sqrt n} 対照的に、人口の割合については、CIを計算するために、として近似します。ここではおよびCI=p^±Z95%(se)CI=p^±Z95%(se)CI = \hat{p} \pm Z_{95\% }(se)se=p^(1−p^)n−−−−−√se=p^(1−p^)nse = \sqrt\frac{\hat{p}(1-\hat{p})}{n}np^≥15np^≥15n \hat{p} \ge 15n(1−p^)≥15n(1−p^)≥15n(1-\hat{p}) \ge 15 私の質問は、なぜ人口比率の標準分布に満足しているのですか?

4
「ランダムサンプル」と「iidランダム変数」は同義語ですか。
「ランダムサンプル」と「iidランダム変数」の意味を理解するのに苦労しています。私はいくつかの情報源から意味を見つけようとしましたが、ますます混乱しました。私がここに投稿したのは、私が試し、知ったものです: Degrootの確率と統計によると: ランダムサンプル/ iid /サンプルサイズ:pfまたはpdfいずれかで表すことができる実線上の特定の確率分布を考慮します。これは、と言われての確率変数、これらのランダム変数が独立しており、それぞれの周辺のpfまたはpdfが場合、この分布からランダムサンプルを形成します。このようなランダム変数は、独立しており、同じように分布していると言われています。略してiidランダム変数の数nをサンプルサイズと呼びます。nはX 1、。。。、X n ffffnnnX1,...,XnX1,...,XnX_1 , . . . , X_nfff しかし、私が言っている他の統計書の1つ: ランダムサンプリングでは、母集団内のすべてのユニットが選択される確率(確率)が等しくなることを保証します。 したがって、iidはランダムサンプルを構成する要素であり、ランダムサンプルを取得する手順はランダムサンプリングであると感じています。私は正しいですか? PS:私はこのトピックについて非常に混乱しているので、私は精巧な返事を感謝します。ありがとう。

1
境界のあるパラメータ空間でのMCMC?
問題にMCMCを適用しようとしていますが、事前(私の場合は))はエリアに制限されていますか?通常のMCMCを使用して、制限ゾーン(私の場合は[0,1] ^ 2)の外にあるサンプルを無視できますか。つまり、新しい遷移が制限(制約)エリアから外れた場合に遷移関数を再利用できますか?α∈[0,1],β∈[0,1]α∈[0,1],β∈[0,1]\alpha\in[0,1],\beta\in[0,1]

2
2つの独立したベルヌーイ母集団からのサンプリング分布
2つの独立したベルヌーイ確率変数のサンプル、およびます。Ber(θ1)Ber(θ1)\mathrm{Ber}(\theta_1)Ber(θ2)Ber(θ2)\mathrm{Ber}(\theta_2) どうやっていることを証明しない?(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2−−−−−−−−−−−−−−√→dN(0,1)(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2→dN(0,1)\frac{(\bar X_1-\bar X_2)-(\theta_1-\theta_2)}{\sqrt{\frac{\theta_1(1-\theta_1)}{n_1}+\frac{\theta_2(1-\theta_2)}{n_2}}}\xrightarrow{d} \mathcal N(0,1) と仮定します。n1≠n2n1≠n2n_1\neq n_2


2
「すべての青いTシャツを着た人」は体系的なサンプルですか?
私はイントロの統計クラスを教えており、k番目の個人またはオブジェクトごとにサンプリングする体系的なサンプリングなど、サンプリングのタイプをレビューしていました。 生徒は、特定の特性を持つすべての人をサンプリングしても同じことを達成できるかどうかを尋ねました。 たとえば、青いTシャツを着たすべての人をサンプリングすることは十分にランダムであり、人口全体を十分に表現できますか?少なくとも、「どの色のTシャツを着るのが好きですか?」以外の質問をする場合は、私の感覚はノーですが、ここの誰かがこれについて何か考えを持っているのではないかと思いました。
17 sampling 

4
必要なサンプルサイズ、分散推定の精度を計算していますか?
バックグラウンド 分布が不明な変数があります。 500個のサンプルがありますが、分散を計算できる精度を実証したいと思います。たとえば、サンプルサイズ500で十分だと主張します。また、分散を精度で推定するために必要な最小サンプルサイズを知ることに興味があります。X%X%X\% ご質問 どうすれば計算できますか サンプルサイズ所与分散の私の推定値の精度??n=500n=500n=500n=Nn=Nn=N 精度で分散を推定するために必要なサンプルの最小数を計算するにはどうすればよいですか?XXX 例 図1 500サンプルに基づくパラメーターの密度推定。 図2これは、x軸のサンプルサイズと、500のサンプルのサブサンプルを使用して計算したy軸の分散の推定値のプロットです。nが増加すると、推定値は真の分散に収束します。 。 ただし、分散を推定するために使用されるサンプルは互いに独立していないか、分散を計算するために使用されるサンプルとはN ∈ [ 20 、40 、80 ]n∈[10,125,250,500]n∈[10,125,250,500]n \in [10,125,250,500]n∈[20,40,80]n∈[20,40,80]n\in [20,40,80]

3
中央値の不偏推定値
サポートされているランダム変数があり、そこからサンプルを描画できるとします。の中央値の不偏の推定値をどのように考え出すことができますか?[ 0 、1 ] XXXX[0,1][0,1][0,1]XXX もちろん、いくつかのサンプルを生成してサンプルの中央値を取得することもできますが、これは一般的に公平ではないことを理解しています。 注:この質問は、最後の質問に関連していますが同一ではありません。この場合、はおおよそのサンプリングしかできません。XXX
16 sampling 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.