タグ付けされた質問 「sampling」

確率論的方法を使用して、指定された母集団からサンプルを作成し、指定された分布から乱数を生成します。このタグがあいまいなので、前者には[調査サンプリング]、後者には[モンテカルロ]または[シミュレーション]を検討してください。既知の分布からランダムサンプルを作成することに関する質問については、[random-generation]タグの使用を検討してください。

2
ラテンハイパーキューブサンプリングの漸近
私が取り組んでいる問題の証拠を構築しようとしています。私がしている仮定の1つは、サンプリング元のポイントのセットが空間全体にわたって密であるということです。実際には、サンプル空間全体のポイントを取得するためにラテンハイパーキューブサンプリングを使用しています。私が知りたいのは、サンプルサイズを傾向がある場合、ラテンハイパーキューブサンプルがスペース全体に密集している場合です。もしそうなら、この事実の引用は大歓迎です。∞∞\infty

1
ギブスサンプリングを導出する方法?
他の質問やギブスのサンプリングに関するウィキペディアを参照するのではないかと心配しているので、私は実際にこれを尋ねるのをためらっています。 条件付き確率与えられた場合: p (x | y )y = y 0 y = y 1 x = x 0 1p(x|y)p(x|y)p(x|y)p(x|y)x=x0x=x1y=y01434y=y12646p(x|y)y=y0y=y1x=x01426x=x13446 \begin{array}{c|c|c} p(x|y) & y = y_0 & y = y_1 \\ \hline x = x_0 & \tfrac{1}{4} & \tfrac{2}{6} \\ \hline x = x_1 & \tfrac{3}{4} & \tfrac{4}{6} \\ \end{array} そして、条件付き確率: …
11 sampling  mcmc  gibbs 

1
「.632ルール」で確率が等しくない場合はどうなりますか?
この質問は、「。632ルール」に関するこの質問に由来しています。問題を簡単にするために、user603の回答/表記を特に参照して書いています。 その答えは、大きさのサンプルから始まる交換と、からNコレクション内の異なる項目(呼び出し)はN.確率I Tの時間サンプルは、sのiは、特定の要素の異なるM Nのは、次に(1 - 1 / n )。n,n,n,nnnithithi^{th}sisis_immm(1−1/n).(1−1/n).(1 - 1/n). その答えでは、Nのすべての要素がランダムに描かれる可能性が等しくなります。 私の質問はこれです。代わりに、上記の質問で、描かれるアイテムが通常配布されるようなものであるとします。つまり、標準正規曲線をからZ = 4まで(たとえば)100の等しい長さの部分区間に分割します。Nの100個のアイテムはそれぞれ、描画される確率があり、それぞれの間隔で曲線が範囲となる領域に等しい。Z=−4Z=−4Z = -4Z=4Z=4Z = 4 私の考えは次のとおりです。 推論はリンクされた回答のそれと同じだと思います。mがNの要素であるである確率はP (s i ≠ m )= (1 − F i)であり、ここでF iはs iを描画する確率です。si≠msi≠ms_i \ne mmmmP(si≠m)=(1−Fi)P(si≠m)=(1−Fi)P(s_i \neq m) = (1 - F_i)FiFiF_isi.si.s_i. 特定の要素mがサイズnのサンプルSにある確率は = 1 - nはΠ 1(1 - F 、I)。P(m∈S)=1−P(m∉S)=1−∏1nP(si≠m)P(m∈S)=1−P(m∉S)=1−∏1nP(si≠m)P(m \in …

1
イジングモデルのギブスサンプリング
宿題の質問: 1次元イジングモデルを考えます。 してみましょう。は-1または+1のいずれかx=(x1,...xd)x=(x1,...xd)x = (x_1,...x_d)xixix_i π(x)∝e∑39i=1xixi+1π(x)∝e∑i=139xixi+1\pi(x) \propto e^{\sum_{i=1}^{39}x_ix_{i+1}} 目標分布からおおよそサンプルを生成するギブスサンプリングアルゴリズムを設計します。π(x)π(x)\pi(x) 私の試み: ベクトルを満たす値(-1または1)をランダムに選択します。したがって、おそらくです。これはです。x=(x1,...x40)x=(x1,...x40)x = (x_1,...x_{40})x=(−1,−1,1,1,1,−1,1,1,...,1)x=(−1,−1,1,1,1,−1,1,1,...,1)x = (-1, -1, 1, 1, 1, -1, 1, 1,...,1)x0x0x^0 したがって、次に進んで最初の反復を行う必要があります。の40の異なるxを個別に描画する必要があります。そう...x1x1x^1 からを描画しx11x11x_1^1π(x1|x02,...,x040)π(x1|x20,...,x400)\pi(x_1 | x_2^0,...,x_{40}^0) からを描画しx12x21x_2^1π(x2|x11,x03,...,x040)π(x2|x11,x30,...,x400)\pi(x_2 | x_1^1, x_3^0,...,x_{40}^0) からを描画しx13x31x_3^1π(x3|x11,x12,x04,...,x040)π(x3|x11,x21,x40,...,x400)\pi(x_3 | x_1^1, x_2^1, x_4^0,...,x_{40}^0) 等.. だから私をつまずかせる部分は、実際に条件付き分布からどのように引き出すかです。どのように遊びに来ますか?たぶん、1つのドローの例は、事を明らかにするでしょう。π(x)∝e∑39i=1xixi+1π(x)∝e∑i=139xixi+1\pi(x) \propto e^{\sum_{i=1}^{39}x_ix_{i+1}}

1
回帰係数のサンプリング分布
私は以前、未知のパラメータに関して、推定器のための結果を与えるサンプリング分布について学びました。例えば、サンプリング分布のためにβ 0及びβ 1線形回帰モデルにおいてY iが = β O + β 1 X I + ε Iβ^0β^0\hat\beta_0β^1β^1\hat\beta_1Yi=βo+β1Xi+εiYi=βo+β1Xi+εiY_i = \beta_o + \beta_1 X_i + \varepsilon_i と β1〜Nを(β1、σ2β^0∼N(β0, σ2(1n+x¯2Sxx))β^0∼N(β0, σ2(1n+x¯2Sxx)) \hat{\beta}_0 \sim \mathcal N \left(\beta_0,~\sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}\right)\right) β^1∼N(β1, σ2Sxx)β^1∼N(β1, σ2Sxx) \hat{\beta}_1 \sim \mathcal N \left(\beta_1,~\frac{\sigma^2}{S_{xx}}\right) ここで、Sxx=∑ni=1(x2i)−nx¯2Sxx=∑i=1n(xi2)−nx¯2S_{xx} = \sum_{i=1}^n (x_i^2) -n \bar{x}^2 しかし今、私は本で以下を見ました: 通常の方法でモデルを最小二乗法で近似するとします。ベイジアン事後分布を検討し、事前分布を選択して、これが通常の頻度主義サンプリング分布と同等になるようにします。 (β0β1)∼N2[(β^1β^2), σ^2(n∑ni=1xi∑ni=1xi∑ni=1x2i)−1](β0β1)∼N2[(β^1β^2), σ^2(n∑i=1nxi∑i=1nxi∑i=1nxi2)−1] …

2
R randomForestでの置換によるサンプリング
randomForest実装では、置換でサンプリングする場合でも、観測数を超えるサンプリングは許可されません。どうしてこれなの? 正常に動作します: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) 私がしたいこと: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency 層別サンプルなしの同様のエラー: rf <- randomForest(Species ~ …

1
rのフィッシャーzへの変換はメタ分析にメリットがありますか?
通常、はフィッシャーzに変換され、2つのr値の差をテストします。しかし、メタ分析を実行する場合、なぜそのようなステップを踏む必要があるのでしょうか。測定誤差または非サンプリング誤差を修正しますか?また、rが母相関の不完全な推定であると仮定する必要があるのはなぜですか?rrrzzzrrrrrr

5
サンプルで「左目」と「右目」を2つの異なる被験者として使用できますか?
私のデータは以下の通りです。私には2つのグループの患者がいます。各グループの患者は、異なる種類の眼科手術を受けていました。5つの変数が各グループの患者で測定されました。順列検定またはMANOVAを使用して、2つのグループ間でこれらの変数を比較したいと思います。手術が行われた眼は、分析では実際には重要ではありません。ただし、たとえばグループAの患者2は両眼に手術を受けていたため、5つの変数が各眼に1回ずつ、計2回測定されています。患者2の左と患者2の右を2つの異なる観察と見なすことはできますか?グループBの患者31についても同じです。 患者122。313132。手術の種類あああ。BBB。側左左正しい。左正しい正しい。V1918790908891…………………V5221923171924PatientSurgery typeSideV1…V51ALeft91…222ALeft87…192ARight90…23...31BLeft90…1731BRight88…1932BRight91…24... \begin{array} \hline \text{Patient} & \text{Surgery type} & \text{Side} & \text{V1}& \ldots & V5\\ 1 & \text{A} & \text{Left} & 91 & \ldots & 22\\ 2 & \text{A} & \text{Left} & 87 & \ldots & 19\\ 2 & \text{A} & \text{Right} & 90 & \ldots & 23\\ . …
11 sampling 

5
生成する方法
平均値0のシーケンスを生成する方法を知っています。たとえば、Matlab で長さ10000の± 1シーケンスを生成する場合は、次のようになります。±1±1\pm 1000±1±1\pm 1100001000010000 2*(rand(1, 10000, 1)<=.5)-1 ただし、平均0.05のシーケンスを生成する方法、つまり、1がわずかに好ましい場合はどうでしょうか。±1±1\pm 10.050.050.05111


4
カーネル密度推定からランダムに値を取得するにはどうすればよいですか?
いくつかの観察結果があり、これらの観察結果に基づいてサンプリングを模倣したいと思います。ここでは、ノンパラメトリックモデルについて検討します。具体的には、カーネル平滑化を使用して、制限された観測からCDFを推定します。次に、取得したCDFからランダムに値を描画します。以下は私のコードです(アイデアは累積的にランダムに取得することです)均一分布を使用した確率、および確率値に関してCDFの逆数をとります) x = [randn(100, 1); rand(100, 1)+4; rand(100, 1)+8]; [f, xi] = ksdensity(x, 'Function', 'cdf', 'NUmPoints', 300); cdf = [xi', f']; nbsamp = 100; rndval = zeros(nbsamp, 1); for i = 1:nbsamp p = rand; [~, idx] = sort(abs(cdf(:, 2) - p)); rndval(i, 1) = cdf(idx(1), 1); end figure(1); hist(x, …

3
0/10と0/20の比較
タスク達成率について議論するとき、20回の試行のうち0回が10回の試行のうち0回よりも「悪い」ことを示す方法はありますか?

2
並べ替えられたリストの分布
アイテムの順序付きリストがあるとしましょう [a, b, c, ... x, y, z, ...] 上記のリストでサポートされている、いくつかのパラメータalphaによって管理されているディストリビューションのファミリーを探しています。 alpha = 0の場合、最初のアイテムaに確率1を割り当て、残りに確率0を割り当てます。つまり、このリストからサンプルを抽出すると、置換すると常にが得られaます。 アルファが増加するにつれて、〜指数関数的減衰に従って、リストの順序を尊重しながら、リストの残りの部分にますます高い確率を割り当てます。 alpha = 1の場合、リスト内のすべてのアイテムに等しい確率を割り当てるため、リストからのサンプリングはその順序を無視するのと同じです。 これは幾何学的分布とよく似ていますが、いくつかの顕著な違いがあります。 幾何分布分布は、すべての自然数に対して定義されます。上記の私の場合、リストのサイズは固定されています。 alpha = 0の場合、幾何分布は定義されていません。

2
確率変数のサンプルとは何ですか?
ランダム変数は、基礎となる測度を持つ1つの -algebraから別の -algebra測定可能な関数として定義されます。XXXσσ\sigma(Ω1,F1)(Ω1,F1)(\Omega_1, \mathcal F_1)PPPσσ\sigma(Ω2,F2)(Ω2,F2)(\Omega_2, \mathcal F_2) この確率変数のサンプルについてどのように話しますか?要素として扱いますか?またはと同じ測定可能な関数として?XnXnX^nΩ2Ω2\Omega_2XXX これについてどこでもっと読むことができますか? 例: モンテカルロ推定では、サンプルを関数と見なして、推定量の不偏性を証明します。確率変数期待が次のように定義されている場合(Xn)Nn=1(Xn)n=1N(X^n)_{n = 1}^NXXX E[X]=∫Ω1X(ω1)dP(ω1)E[X]=∫Ω1X(ω1)dP(ω1)\begin{align} \mathbb E[X] = \int_{\Omega_1} X(\omega_1) \,\mathrm dP(\omega_1) \end{align} そして、仮定するとである機能及び、我々は次の通り進行することができます。XnXnX^nXn=XXn=XX^n = X E[1N∑n=1Nf(Xn)]=1N∑n=1NE[f(Xn)]=1N∑n=1NE[f(X)]=E[f(X)].E[1N∑n=1Nf(Xn)]=1N∑n=1NE[f(Xn)]=1N∑n=1NE[f(X)]=E[f(X)].\begin{align} \mathbb E\left[\frac{1}{N} \sum_{n = 1}^N f(X^n)\right] &= \frac{1}{N} \sum_{n = 1}^N \mathbb E[f(X^n)] \\ &= \frac{1}{N} \sum_{n = 1}^N \mathbb E[f(X)] \\ &= \mathbb …

2
小さいサンプルサイズのデータ​​のトレーニング、交差検証、およびテストセットのサイズを選択するにはどうすればよいですか?
サンプルサイズが小さいと仮定します(例:N = 100、2つのクラス)。機械学習のトレーニング、相互検証、テストセットのサイズをどのように選択すればよいですか? 直感的に選ぶ トレーニングセットのサイズは50 相互検証セットサイズ25、および サイズを25としてテストします。 しかし、おそらくこれは多かれ少なかれ理にかなっています。これらの値を実際にどのように決定すればよいですか?別のオプションを試してみてもいいですか(あまり好ましくないと思いますが...過剰学習の可能性が高くなります)? 3つ以上のクラスがある場合はどうなりますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.