タグ付けされた質問 「sampling」

確率論的方法を使用して、指定された母集団からサンプルを作成し、指定された分布から乱数を生成します。このタグがあいまいなので、前者には[調査サンプリング]、後者には[モンテカルロ]または[シミュレーション]を検討してください。既知の分布からランダムサンプルを作成することに関する質問については、[random-generation]タグの使用を検討してください。

3
Rでのビッグデータのクラスター化とサンプリングの関連性
私はデータサイエンスの初心者であり、Rに200,000行と50列のデータセットでクラスターを見つけるのに問題があります。 データには数値変数と名義変数の両方があるため、ユークリッド距離測定を使用するK-meansなどの方法は適切な選択のようには見えません。そこで、距離行列を入力として受け入れるPAM、agnes、hclustを使用します。 デイジー方式は混合タイプのデータで機能しますが、距離行列は大きすぎます:200,000 x 200,000は2 ^ 31-1(R 3.0.0より前のベクトル長の制限)よりもはるかに大きいです。 昨日リリースされた新しいR 3.0.0は、長さが2 ^ 31-1を超える長いベクトルをサポートしています。しかし、200,000 x 200,000のダブルマトリックスには、16Gbを超える連続RAMが必要であり、これは私のマシンでは不可能です。 並列コンピューティングとbigmemoryパッケージについて読みましたが、それらが役立つかどうかはわかりません。デイジーを使用している場合、メモリに収まらない大きなマトリックスが生成されます。 サンプリングに関する投稿についても読みました 。「ビッグデータ」の時間にサンプリングは関連していますか? だから私の場合、データセットでサンプリングを使用し、サンプルでクラスター化し、データセット全体の構造を推測するのは適切ですか? 提案をお願いします。ありがとうございました! 私のマシンについて: Rバージョン3.0.0(2013-04-03) プラットフォーム:x86_64-w64-mingw32 / x64(64ビット) OS:Windows 7 64ビット RAM:16.0GB

3
繰り返し観測の数によってサンプリングされる母集団のサイズを推定する
5,000万個のユニークなものの人口があり、1,000万個のサンプル(交換)を取得したとします...最初のグラフは、同じ「もの」をサンプリングする回数を示しています。母集団は私のサンプルよりも大きいです。 ただし、2番目のグラフが示すように、人口が1,000万個で、1,000万個のサンプルを採取する場合、同じものを繰り返しサンプリングする頻度が高くなります。 私の質問は-観測の頻度表(棒グラフのデータ)から、未知の場合に元の人口サイズの推定値を取得することは可能ですか?そして、Rでこれを実行する方法へのポインタを提供できれば素晴らしいと思います。

1
ハルトン系列対ソボル系列?
前の質問の回答から、均一なサンプル空間をほぼ均等にカバーする一連のベクトルを作成するために、ハルトンシーケンスに向けられました。しかし、ウィキペディアのページでは、特に上位の素数はシリーズの早い段階で非常に相関していることが多いと述べています。これは、サンプルサイズが比較的短い高素数のペアの場合に当てはまるようです。変数が相関していない場合でも、サンプル空間は均等にサンプリングされず、空間全体に高いサンプル密度の対角バンドがあります。 。 私は長さ6以上のベクトルを使用しているため、これが問題であるいくつかの素数を使用する必要があります(上記の例ほど悪くはありませんが)、変数のいくつかのペアは不均一にサンプリングされますサンプル平面。Sobolのシーケンスを使用して同様のセットを生成することは、グラフを見るだけで、比較的少数のサンプルでも、より均等に分布する変数のペア間でサンプルを生成するように思えます。これははるかに便利に思えるので、Haltonシーケンスがより有益になるのはいつかと思いますか?それとも、Haltonシーケンスを計算する方が簡単ですか? 注:他の多次元低不一致シーケンスの議論も歓迎します。

5
サンプルが国勢調査よりも正確であるとしばしば主張されているのはなぜですか?
サンプリングのコースを学習するとき、次の2つのステートメントを満たします。 1)サンプリングエラーはほとんど変動性につながり、非サンプリングエラーはバイアスにつながります。 2)非サンプリングエラーのため、サンプルは多くの場合CENSUSよりも正確です。 これら2つのステートメントを理解する方法がわかりません。これら2つのステートメントを取得するための基本的なロジックは何ですか?

3
いくつかの(すべてではないにしても)パラメトリック仮説検定がランダムサンプリングを前提としているのはなぜですか?
Z、tなどのテストでは、データがランダムサンプリングに基づいていることを前提としています。どうして? 私は実験的な研究を行っていると仮定します。そこでは、外部の妥当性よりも内部の妥当性を重視しています。したがって、母集団全体の仮説を推測しないことを受け入れたので、私のサンプルに少し偏りがあるかもしれません。また、グループ化はランダムに行われます。つまり、サンプルの参加者を便宜上選択しますが、異なるグループにランダムに割り当てます。 なぜこの仮定を無視できないのですか?

2
ランダム変数の値の範囲が制限されている場合、
aaaとbbbで区切られた値の範囲を持つランダム変数があるとします。ここでaaaは最小値、bbbは最大値です。 私が言われたように、そのn→∞n→∞n \to \infty、どこnnn私たちのサンプルサイズは、私たちのサンプル手段のサンプリング分布がある正規分布。それは我々が増加するにつれて、あるnnn、我々がどんどん近づいて正規分布に取得しますが、実際の制限としてn→∞n→∞n \to \inftyである等しい正規分布に。 しかし、それはから延長していることを正規分布の定義の一部ではありません−∞−∞- \inftyする∞∞\infty? 範囲の最大値が場合、bbb(サンプルサイズに関係なく)最大サンプル平均はbに等しくなり、最小サンプル平均はbbbに等しくなりaaa。 だから、が無限に近づくにつれて限界をとっても、分布はaとbで区切られているため、実際の正規分布ではないように思えます。nnnaaabbb 私は何が欠けていますか?

3
重いテールの分散プロセスが大幅に改善されたかどうかを判断する
変更によってプロセスが改善されたかどうかを確認するために、変更の前後のプロセスの処理時間を観察します。処理時間が短縮されると、プロセスは改善されました。処理時間の分布はファットテールであるため、平均に基づいて比較することは賢明ではありません。代わりに、変更後の処理時間が短くなる確率が50%を大幅に上回るかどうかを知りたいと思います。 ましょ変更と後の処理時間のためにランダムな変数である 1の前に。場合大きく上回っている、私は、プロセスが改善されていると思います。Y P (X &lt; Y )0.5XXXYYYP(X&lt;Y)P(X&lt;Y)P(X < Y)0.50.50.5 今、私が持っているの観測がのおよび観測がの。P(X &lt;Y)の観測確率は\ hat p = \ frac {1} {nm} \ sum_i \ sum_j 1_ {x_i &lt;y_j}です。x i X m y j Ynnnxixix_iXXXmmmyjyjy_jYYYP(X&lt;Y)P(X&lt;Y)P(X < Y)p^=1nm∑i∑j1xi&lt;yjp^=1nm∑i∑j1xi&lt;yj\hat p = \frac{1}{n m} \sum_i \sum_j 1_{x_i < y_j} 観測x_iおよびy_jが与えられた場合、P(X &lt;Y)について何が言えますか?P(X&lt;Y)P(X&lt;Y)P(X < Y)xixix_iyjyjy_j

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 &gt; require(nlme) &gt; options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) &gt; m2&lt;-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
exp(X)〜Gammaの場合、Xをすばやくサンプリングする方法は?
単純なサンプリングの問題があり、私の内部ループは次のようになります。 v = sample_gamma(k, a) ここでsample_gamma、ガンマ分布からのサンプルがディリクレのサンプルを形成します。 うまく機能しますが、k / aの値によっては、ダウンストリームの計算の一部がアンダーフローします。 ログスペース変数を使用するように調整しました。 v = log(sample_gamma(k, a)) プログラムの残りのすべてを適応させた後、正しく動作します(少なくとも、テストケースで同じ正確な結果が得られます)。ただし、以前よりも遅くなります。 log ()のような遅い関数を使用せずに、を直接サンプリングする方法はありますか?私はこれをグーグルで試しましたが、このディストリビューションに共通名(log-gamma?)があるかどうかさえ知りません。X,exp(X)∼GammaX,exp⁡(X)∼GammaX, \exp(X) \sim \text{Gamma}log()log⁡()\log()

1
中心極限定理が単一のサンプルで機能するのはなぜですか?
私は常に、各サンプルが十分な大きさで、サンプリングを繰り返したときにCLTが機能することを教えられてきました。たとえば、私が100万人の国民の国を想像してみてください。CLTについての私の理解は、高さの分布が正常でなかったとしても、50人のサンプルを1000個取り(つまり、それぞれ50人の市民を1000回調査し)、各サンプルの平均高さを計算すると、これらのサンプルの分布であると理解しています。手段は正常です。 しかし、研究者が繰り返しサンプルを採取した実際のケースを見たことがありません。代わりに、彼らは1つの大きなサンプル(つまり、身長について50,000人の市民を調査する)を取得し、そこから作業します。 統計の本が繰り返しサンプリングを教えており、現実の世界では研究者が単一のサンプルしか実施していないのはなぜですか? 編集:私が考えている現実のケースは、50,000人のTwitterユーザーのデータセットで統計を行うことです。そのデータセットは明らかに繰り返されるサンプルではなく、50,000の1つの大きなサンプルにすぎません。

2
MCMCメソッド-サンプルの書き込み?
でMCMCの方法、私は約読み続けるburn-in時間やサンプルの数"burn"。これは正確には何ですか?なぜ必要なのですか? 更新: MCMCが安定したら、安定したままですか?burn-in時間の概念は混合時間のそれとどのように関連していますか?
12 sampling  mcmc 

1
重要性サンプリングの直感的な例
私のバックグラウンドはコンピュータサイエンスです。私はモンテカルロサンプリング手法にかなり慣れていないので、数学は理解していますが、重要性サンプリングの直感的な例を思い付くのに苦労しています。より正確には、誰かが以下の例を提供できますか? 元の分布はサンプリングできないが、推定できる この元の分布からサンプリングして適切な重要度分布。

3
順列を繰り返さずにRでリサンプリングする方法は?
Rでは、set.seed()を実行してから、サンプル関数を使用してリストをランダム化した場合、同じ順列を生成しないことを保証できますか? つまり... set.seed(25) limit &lt;- 3 myindex &lt;- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations &lt;- sample(myindex) print(permutations) } これにより [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 1 [1] 0 1 3 2 …

1
条件付き分布を使用した周辺分布からのサンプリング?
一変量密度からサンプリングしたいのですが、関係はわかっています。fバツfXf_X fバツ(x )= ∫fバツ| Y(x | y)fY(y)dy。fX(x)=∫fX|Y(x|y)fY(y)dy.f_X(x) = \int f_{X\vert Y}(x\vert y)f_Y(y) dy. MCMC(積分表現に直接)の使用を避けたいので、とf Y(y )は簡単にサンプリングできるため、次のサンプラーを使用することを考えていました。fバツ| Y(x | y)fX|Y(x|y)f_{X\vert Y}(x\vert y)fY(y)fY(y)f_Y(y) 。j = 1 、… 、Nj=1,…,Nj=1,\dots, N サンプル。yj〜FYyj∼fYy_j \sim f_Y サンプル。バツj〜Fバツ| Y(⋅ | yj)xj∼fX|Y(⋅|yj)x_j \sim f_{X\vert Y}(\cdot\vert y_j) 次に、ペア終わります。。。、(x N、y N)、および限界サンプル(x 1、… 、x N)のみを取得します。 これは正しいです?(x1、y1)、。。。、(xN、yN)(x1,y1),...,(xN,yN)(x_1,y_1),...,(x_N,y_N)(x1、… 、xN)(x1,…,xN)(x_1,\dots,x_N)

4
実際のアプリケーションで、置換なしのサンプリングを検討するのはなぜですか?
置換ありのサンプリングには、置換なしのサンプリングよりも2つの利点があります。 1)有限母集団の修正について心配する必要はありません。 2)母集団の要素が複数回描画される可能性があります。測定値をリサイクルして時間を節約できます。 もちろん、アカデミックPOVから、両方の方法を調査する必要があります。しかし、実用的なPOVから、置換ありの利点を考慮して、置換なしのサンプリングを検討する理由がわかりません。 しかし、私は統計の初心者なので、少なくとも特定のユースケースでは、置換なしの方が優れた選択肢である理由はたくさんあります。混乱させないでください!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.