タグ付けされた質問 「sampling」

確率論的方法を使用して、指定された母集団からサンプルを作成し、指定された分布から乱数を生成します。このタグがあいまいなので、前者には[調査サンプリング]、後者には[モンテカルロ]または[シミュレーション]を検討してください。既知の分布からランダムサンプルを作成することに関する質問については、[random-generation]タグの使用を検討してください。

1
カスタム分布からランダムサンプルを生成する
Rを使用してカスタムpdfからランダムサンプルを生成しようとしています。私のpdfは次のとおりです fバツ(x )=32(1 −x2)、0 ≤ X ≤ 1fバツ(バツ)=32(1−バツ2)、0≤バツ≤1f_{X}(x) = \frac{3}{2} (1-x^2), 0 \le x \le 1 均一なサンプルを生成し、それをカスタム分布に変換しようとしました。これを行うには、分布の累積分布関数(Fバツ(x )Fバツ(バツ)F_{X}(x))を見つけ、それを均一なサンプル(あなたはあなたはu)に設定し、xについて解きバツバツxます。 Fバツ(x )= Pr [X≤ X ] = ∫バツ032(1 − y2)dy= 32(x − x33)Fバツ(バツ)=Pr[バツ≤バツ]=∫0x32(1−y2)dy=32(x−x33) F_{X}(x) = \Pr[X \le x] = \int_{0}^{x} \frac{3}{2} (1-y^2) dy = \frac{3}{2} (x - \frac{x^3}{3}) 上記分布を有するランダムサンプルを生成するために、均一なサンプルを取得u∈[0,1]u∈[0,1]u \in[0,1]とを解くxxxに32(x−x33)=u32(x−x33)=u\frac{3}{2} (x - …
16 r  sampling  uniform 

5
サンプル平均のサンプリング分布は、母平均をどのように近似しますか?
統計を習得しようとしているのは、統計があまりにも普及しているため、適切に理解しなければ、いくつかのことを学ぶことができないからです。サンプル平均のサンプリング分布のこの概念を理解するのに苦労しています。一部の書籍やサイトで説明されている方法がわかりません。私は理解していると思いますが、正しいかどうかはわかりません。以下はそれを理解しようとする私の試みです。 正規分布をとる現象について話すとき、それは一般に(常にではないが)母集団に関するものです。 推測統計を使用して、特定の母集団に関する情報を予測したいのですが、すべてのデータがありません。ランダムサンプリングを使用し、サイズnの各サンプルが選択される可能性が等しくなります。 したがって、多くのサンプル、たとえば100を取得すると、これらのサンプルの平均の分布は中心極限定理に従ってほぼ正規になります。サンプル平均の平均は母平均に近似します。 さて、私が理解していないのは、「100人のサンプル...」と表示されることが多いことです。平均の人口を概算するために、100人のサンプルを10から100枚必要としないでしょうか。それとも、十分な大きさの単一のサンプル(たとえば1000)を取得し、その平均が母平均に近似すると言うことができるのでしょうか?または、1000人のサンプルを取得してから、元の1000人のサンプルから各サンプルの100人のランダムなサンプルを100個取得し、それを近似値として使用しますか? (ほぼ)平均を近似するのに十分な大きさのサンプルを取得することは常に機能しますか?これが機能するためには、人口も正常である必要がありますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
ランダム化テストと置換テストの違い
文献では、ランダム化と順列という用語は同じ意味で使用されています。多くの著者が「順列(ランダム化)テスト」、またはその逆を述べています。 せいぜい、違いは微妙であり、データに関する想定と引き出すことができる潜在的な結論にあると信じています。私の理解が正しいかどうか、または私が見落としているより深い違いがあるかどうかを確認する必要があります。 順列検定では、基礎となる母集団分布(母集団モデル)からデータがランダムにサンプリングされることを想定しています。これは、置換テストから得られた結論が一般的に母集団からの他のデータに適用可能であることを意味します[3]。 ランダム化テスト(ランダム化モデル)は、「典型的な心理学的研究の信じがたい仮定を落とすことを許します---指定された分布からのランダムサンプリング」[2]。ただし、これは、得られた結論がテストで使用されたサンプルにのみ適用されることを意味します[3]。 確かに、違いは人口の定義に関してのみです。人口を「病気のすべての患者であり、治療に適している」と定義した場合、順列検定はその人口に対して有効です。しかし、人口を治療に適した人口に制限しているため、これは実際に無作為化テストです。 参考資料: [1] Philip Good、順列検定:仮説を検定するための再サンプリング方法の実用的なガイド。 [2] Eugene EdgingtonおよびPatric Onghena、ランダム化テスト。 [3] Michael Ernst、順列法:正確な推論の基礎

3
データのランダムサンプリングから一意の発生カウントを推定するにはどうすればよいですか?
私は時々繰り返す値の大きなセットを持っているとしましょう。大規模なセット内の一意の値の総数を推定したいと思います。SSS 値のランダムサンプルを取得し、一意の値が含まれていると判断した場合、これを使用して大きなセットの一意の値の数を推定できますか?TTTTuTuT_u

2
2つの相関するランダム変数をサンプリングするためのいくつかの手法は何ですか?
2つの相関するランダム変数をサンプリングするためのいくつかの手法は何ですか? 確率分布がパラメータ化されている場合(たとえば、対数正規) ノンパラメトリック分布がある場合。 データは、非ゼロの相関係数を計算できる2つの時系列です。履歴相関と時系列CDFが一定であると仮定して、将来これらのデータをシミュレートしたいと考えています。 ケース(2)の場合、1-DアナログはCDFを構築し、そこからサンプルを作成します。だから、2-D CDFを作成して同じことをすることができたと思います。ただし、個々の1-D CDFを使用し、ピックを何らかの方法でリンクすることで、近づく方法はないのでしょうか。 ありがとう!

2
分布の瞬間を使用して分布をサンプリングできますか?
統計/機械学習法では、分布はガウス分布で近似されることが多く、サンプリングにはガウス分布が使用されます。彼らは、ディストリビューションの最初の二つのモーメントを計算することによって開始し、推定するために、それらを使用μμ\mu及びσ2σ2\sigma^2。その後、彼らはそのガウスからサンプリングできます。 計算する瞬間が多いほど、サンプリングしたい分布を近似できるようになるはずです。 3つのモーメントを計算するとどうなりますか?それらを使用して分布からサンプリングできますか?そして、これをNモーメントに拡張できますか?

2
Pythonでのフォンミーゼスフィッシャー分布からのサンプリング?
Pythonの多変量フォンミーゼスフィッシャー分布からサンプリングする簡単な方法を探しています。scipyのstatsモジュールとnumpyモジュールを調べましたが、一変量のフォンミーゼス分布のみが見つかりました。利用可能なコードはありますか?まだ見つかりません。 どうやら、Wood(1994)は、このリンクに従ってvMF分布からサンプリングするためのアルゴリズムを設計しましたが、私は論文を見つけることができません。 -編集正確さのために、私は文献で見つけるのが難しいアルゴリズムに興味があります(ほとんどの論文は焦点を当てています)。私の知る限り、独創的な記事(Wood、1994)は無料で見つけることができません。S2S2S^2

2
ブートストラップのリサンプリングに関する最高の推奨教科書?
私は、あなたの意見では、ブートストラップに関する最も入手可能な本がどれであるかを尋ねたかっただけです。これにより、必ずしもその開発者によって書かれたものを意味するわけではありません。 次の基準をカバーするブートストラップに最適な教科書を教えてください。 適用可能性、長所と短所、モデル選択の重要性のドメインをリストする技術の哲学的/認識論的基礎? 実装、哲学的基盤、できればMatlabを使用した簡単な例



2
GPSルートのエラー管理(理論的枠組み?)
GPSシステムにあるエラーに対処する方法の理解に対処するのに役立つ適切な理論的フレームワークまたは専門分野を探しています-特にルートを扱う場合。 基本的に、トレイルの長さを確立するために使用するデータとアルゴリズムの要件を探しています。答えは信頼できるものでなければなりません。 私の友人は、160kmとして請求されたレースのレースディレクターでしたが、ガーミンは誰もが190km +のようになることを監視しています。それはフィニッシュラインでかなりの悲しみを引き起こしました。 私の友人は、さまざまなGPSデバイスを使ってコースを再マップするために戻りましたが、結果は興味深いものです。 ハンドヘルドのガーミンオレゴン300を使用して、彼女は片足で33.7kmを獲得しました。腕時計の同じ足のGarmin Forerunner 310xtの場合、38.3kmになりました。 オレゴンからデータを取得したとき、90秒ごとにデータを記録しているだけであることが明らかでした。フォアランナーは数秒ごとにそれを行います。 オレゴンからのデータをプロットすると、いくつかのスイッチバックによって混乱し、それらを直線で結ぶと曲線が少し少なくなることがわかりました。 しかし、録音周波数の違いが説明の大部分であることを楽しませてくれます。つまり、数秒ごとに記録することで、フォアランナーは実際のルートに近づきます。ただし、GPSの動作方法により、ある程度のエラーが発生します。記録されたポイントが実際のルートにランダムに分散している場合(エラーのため)、合計距離は実際のルートよりも長くなります。(直線の両側にある小刻みの線は直線よりも長い)。 したがって、私の質問:1.有効な方法でエラーを減らすために単一のデータセットで使用できる技術はありますか?2.記録頻度の違いに関する私の理論は水を保持しますか?3.同じルートの録画が複数ある場合、それらを組み合わせて実際のルートに近づける有効な方法はありますか? 私が言うように、私はこれについて有用な科学を見つけるために何を検索するべきか本当にわかりません。特定のトレイルがどれくらいの長さであるかを確立する方法を探していますが、それは人々にとって非常に重要です。レースでの30 kmの延長は、予想外の5時間以上の延長です。 ここに要求されているのは、いくつかのサンプルデータです。 詳細な高周波サンプルデータ 低周波サンプルデータ アドバイスをありがとうございます。
14 error  sampling 

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

3
なぜ政治(たとえば、ギャラップ)の統計的サンプリングが必要なのか(?)
世論調査(ギャラップなど)は、人口の規模と比較して、ばかばかしいほど少ない人数(たとえば、数億人のうち1000人)をサンプリングしています。 さて、私にとって、母集団の統計を推定する手段として母集団をサンプリングすることは、その標本が母集団(または同様に他の標本)を代表していると信じる強い理由がある場合に意味があります。 たとえば、医学研究にとってサンプリングは明らかに理にかなっています。なぜなら、人間はすべて非常によく似たゲノムを持ち、この要因によって体が同様に振る舞うことをアプリオリに知っているからです。 これはある種の疎結合ではないことに注意してください-ゲノムは非常に強力な決定要因です。 しかし、政治的な世論調査などに低サンプルサイズを使用することを正当化する理由はわかりません。 似たような社会経済的/教育的背景のために、近所の人々の80-90%が大統領に同じように投票するかもしれませんが、これはばかばかしいほど少ないサンプルを正当化することはほとんどないようです。文字通り、1000人のランダムな有権者が2億人の他の有権者のように振る舞う理由は(少なくとも私には)説得力のある理由はありません。 私には、少なくともその100倍の(たとえば)が必要です。どうして?私は多くの理由を考えることができます、例えば: カリフォルニアにはちょうど 22,000の境内があります。人々の経済的および教育的背景は大きく異なっているため、サイズ1000の投票は笑えるほど小さく見えます。平均して1人未満の境内全体をどのように要約できますか? 一般的に、人々は医学に対する身体の反応を変えることはできませんが、それについて考えるだけで政治についての意見を変えることができます。私が見ているように、政治を扱うとき、医学のDNAに似た強制要因はありません。で最高の私は、相関の小さなポケットがあるはず想像します。 しかし、どういうわけか、このような世論調査は...とにかく動作するように見える?それとも、少なくとも人々はそう思うと思う? しかし、なぜ彼らはすべきなのでしょうか?たぶん私は基本的にサンプリングを理解していませんか?誰か説明できますか? 私は真剣に見ている世論調査のいずれかを取ることはできませんが、これで多かれ少なかれ一人でいるように感じています...


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.