タグ付けされた質問 「uniform」

一様分布は、サンプル空間で任意の値をとる可能性が高い確率変数を表します。

2
2つの確率変数の合計としての一様確率変数
GrimmetおよびStirzakerから取得: そうでないことを示すU = X + Y Uは均一[0,1]上に分散され、XおよびYは独立しており、同一分布。あなたはないはず XとYが連続変数であることを前提としています。U=X+YU=X+YUUXXYY 場合の矛盾で十分によって簡単証明XXX、Yは、YYそれが常に可能見つけることと主張することによって別個に仮定され、Uuu及びU 'u′u'その結果、P (U ≤ U + U ')≥ P (U ≤ U )P(U≤u+u′)≥P(U≤u)P(U\leq u+u') \geq P(U\leq u)一方、P (X + Y ≤ U )= P (X + Y ≤ U + U ')P(X+ Y≤ U )= P(X+ Y≤ U + U′)P(X+Y \leq u) …

4
公正なd6を使用して、1からまでのランダムに整数を独立して均一に描画しますか?
いくつかの公平な6面ダイス(d6)を振って、1から特定のまでの整数を描きたい。良い答えは、そのメソッドが均一で独立した整数を生成する理由を説明します。NNN 説明のための例として、N=150N=150N=150場合にソリューションがどのように機能するかを説明すると役立ちます。 さらに、この手順が可能な限り効率的であることを望みます。つまり、生成される各数値に対して、平均でd6の最小数をロールします。 老人から小数への変換は許可されています。 この質問は、このMetaスレッドに触発されました。

1
帰無仮説の下で二項検定をシミュレートする場合のp値の不均一な分布
帰無仮説では、p値の分布は均一であるはずだと聞きました。ただし、MATLABの二項検定のシミュレーションでは、平均が0.5(この場合は0.518)を超える非常に異なる不均一分布が返されます。 coin = [0 1]; success_vec = nan(20000,1); for i = 1:20000 success = 0; for j = 1:200 success = success + coin(randperm(2,1)); end success_vec(i) = success; end p_vec = binocdf(success_vec,200,0.5); hist(p_vec); 乱数を生成する方法を変更しようとしても、助けにはなりませんでした。ここで説明をいただければ幸いです。

2
サンプルのCDFが均一に分布している理由
ここで、cdfを使用した連続分布からのサンプルが与えられ、対応するサンプルが標準的な均一分布に従うことを読みました。X1,X2,...,XnX1,X2,...,Xn X_1,X_2,...,X_n FXFX F_X Ui=FX(Xi)Ui=FX(Xi) U_i = F_X(X_i) Pythonの定性シミュレーションを使用してこれを検証しましたが、関係を簡単に検証できました。 import matplotlib.pyplot as plt import scipy.stats xs = scipy.stats.norm.rvs(5, 2, 10000) fig, axes = plt.subplots(1, 2, figsize=(9, 3)) axes[0].hist(xs, bins=50) axes[0].set_title("Samples") axes[1].hist( scipy.stats.norm.cdf(xs, 5, 2), bins=50 ) axes[1].set_title("CDF(samples)") 結果は次のプロットになります。 これがなぜ起こるのか理解できません。私はそれがCDFの定義とPDFとの関係に関係していると思いますが、何かが欠けています... 誰かが私にその主題に関するいくつかの読書を教えてくれたり、私が主題に関するいくつかの直観をつかむのを手伝ってくれたりしていただければ幸いです。 編集:CDFは次のようになります。
17 pdf  uniform  cdf  intuition 

2
分布何ですか、一様分布では?
4つの独立した均一に分布した変数あります 。の分布を計算したい。Iは、分布計算あるとしたがって)、およびは今、合計分布は(も独立)理由a,b,c,da,b,c,da,b,c,d[0,1][0,1][0,1](a−d)2+4bc(a−d)2+4bc(a-d)^2+4bcu2=4bcu2=4bcu_2=4bcf2(u2)=−14lnu24f2(u2)=−14ln⁡u24f_2(u_2)=-\frac{1}{4}\ln\frac{u_2}{4}u2∈(0,4]u2∈(0,4]u_2\in(0,4]u1=(a−d)2u1=(a−d)2u_1=(a-d)^2f1(u1)=1−u1−−√u1−−√.f1(u1)=1−u1u1.f_1(u_1)=\frac{1-\sqrt{u_1}}{\sqrt{u_1}}.u1+u2u1+u2u_1+u_2u1,u2u1,u2u_1,\, u_2fu1+u2(x)=∫+∞−∞f1(x−y)f2(y)dy=−14∫401−x−y−−−−√x−y−−−−√⋅lny4dy,fu1+u2(x)=∫−∞+∞f1(x−y)f2(y)dy=−14∫041−x−yx−y⋅ln⁡y4dy,f_{u_1+u_2}(x)=\int_{-\infty}^{+\infty}f_1(x-y)f_2(y)dy=-\frac{1}{4}\int_0^4\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy,y∈(0,4]y∈(0,4]y\in(0,4]。ここでは、でなければならないため、積分は等しくなりそれをMathematicaに挿入して、x>yx>yx>yfu1+u2(x)=−14∫x01−x−y−−−−√x−y−−−−√⋅lny4dy.fu1+u2(x)=−14∫0x1−x−yx−y⋅ln⁡y4dy.f_{u_1+u_2}(x)=-\frac{1}{4}\int_0^{x}\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy.fu1+u2(x)=14[−x+xlnx4−2x−−√(−2+lnx)].fu1+u2(x)=14[−x+xln⁡x4−2x(−2+ln⁡x)].f_{u_1+u_2}(x)=\frac{1}{4}\left[-x+x\ln\frac{x}{4}-2\sqrt{x}\left(-2+\ln x\right)\right]. 私はそれぞれ個の数字で構成される4つの独立したセット作成し、ヒストグラムを描きました:a,b,c,da,b,c,da,b,c,d10610610^6(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc そしてプロットを描きました:fu1+u2(x)fu1+u2(x)f_{u_1+u_2}(x) 一般に、プロットはヒストグラムに似ていますが、間隔ほとんどが負です(ルートは2.27034です)。そして、正の部分の積分はです。(0,5)(0,5)(0,5)≈0.77≈0.77\approx 0.77 間違いはどこですか?それとも、どこで何かが欠けていますか? 編集: PDFを表示するためにヒストグラムをスケーリングしました。 編集2:私は推論のどこに問題があるのか​​を知っていると思う-統合の限界。そのためと、私はできません単にプロットショー私は統合する必要があり地域。:y∈(0,4]y∈(0,4]y\in (0,4]x−y∈(0,1]x−y∈(0,1]x-y\in(0,1]∫x0∫0x\int_0^x つまり、にはがあり(これが、一部が正しい理由です)、にがあり、 in。残念ながら、Mathematicaは後者の2つの積分の計算に失敗します(まあ、2番目の計算は、出力に虚数単位があり、すべてを損なうため... )。∫x0∫0x\int_0^xy∈(0,1]y∈(0,1]y\in(0,1]fff∫xx−1∫x−1x\int_{x-1}^xy∈(1,4]y∈(1,4]y\in(1,4]∫4x−1∫x−14\int_{x-1}^4y∈(4,5]y∈(4,5]y\in (4,5] 編集3: Mathematicaは次のコードで最後の3つの積分を計算できるようです: (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,0,u1}, Assumptions ->0 <= u2 <= u1 && u1 > 0] (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,u1-1,u1}, Assumptions -> 1 <= u2 <= 3 && u1 > 0] (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,u1-1,4}, Assumptions -> 4 <= u2 <= 4 …

1
離散均一分布から置換せずに描画されたサンプル間の最大ギャップ
この問題は、ロボットカバレッジに関する私の研究室の研究に関連しています。 セットから数字を置換せずにランダムに描画し、数字を昇順で並べ替えます。 。nnn{1,2,…,m}{1,2,…,m}\{1,2,\ldots,m\}1≤n≤m1≤n≤m1\le n\le m この並べ替えられた数字のリスト、連続する数字と境界の差を生成します。これにより、ギャップが与えられます。{a(1),a(2),…,a(n)}{a(1),a(2),…,a(n)}\{a_{(1)},a_{(2)},…,a_{(n)}\}g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g = \{a_{(1)},a_{(2)}−a_{(1)},\ldots,a_{(n)}−a_{(n-1)},m+1-a_{(n)}\}n+1n+1n+1 最大ギャップの分布は何ですか? P(max(g)=k)=P(k;m,n)=?P(max(g)=k)=P(k;m,n)=?P(\max(g) = k) = P(k;m,n) = ? これは、使用することができるフレーム順序統計量を: P(g(n+1)=k)=P(k;m,n)=?P(g(n+1)=k)=P(k;m,n)=?P(g_{(n+1)} = k) = P(k;m,n) = ? ギャップの分布についてはリンクを参照してくださいが、この質問は最大ギャップの分布を求めています。 平均値\ mathbb {E} [g _ {(n + 1)}]に満足しE[g(n+1)]E[g(n+1)]\mathbb{E}[g_{(n+1)}]ます。 n = mの場合n=mn=mn=m、すべてのギャップはサイズ1ですn+1=mn+1=mn+1 = m場合、サイズ2のギャップが1つ222あり、n+1n+1n+1可能な場所があります。最大のギャップサイズはm−n+1m−n+1m-n+1であり、このギャップはnnn 数字の前または後に配置でき、合計でn+1n+1n+1可能な位置になります。最小の最大ギャップサイズは⌈m−nn+1⌉⌈m−nn+1⌉\lceil\frac{m-n}{n+1}\rceilです。任意の組み合わせT = {m \ choose n} ^ {-1}の確率を定義しますT=(mn)−1T=(mn)−1T= {m \choose n}^{-1}。 P(g …

1
カスタム分布からランダムサンプルを生成する
Rを使用してカスタムpdfからランダムサンプルを生成しようとしています。私のpdfは次のとおりです fバツ(x )=32(1 −x2)、0 ≤ X ≤ 1fバツ(バツ)=32(1−バツ2)、0≤バツ≤1f_{X}(x) = \frac{3}{2} (1-x^2), 0 \le x \le 1 均一なサンプルを生成し、それをカスタム分布に変換しようとしました。これを行うには、分布の累積分布関数(Fバツ(x )Fバツ(バツ)F_{X}(x))を見つけ、それを均一なサンプル(あなたはあなたはu)に設定し、xについて解きバツバツxます。 Fバツ(x )= Pr [X≤ X ] = ∫バツ032(1 − y2)dy= 32(x − x33)Fバツ(バツ)=Pr[バツ≤バツ]=∫0x32(1−y2)dy=32(x−x33) F_{X}(x) = \Pr[X \le x] = \int_{0}^{x} \frac{3}{2} (1-y^2) dy = \frac{3}{2} (x - \frac{x^3}{3}) 上記分布を有するランダムサンプルを生成するために、均一なサンプルを取得u∈[0,1]u∈[0,1]u \in[0,1]とを解くxxxに32(x−x33)=u32(x−x33)=u\frac{3}{2} (x - …
16 r  sampling  uniform 

1
正規分布をシミュレートするための逆CDF法に対するBox-Mullerの利点は?
一様変数のセットから正規分布をシミュレートするには、いくつかの手法があります。 ボックスミュラーアルゴリズム 1つのサンプル二つの独立した均一に変量した、(0,1)(0,1)(0,1):を介して二つの独立した標準正規分布に変換し Z0=−2lnU1−−−−−−√cos(2πU0)Z1=−2lnU1−−−−−−√sin(2πU0)Z0=−2lnU1cos(2πU0)Z1=−2lnU1sin(2πU0) Z_0 = \sqrt{-2\text{ln}U_1}\text{cos}(2\pi U_0)\\ Z_1 = \sqrt{-2\text{ln}U_1}\text{sin}(2\pi U_0) CDF法。通常の累積分布関数を均一変量と同等にすることができます: F (Z )= Uで 、Z = F − 1(U )を導きます (F(Z))(F(Z))(F(Z))F(Z)=UF(Z)=U F(Z) = U Z=F−1(U)Z=F−1(U)Z = F^{-1}(U) 私の質問は次のとおりです。どちらが計算的に効率的ですか?私は後者の方法だと思うでしょう-しかし、私が読んだ論文のほとんどはBox-Mullerを使用しています-なぜですか? 追加情報: 通常のCDFの逆数は次のように認識され、与えられます F−1(Z)=2–√erf−1(2Z−1),Z∈(0,1).F−1(Z)=2erf−1⁡(2Z−1),Z∈(0,1).F^{-1}(Z)\; =\; \sqrt2\;\operatorname{erf}^{-1}(2Z - 1), \quad Z\in(0,1). したがって、 Z=F−1(U)=2–√erf−1(2U−1),U∈(0,1).Z=F−1(U)=2erf−1⁡(2U−1),U∈(0,1). Z = F^{-1}(U)\; =\; \sqrt2\;\operatorname{erf}^{-1}(2U - 1), \quad …

2
正規分布からの描画を使用した均一分布からの描画のシミュレーション
最近、確率論の質問の1つが次のようなデータサイエンスインタビューリソースを購入しました。 既知のパラメーターを使用した正規分布からの描画を考えると、均一分布からの描画をどのようにシミュレートできますか? 私の最初の思考プロセスは、離散確率変数の場合、正規分布をK個の一意のサブセクションに分割でき、各サブセクションは正規曲線の下で等しい面積を持つというものでした。次に、変数が正常曲線のどの領域に入るかを認識することにより、変数がどのK値を取るかを決定できます。 しかし、これは離散確率変数に対してのみ機能します。連続したランダム変数に対して同じことを行う方法についていくつかの研究を行いましたが、残念ながら、入力として均一なランダム変数を使用し、他の分布からランダム変数を出力できる逆変換サンプリングなどの手法しか見つかりませんでした。おそらく、このプロセスを逆に実行して、一様なランダム変数を取得できると考えていましたか? また、おそらく正規確率変数を線形合同ジェネレーターへの入力として使用することも考えましたが、これが機能するかどうかはわかりません。 この質問にどのようにアプローチするかについての考えはありますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
3つの相関した一様分布のランダム変数を生成する
私たちが持っていると仮定します X 2〜UNIF(nは、0 、1 )、X1∼unif(n,0,1),X1∼unif(n,0,1),X_1 \sim \textrm{unif}(n,0,1), X2∼unif(n,0,1),X2∼unif(n,0,1),X_2 \sim \textrm{unif}(n,0,1), ここで、unif(n,0,1)unif(n,0,1)\textrm{unif}(n,0,1)はサイズnの一様ランダムサンプルであり、 Y=X1,Y=X1,Y=X_1, Z=0.4X1+1−0.4−−−−−−√X2.Z=0.4X1+1−0.4X2.Z = 0.4 X_1 + \sqrt{1 - 0.4}X_2. この場合、と相関はです。Z 0.4YYYZZZ0.40.40.4 これを3つの変数、、に拡張するにはどうすればよいですか?X 2 X 3X1X1X_1X2X2X_2X3X3X_3

3
なぜそれらの合計が1を超えるために必要な(0,1)上の連続した均一変数の数は平均
ランダム変数のストリーム合計してみましょう。聞かせて私たちが1を超え、合計のために必要な用語の数である、すなわち、このような最小の数ですX I I I D 〜 U(0 、1 )Xi∼iidU(0,1)X_i \overset{iid}\sim \mathcal{U}(0,1)Y YYYYY X 1 + X 2 + ⋯ + X Y > 1。X1+X2+⋯+XY>1.X_1 + X_2 + \dots + X_Y > 1. の平均がオイラーの定数と等しいのはなぜですか?Y YYEee E(Y )= e = 10 !+11 !+12 !+13 !+…E(Y)=e=10!+11!+12!+13!+…\mathbb{E}(Y) = e = \frac{1}{0!} + \frac{1}{1!} + …


3
一様に分布し相関した乱数のペアを生成します
特定の相関関係を持つ乱数のペアを生成したいと思います。ただし、2つの正規変数の線形結合を使用する通常のアプローチは、ここでは有効ではありません。これは、均一変数の線形結合はもはや均一分布変数ではないためです。2つの変数が均一である必要があります。 特定の相関関係を持つ均一変数のペアを生成する方法に関するアイデアはありますか?

2
閉区間内のすべての有理値をとる離散一様確率変数(?)
(知的)パニック発作を起こしました。 閉じた間隔ユニフォームに続く連続ランダム変数:快適におなじみの統計的概念。 U(a,b)U(a,b)U(a,b) 拡張実数(半分または全体)をサポートする連続した均一なrv:適切なrvではなく、不適切な事前の有用で適用可能な基本的なベイジアン概念。 有限数の値を取る離散ユニフォーム:測地線ドームを投げましょう、大したことはありません。 しかし、整数境界(必要に応じて始まる)の閉区間に含まれるすべての有理数をドメインとして持つ関数はどうでしょうか。そして、可能性のある各値が他のすべての値と等しい確率を持つことを要求する、確率論的な枠組みでそれを使用したいのですか?[0,1][0,1][0,1] 可能な値の数は数え切れないほど無限です(多くの離散分布を特徴づけます)が、確率を等しくしたい場合、単一の値の確率をどのように表現するのでしょうか? そのようなエンティティがランダム変数であることを証明することはできますか? そうでない場合、これは「不適切な事前」の別の化身(おそらくすでによく知られている)ですか? このエンティティは、明確に定義された意味ではありますが、連続した均一なrvと特別に「同等」である可能性はありますか?それとも私は枢機inalの罪を犯したのですか? ドメインが閉じた間隔であるという事実は、私が手放すことができないようです。通常、制限されたものは管理可能です。 質問は、内部の大渦を示すために多くあります。私はそれらのそれぞれに答えを得ることを求めていません。 私は洞察を思いつくかもしれないときはいつでも、私は更新します。 更新:現在の質問は、構成主義者の続編をここで取得したばかりです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.