タグ付けされた質問 「expected-value」

確率変数の期待値は、確率変数が取り得るすべての可能な値の加重平均であり、重みはその値を受け取る確率と同じです。

6
10分と15分ごとに実行される2つのバスの最初の待ち時間の期待値
私はインタビューの質問に出くわしました: 10分ごとに来る赤い電車があります。15分ごとに青い電車が出ています。どちらもランダムな時間から開始されるため、スケジュールはありません。ランダムな時間に駅に到着し、最初に来る電車に乗る場合、予想される待ち時間はどれくらいですか?


6
重要な多くのものがワンショットのものであるときに統計が役立つのはなぜですか?
私だけなのかはわかりませんが、統計全般については非常に懐疑的です。私はサイコロゲーム、ポーカーゲームなどでそれを理解することができます。非常に小さく、シンプルで、ほとんど自己完結型の繰り返しゲームは問題ありません。たとえば、端に着陸するコインは、着陸の頭または尾が約50%である確率を受け入れるのに十分小さいです。 95%の勝利を目指して10ドルのポーカーゲームをプレイするのは問題ありません。しかし、あなたの人生全体の節約以上があなたが勝利するかどうかに依存している場合はどうでしょうか?その状況であなたが95%の時間で勝つことを知ることは、どうして私を助けるでしょうか?期待値はあまり役に立ちません。 他の例には、生命を脅かす手術が含まれます。既存のデータが与えられた場合、51%の生存率と99%の生存率を知るのにどのように役立ちますか?どちらの場合も、医者が私に言ったことは私にとって重要ではないと思います。実際のデータが75%である場合、彼は(倫理と法律を除いて)私に言うかもしれません。言い換えれば、既存のデータは二項を除いて重要ではありません。それでも、99.99999%の生存率が存在するかどうかは関係ありません。 また、地震の確率。平均してx年(x> 100)ごとに強い地震が発生したかどうかは関係ありません。私の人生で地震が起こるかどうかはわかりません。それでは、なぜそれが有用な情報でさえあるのでしょうか? それほど深刻ではない例です。たとえば、私が大好きな場所の100%はアメリカ大陸にあり、ヨーロッパに行った場所の100%とは無関係で、私が持っている場所の100%が嫌いです。アジアに行ったことがあります。今、それは決して統計が私がすべての情報をキャプチャしないというまさにその性質によって、私は次の旅行でアジアで好きな場所やヨーロッパで嫌いまたはアメリカで無関心な場所を見つけることを決して意味しないこれらの大陸のx%を超えて旅行したとしても、必要なすべての情報を取得することはできません。私が行ったことのない大陸の1-x%に未知のものがあるからです。(100%を他のパーセンテージに自由に置き換えてください)。 私はすべてをブルートフォースする方法がなく、多くの状況で統計に頼らなければならないことを理解していますが、特に統計が基本的に外れ値イベントに外挿されていない場合、統計はワンショットの状況で役立つとどのように信じることができますか? 統計についての懐疑論を乗り越えるための洞察はありますか?


4
サンプル平均が与えられたサンプル中央値の期待値
ましょう中央値を表すとletサイズのランダムサンプルの平均を表しである分布から。を計算するにはどうすればよいですか?ˉ X N = 2 のk + 1 N (μ 、σ 2)E (Y | ˉ X = ˉ X)YYYX¯X¯\bar{X}n=2k+1n=2k+1n=2k+1N(μ,σ2)N(μ,σ2)N(\mu,\sigma^2)E(Y|X¯=x¯)E(Y|X¯=x¯)E(Y|\bar{X}=\bar{x}) 直観的には、正規性の仮定のため、と主張するのは理にかなっています。しかし、それを厳密に示すことはできますか?E(Y|X¯=x¯)=x¯E(Y|X¯=x¯)=x¯E(Y|\bar{X}=\bar{x})=\bar{x} 私の最初の考えは、一般に既知の結果である条件付き正規分布を使用してこの問題にアプローチすることでした。問題は、期待値と中央値の分散がわからないため、次統計量を使用してそれらを計算する必要があるということです。しかし、それは非常に複雑で、絶対に必要な場合を除き、私はそこに行きたくありません。 k+1k+1k+1

1
R 2乗の条件付き期待値
単純な線形モデルを考えます: yy=X′ββ+ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon ここで、および 、およびには列が含まれます定数の。ϵi∼i.i.d.N(0,σ2)ϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2)X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p}p≥2p≥2p\geq2XXX 私の質問は、、および与えられた場合、 *の非自明な上限の式はありますか?(モデルがOLSによって推定されたと仮定)。E(X′X)E(X′X)\mathrm{E}(X'X)ββ\betaσσ\sigmaE(R2)E(R2)\mathrm{E}(R^2) *これを書いて、E (R 2)を取得すると仮定したE(R2)E(R2)E(R^2)自体ことは不可能だと。 EDIT1 StéphaneLaurentによって導出された解(下記参照)を使用して、E(R2)E(R2)E(R^2)。いくつかの数値シミュレーション(下記)は、この限界が実際にはかなり厳しいことを示しています。 ステファンローランは、次の派生:B(P - 1 、N - P 、λは)非中心性パラメーターを有する非中心ベータ分布であるとR2∼B(p−1,n−p,λ)R2∼B(p−1,n−p,λ)R^2\sim\mathrm{B}(p-1,n-p,\lambda)B(p−1,n−p,λ)B(p−1,n−p,λ)\mathrm{B}(p-1,n-p,\lambda)λλ\lambdaとし λ=||X′β−E(X)′β1n||2σ2λ=||X′β−E(X)′β1n||2σ2\lambda=\frac{||X'\beta-\mathrm{E}(X)'\beta1_n||^2}{\sigma^2} そう E(R2)=E(χ2p−1(λ)χ2p−1(λ)+χ2n−p)≥E(χ2p−1(λ))E(χ2p−1(λ))+E(χ2n−p)E(R2)=E(χp−12(λ)χp−12(λ)+χn−p2)≥E(χp−12(λ))E(χp−12(λ))+E(χn−p2)\mathrm{E}(R^2)=\mathrm{E}\left(\frac{\chi^2_{p-1}(\lambda)}{\chi^2_{p-1}(\lambda)+\chi^2_{n-p}}\right)\geq\frac{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)}{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)+\mathrm{E}\left(\chi^2_{n-p}\right)} ここで、χ2k(λ)χk2(λ)\chi^2_{k}(\lambda)非中心であるχ2χ2\chi^2パラメーターとλλ\lambdaとkkk自由度。したがって、非自明な上限E(R2)E(R2)\mathrm{E}(R^2)は λ+p−1λ+n−1λ+p−1λ+n−1\frac{\lambda+p-1}{\lambda+n-1} それは非常にタイトです(予想していたよりもずっとタイトです): たとえば、次を使用します。 rho<-0.75 p<-10 n<-25*p Su<-matrix(rho,p-1,p-1) diag(Su)<-1 su<-1 set.seed(123) bet<-runif(p) 1000回のシミュレーションでの平均R2R2R^2は0.960819です。上記の理論上の上限はを与え0.9609081ます。境界は、Rの多くの値にわたって等しく正確であるようですです。本当に驚いた!R2R2R^2 EDIT2: さらなる研究の後に、表示さに上限近似の品質ことをとして良くなるλ + p個の増加(および他のすべて等しく、λと共に増加するn個)。E(R2)E(R2)E(R^2)λ+pλ+p\lambda+pλλ\lambdannn

2
観測された情報マトリックスは、予想される情報マトリックスの一貫した推定量ですか?
弱一貫性最尤推定器(MLE)で評価された観測情報行列が、期待される情報行列の弱一貫性推定器であることを証明しようとしています。これは広く引用された結果ですが、誰も参照や証明をしていません(Googleの結果の最初の20ページと統計テキストを使い果たしたと思います)。 弱一貫性のあるMLEシーケンスを使用して、大きな数の弱い法則(WLLN)と連続マッピング定理を使用して、必要な結果を得ることができます。ただし、連続マッピング定理は使用できないと思います。代わりに、多数の統一法則(ULLN)を使用する必要があると思います。誰かがこれの証拠を持っている参照を知っていますか?ULLNを試みていますが、簡潔にするため、現時点では省略します。 この質問の長さをおaびしますが、表記を導入する必要があります。表記は次のとおりです(私の証明は最後です)。 我々は確率変数のIIDサンプルがあるとし{Y1,…,YN}{Y1,…,YN}\{Y_1,\ldots,Y_N\}密度のf(Y~|θ)f(Y~|θ)f(\tilde{Y}|\theta)、ここで(は、サンプルのメンバーのいずれか1つと同じ密度の単なる一般的なランダム変数です)。ベクトルは、すべてのであるすべてのサンプルベクトルのベクトルです。。密度の真のパラメーター値はであり、θ∈Θ⊆Rkθ∈Θ⊆Rk\theta\in\Theta\subseteq\mathbb{R}^{k}Y~Y~\tilde{Y}Y=(Y1,…,YN)TY=(Y1,…,YN)TY=(Y_1,\ldots,Y_N)^{T}Yi∈RnYi∈RnY_{i}\in\mathbb{R}^{n}i=1,…,Ni=1,…,Ni=1,\ldots,Nθ N(Y )θ0θ0\theta_{0}θ^N(Y)θ^N(Y)\hat{\theta}_{N}(Y)はの弱一貫性最尤推定量(MLE)です。規則性条件に従って、フィッシャー情報マトリックスは次のように記述できます。θ0θ0\theta_{0} I(θ)=−Eθ[Hθ(logf(Y~|θ)]I(θ)=−Eθ[Hθ(log⁡f(Y~|θ)]I(\theta)=-E_\theta \left[H_{\theta}(\log f(\tilde{Y}|\theta)\right] ここでヘッセ行列です。同等のサンプルはHθHθ{H}_{\theta} IN(θ)=∑i=1NIyi(θ),IN(θ)=∑i=1NIyi(θ),I_N(\theta)=\sum_{i=1}^N I_{y_i}(\theta), ここで、。観測された情報行列は次のとおりです。Iyi=−Eθ[Hθ(logf(Yi|θ)]Iyi=−Eθ[Hθ(log⁡f(Yi|θ)]I_{y_i}=-E_\theta \left[H_{\theta}(\log f(Y_{i}|\theta)\right] J(θ)=−Hθ(logf(y|θ)J(θ)=−Hθ(log⁡f(y|θ)J(\theta) = -H_\theta(\log f(y|\theta)、 (一部の人々は行列がで評価される需要θが、一部にはありません)。サンプルの観測情報マトリックスは次のとおりです。θ^θ^\hat{\theta} JN(θ)=∑Ni=1Jyi(θ)JN(θ)=∑i=1NJyi(θ)J_N(\theta)=\sum_{i=1}^N J_{y_i}(\theta) ここで、。Jyi(θ)=−Hθ(logf(yi|θ)Jyi(θ)=−Hθ(log⁡f(yi|θ)J_{y_i}(\theta)=-H_\theta(\log f(y_{i}|\theta) Iは、推定の確率に収束を証明することができるにI (θ )ではなくのN - 1 J N(θ N(Y ))にI (θ 0)。ここまでが私の証明です。N−1JN(θ)N−1JN(θ)N^{-1}J_N(\theta)I(θ)I(θ)I(\theta)N−1JN(θ^N(Y))N−1JN(θ^N(Y))N^{-1}J_{N}(\hat{\theta}_N(Y))I(θ0)I(θ0)I(\theta_{0}) 今の要素である(R 、よ)のJ N(θ )いずれかのために、R 、s = 1 、… 、k(JN(θ))rs=−∑Ni=1(Hθ(logf(Yi|θ))rs(JN(θ))rs=−∑i=1N(Hθ(log⁡f(Yi|θ))rs(J_{N}(\theta))_{rs}=-\sum_{i=1}^N (H_\theta(\log f(Y_i|\theta))_{rs}(r,s)(r,s)(r,s)JN(θ)JN(θ)J_N(\theta)r,s=1,…,kr,s=1,…,kr,s=1,\ldots,k。サンプルはIIDされている場合は、多数(WLLN)の弱法則、確率のこれらの加数が収束の平均によるに。したがって、N − 1(J N(θ )−Eθ[(Hθ(logf(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rs−Eθ[(Hθ(log⁡f(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rs-E_{\theta}[(H_\theta(\log …

1
置換なしで描画する場合に予想される異なる色の数
含有URN考慮するのボールと、異なる色を 色のボールの比率であるのうちボール()。私が描く壷からボールをすることなく、数に置き換え、ルック描かれたボールの中で異なる色の。分布適切な特性に応じて、関数としてのの期待は何ですか?P P I I N Σ I P iは = 1 、N ≤ NをNNNPPPpipip_iiiiNNN∑ipi=1∑ipi=1\sum_i p_i = 1n≤Nn≤Nn \leq Nγ N / N Pγγ\gammaγγ\gamman/Nn/Nn/Npp\mathbf{p} より多くの洞察を与えるために:すべてのおよび場合、正確に色、つまりが常に表示されます。そうでなければ、それは示すことができることを期待 IS。固定および場合、が均一の場合、を乗算する係数は最大になると思われます。多分、見られる異なる色の予想数は、関数として、たとえばエントロピー として制限されますか?N=PN=PN = Ppi=1/Ppi=1/Pp_i = 1/Piiinnnγ=P(n/N)γ=P(n/N)\gamma = P (n/N)γγ\gamma>P(n/N)>P(n/N)>P(n/N)PPPNNNn/Nn/Nn/Npp\mathbf{p}n/Nn/Nn/Npp\mathbf{p} これは、サンプリングが置換なしで実行され、クーポンの配布が均一ではないことを除いて、クーポンコレクターの問題に関連しているようです。

5
変数の逆数の期待
私は分母に期待を適用することで混乱しています。 E (1 / X )=?E(1/X)=?E(1/X)=\,? 1 / E (X )にすることができます1/E(X)1/E(X)\,?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

4
期待値と最も可能性の高い値(モード)
分布の期待値はf(x)f(x)f(x)平均、つまり加重平均値 E[x]=∫+∞−∞xf(x)dxE[x]=∫−∞+∞xf(x)dxE[x]=\int_{-\infty}^{+\infty} x \, \, f(x) dx 最も可能性の高い値はモードであり、最も可能性の高い値です。 しかし、何回かを何度も見ると予想しますか?ここから引用:E[x]E[x]E[x] 結果確率が等しくない場合、単純平均を加重平均に置き換える必要があります。これは、一部の結果が他の結果よりも高い可能性があるという事実を考慮に入れています。ただし、直観は同じままですの期待値は、平均して発生すると予想される値です。xixix_ixxx。 「平均して」とはどういう意味か理解できませんが、これは、重要な意味で、他のの値よりもを見るのに多くの時間を費やすことを意味しますE[x]E[x]E[x]xxxますか?しかし、これはモードの定義ではありませんか? それでは、ステートメントをどのように解釈するのでしょうか?そして、確率的意味は何ですか?E[x]E[x]E[x] また、私が混乱する例を示したいと思います。研究χ2χ2\chi^2分布私はそれを学んだモードが あるχ2mode=ν−2χmode2=ν−2\chi^2_{mode}=\nu-2、つつ、E[χ2]=νE[χ2]=νE[\chi^2]=\nu、νν\nuデータの自由度です。 私がやったときに、ことを大学で聞いたχ2χ2\chi^2のデータセットにフィットするように最小二乗法を使用した後にテストを、私は得ることを期待すべきであるχ2≈νχ2≈ν\chi^2 \approx \nu「それは一般的に何が起こるかだ」ので。 私はこのすべてを誤解しましたか、それとも期待値はどういうわけか非常にありそうですか?(最も可能性の高い値がもちろんモードであっても)

3
なぜそれらの合計が1を超えるために必要な(0,1)上の連続した均一変数の数は平均
ランダム変数のストリーム合計してみましょう。聞かせて私たちが1を超え、合計のために必要な用語の数である、すなわち、このような最小の数ですX I I I D 〜 U(0 、1 )Xi∼iidU(0,1)X_i \overset{iid}\sim \mathcal{U}(0,1)Y YYYYY X 1 + X 2 + ⋯ + X Y > 1。X1+X2+⋯+XY>1.X_1 + X_2 + \dots + X_Y > 1. の平均がオイラーの定数と等しいのはなぜですか?Y YYEee E(Y )= e = 10 !+11 !+12 !+13 !+…E(Y)=e=10!+11!+12!+13!+…\mathbb{E}(Y) = e = \frac{1}{0!} + \frac{1}{1!} + …


1
修正ディリクレ分布の期待値は何ですか?(統合の問題)
同じスケールパラメーターのガンマ変数を使用して、ディリクレ分布でランダム変数を生成するのは簡単です。次の場合: Xi∼Gamma(αi,β)Xi∼Gamma(αi,β) X_i \sim \text{Gamma}(\alpha_i, \beta) 次に: (X1∑jXj,…,Xn∑jXj)∼Dirichlet(α1,…,αn)(X1∑jXj,…,Xn∑jXj)∼Dirichlet(α1,…,αn) \left(\frac{X_1}{\sum_j X_j},\; \ldots\; , \frac{X_n}{\sum_j X_j}\right) \sim \text{Dirichlet}(\alpha_1,\;\ldots\;,\alpha_n) 問題 スケールパラメーターが等しくない場合はどうなりますか? Xi∼Gamma(αi,βi)Xi∼Gamma(αi,βi) X_i \sim \text{Gamma}(\alpha_i, \beta_i) 次に、この変数の分布は何ですか? (X1∑jXj,…,Xn∑jXj)∼?(X1∑jXj,…,Xn∑jXj)∼? \left(\frac{X_1}{\sum_j X_j},\; \ldots\; , \frac{X_n}{\sum_j X_j}\right) \sim \; ? 私にとっては、この分布の期待値を知るだけで十分でしょう。 コンピューターで非常に高速に評価できる近似の閉じた代数式が必要です。 0.01の精度での近似で十分だとしましょう。 あなたはそれを仮定することができます: αi,βi∈Nαi,βi∈N \alpha_i, \beta_i \in \mathbb{N} 注要するに、タスクはこの積分の近似値を見つけることです。 f(α⃗ ,β⃗ )=∫Rn+x1∑jxj⋅∏jβαjjΓ(αj)xαj−1je−βjxjdx1…dxnf(α→,β→)=∫R+nx1∑jxj⋅∏jβjαjΓ(αj)xjαj−1e−βjxjdx1…dxn f(\vec{\alpha}, \vec{\beta}) = …

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.