タグ付けされた質問 「mathematical-statistics」

形式的な定義と一般的な結果に関係する統計の数学的理論。

3
ベルヌーイ試験で「成功」の確率を推定するために必要なサンプルサイズ
ゲームが、完了時に報酬を与えるか、何も与えないイベントを提供するとします。報酬が与えられるかどうかを決定する正確なメカニズムは不明ですが、乱数ジェネレーターが使用されていると想定しています。結果がハードコードされた値よりも大きい場合は、報酬が得られます。 報酬が与えられる頻度を決定するためにプログラマーが使用した値(推定15-30%)を基本的にリバースエンジニアリングする場合、必要なサンプル数をどのように計算しますか? 私はここの「真の確率の推定」セクションから始めました:Checking_whether_a_coin_is_fair、しかし私が正しい道を進んでいるかどうか確信がありません。95%の信頼度で最大3%のエラーが発生するために必要な〜1000サンプルの結果が得られました。 最終的に、私が解決しようとしているのは次のとおりです。 イベント#1は1.0Rの報酬を与え、時間のX% イベント#2は、時間のY%で報酬1.4Rを提供します XとYを正確に見積もり、どのイベントがより効率的かを判断したいと思います。最大で20分ごとに1つのサンプルしか取得できないため、サンプルサイズが大きいと問題になります。

3
確率分布について初心者向けの本の推奨事項
私は機械学習を勉強していて、開いた本はすべて、カイ2乗分布、ガンマ関数、t分布、ガウス分布などに出会います。 これまでに開いたすべての本は、分布が何であるかを定義しているだけです。それらは、関数の特定の式がどこから来ているのかを説明したり、直感を与えたりしません。 たとえば、なぜカイ二乗分布が現状のままであるのでしょうか。T分布とは何ですか?ディストリビューションの背後にある直感は何ですか?証拠?等 最も一般的に使用される分布について明確かつ基本的な理解を持ちたいので、後でそれらを見るたびに、t分布とは何か、ガウス分布とは何か、そして最も重要なのはなぜそれらがそのようになるのかを本当に理解するためです彼らです。 本/チュートリアルが素人に概念を説明できて、それらを理解するためにあなたがすでにそれらを理解する必要がないようになっているとよいでしょうx)多くの本はこのようなものであり、初心者には適していません:(

3
統計:アルファとベータの関係
私の質問は、アルファとベータの関係と統計におけるそれらの定義に関係しています。 アルファ=タイプIエラー率= NULL仮説が正しいことを考慮した有意水準 ベータ=タイプIIエラー率 アルファが低下すると(アルファ= 1-特異度として特異度が増加)、ベータは増加します(ベータ= 1-感度/電力として感度/検出力は低下します) アルファの変更はベータにどのように影響しますか? 線形関係はありますか?alpha / betaの比率は常に同じですか。つまり、比の特異性/感度は常に同じですか。はいの場合、ボンフェローニ補正を使用することで、感度を下げて特異度を上げるだけですが、感度/特異度の比率は変更しません。そう言うのは正しいですか? 更新(ケース固有の質問): 特定の実験計画について、データに対して5つの線形モデルを実行します。真陽性率(感度/検出力)が0.8、真陰性率(特異度)が0.7です。(我々は何がポジティブであるべきで何がポジティブであるべきでないかを知っていると想像しましょう。)Bonferroniを使用して有意水準を0.05 / 5 = 0.01に修正するとします。結果の真陽性率(感度/パワー)と真陰性率(特異度)を数値で推定できますか? ご協力ありがとうございます。


1
Halmos-Savage定理の直感的な理解
Halmos-サベージ定理が優勢統計モデルのことを言う(Ω 、A、P)(Ω,A,P)(\Omega, \mathscr A, \mathscr P)統計量T :(Ω 、A、P)→ (Ω '、A ')T:(Ω,A,P)→(Ω′,A′)T: (\Omega, \mathscr A, \mathscr P)\to(\Omega', \mathscr A')で十分であるすべてのための(及び場合のみ)であれば{ P ∈ P }{P∈P}\{P \in \mathscr{P} \} が存在するTTTラドンNikodym誘導体の-measurableバージョンのD PがDのPは、*dPdP∗\frac{dP}{dP*}ここで、DP*はdP∗dP*、特権尺度であるように、Pは*=Σは ∞ iは= 1 PICIをP∗=∑∞i=1PiciP*=\sum_{i=1}^\infty P_i c_i するためのCI>0、Σは ∞ iが= 1、Ciは=1ci>0,∑∞i=1ci=1c_i >0, \sum _{i=1}^\infty c_i =1とPI∈PをPi∈PP_i \in \mathscr P。 定理が真である理由を直感的に把握しようとしましたが、成功しませんでしたので、定理を理解する直感的な方法があるかどうかが私の質問です。

5
と独立して
XXXおよびYYY独立確率変数分布しているX∼χ2(n−1)X∼χ(n−1)2X\sim\chi^2_{(n-1)}とY∼Beta(n2−1,n2−1)Y∼Beta(n2−1,n2−1)Y\sim\text{Beta}\left(\frac{n}{2}-1,\frac{n}{2}-1\right)。Z=(2Y−1)√の分布は何ですかZ=(2Y−1)X−−√Z=(2Y−1)XZ=(2Y-1)\sqrt X? 関節密度(X,Y)(X,Y)(X,Y)によって与えられます。 fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}f_{X,Y}(x,y)=f_X(x)f_Y(y)=\frac{e^{-\frac{x}{2}}x^{\frac{n-1}{2}-1}}{2^{\frac{n-1}{2}}\Gamma\left(\frac{n-1}{2}\right)}\cdot\frac{y^{\frac{n}{2}-2}(1-y)^{\frac{n}{2}-2}}{B\left(\frac{n}{2}-1,\frac{n}{2}-1\right)}\mathbf1_{\{x>0\,,\,00\,,\,|z|<w\}} 限界PDF その後で 、F Z(Z )= ∫ ∞ | z | f Z 、W(z 、w )ZZZ、私をどこにも導かない。fZ(z)=∫∞|z|fZ,W(z,w)dwfZ(z)=∫|z|∞fZ,W(z,w)dwf_Z(z)=\displaystyle\int_{|z|}^\infty f_{Z,W}(z,w)\,\mathrm{d}w 繰り返しますが、の分布関数を見つけると、不完全なベータ/ガンマ関数が現れます:ZZZ FZ(z)=Pr(Z≤z)FZ(z)=Pr(Z≤z)F_Z(z)=\Pr(Z\le z) = Pr ((2 Y− 1 )X−−√≤ Z)=∬(2y−1)x√≤zfX,Y(x,y)dxdy=Pr((2Y−1)X≤z)=∬(2y−1)x≤zfX,Y(x,y)dxdy\quad\qquad=\Pr((2Y-1)\sqrt X\le z)=\displaystyle\iint_{(2y-1)\sqrt{x}\le z}f_{X,Y}(x,y)\,\mathrm{d}x\,\mathrm{d}y ここでの変数の適切な変更とは何ですか?の分布を見つける別の方法はありますか?ZZZ カイ二乗、ベータ、「F」、「t」の分布の間で異なる関係を使用してみましたが、何も機能しないようです。おそらく私は明らかな何かを見逃しています。 @Francisが述べたように、この変換はBox-Müller変換の一般化です。

1
マハラノビス距離とレバレッジの関係を証明しますか?
ウィキペディアで数式を見てきました。マハラノビスの距離とレバレッジを関連付ける: マハラノビス距離はレバレッジ統計hhhと密接に関連していますが、スケールは異なります:D2=(N−1)(h−1N).D2=(N−1)(h−1N).D^2 = (N - 1)(h - \tfrac{1}{N}). ではリンク先の記事、ウィキペディアは説明するhhhこれらの用語には: 線形回帰モデルでは、のためにレバレッジスコアithithi^{th}データユニットは、次のように定義される:hii=(H)ii,hii=(H)ii,h_{ii}=(H)_{ii},ithithi^{th}ハット行列の対角要素H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤H=X(X^{\top}X)^{-1}X^{\top}、⊤は行列転置を表します。⊤⊤^{\top} どこにも証拠が見つかりません。定義から始めようとしましたが、何も進展しません。誰でもヒントを与えることができますか?

2
を見つける方法
どうすれば解決できますか?中間方程式が必要です。たぶん答えは−tf(x)−tf(x)-tf(x)です。 ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)は確率密度関数です。 すなわち、あるlimx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0とlimx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 ソース: http: //www.actuaries.jp/lib/collection/books/H22/H22A.pdf p.40 以下の中間方程式を試してください: ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) \right ]_t^\infty - \int_t^\infty F(x)\,dx \right ]?? ddt∫atf(x)dx=−ddt∫taf(x)dx=−ddt(F(t)−F(a))=F′(t)=f(t)ddt∫taf(x)dx=−ddt∫atf(x)dx=−ddt(F(t)−F(a))=F′(t)=f(t) \frac{d}{dt} \int_t^a f(x)\,dx = -\frac{d}{dt} …

4
独立分布のどの比率が正規分布を与えますか?
2つの独立した正規分布の比率により、コーシー分布が得られます。t分布は、独立したカイ2乗分布で除算された正規分布です。2つの独立したカイ2乗分布の比率により、F分布が得られます。 平均および分散正規分布確率変数を与える独立した連続分布の比率を探していますか?μμ\muσ2σ2\sigma^2 考えられる答えはおそらく無限にあります。これらの可能な答えをいくつか教えてもらえますか?比率が計算される2つの独立した分布が同じであるか、少なくとも類似の分散を持っている場合、特に感謝します。

3
と残差逸脱の自由度を使用したロジスティック回帰係数のテスト
概要:標準正規分布ではなく、ロジスティック回帰係数のテストに分布(残留偏差に基づく自由度を伴う)の使用をサポートする統計理論はありますか?ttt SAS PROC GLIMMIXでロジスティック回帰モデルをフィッティングする際、デフォルト設定でロジスティック回帰係数が標準正規分布ではなく分布を使用してテストされることを少し前に発見しました。つまり、GLIMMIXはの比率で列を報告します(この質問の残りの部分ではと呼びます)、ただし「自由度」列、および分布を仮定した値も報告しますttt11^1β^1/ var (β^1)−−−−−−√β^1/var(β^1)\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}zzzppptttzzz残差偏差に基づく自由度-つまり、自由度=観測の総数からパラメータの数を引いたもの。この質問の最後に、デモンストレーションと比較のためにRとSASでコードと出力を提供します。22^2 ロジスティック回帰などの一般化線形モデルでは、この場合の分布の使用をサポートする統計理論はないと考えていたため、これは私を混乱させました。代わりに、この事件について私たちが知っていることはttt zzzは「ほぼ」正規分布しています。 この近似は、サンプルサイズが小さい場合には不十分です。 それにもかかわらず、が正規回帰の場合に想定できるような分布を持っていると想定することはできません。zzzttt さて、直感的なレベルでは、がほぼ正規分布している場合、実際には、正確にでなくても、基本的に「似た」分布を持っているかもしれません。したがって、ここでの分布の使用はおかしくないようです。しかし、私が知りたいことは次のとおりです。zzzttttttttt 実際、ロジスティック回帰および/または他の一般化線形モデルの場合、実際に分布に従うことを示す統計理論はありますか?zzzttt そのような理論がない場合、この方法で分布を仮定することは、正規分布を仮定することと同様に、またはそれよりもさらに良いことを示す論文が少なくともありますか?ttt より一般的には、おそらく基本的に賢明であるという直感以外に、GLIMMIXがここで行っていることに対する実際のサポートはありますか? Rコード: summary(glm(y ~ x, data=dat, family=binomial)) R出力: Call: glm(formula = y ~ x, family = binomial, data = dat) Deviance Residuals: Min 1Q Median 3Q Max -1.352 -1.243 1.025 1.068 1.156 Coefficients: Estimate Std. Error z …

1
混合モデルの表記法の調整
私は次のような表記法に精通しています: yij=β0+βixij+uj+eij=β0j+βixij+eijyij=β0+βixij+uj+eij=β0j+βixij+eij\begin{align} y_{ij} &= \beta_0 + \beta_i x_{ij} + u_j + e_{ij}\\ &= \beta_{0j} + \beta_i x_{ij} + e_{ij} \end{align} 場合β0j=β0+ujβ0j=β0+uj\beta_{0j}=\beta_{0}+u_j、及び yij=β0+β1xij+u0j+u1jxij+eij=β0j+β1jxij+eijyij=β0+β1xij+u0j+u1jxij+eij=β0j+β1jxij+eij\begin{align} y_{ij} &= \beta_0 + \beta_1 x_{ij} + u_{0j} + u_{1j} x_{ij} + e_{ij} \\ &= \beta_{0j} + \beta_{1j} x_{ij} + e_{ij} \end{align} 場合β0j=β0+u0jβ0j=β0+u0j\beta_{0j}=\beta_{0}+u_{0j}およびβ1j=β1+u1jβ1j=β1+u1j\beta_{1j}=\beta_1+u_{1j} ランダム切片モデルとランダム勾配+ランダム切片モデルのそれぞれに対して。 また、この行列/ベクトル表記に出会ったことがありますが、それは「お年寄り向けの混合モデル表記」であると言われています(私の兄によると)。 βは固定効果であり、 By=Xβ+Zb+ey=Xβ+Zb+e \mathbf{y}=\mathbf{X\beta} …

6
変動係数-IQR /中央値、または代替のような堅牢な(ノンパラメトリック)尺度?
特定のデータセットについて、スプレッドは多くの場合、標準偏差またはIQR(四分位範囲)として計算されます。 a standard deviationは正規化されているため(zスコアなど)、2つの異なる母集団からの広がりを比較するために使用できますが、2つの異なる母集団からのサンプルは2つのまったく異なるスケールで値を持つことができるため、これはIQRには当てはまりません e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... 私が求めているのは、異なる母集団内の変動を比較するために使用できる堅牢な(ノンパラメトリック)尺度です。 選択肢1: IQR / Median-これは、変動係数、つまり。σμσμ \frac{\sigma}{\mu} 選択肢2: Range / IQR 質問:母集団間の変動を比較するためのより意味のある尺度はどれですか?また、選択肢1の場合、選択肢2は何か/意味のあるものに役立ちますか、それとも根本的に欠陥のある尺度ですか?


1
分析形式を持つのに十分に簡単な場合に事後分布を把握する手順は?
これは計算科学でも尋ねられました。 私は11個のデータサンプルを、自己回帰のためのいくつかの係数のベイズ推定値を計算しようとしています: ε iは平均値0、分散を有するガウスである σ 2 E ベクターに事前分布(μ 、α )tは、平均のガウスである(0 、0 )と対角エントリを有する対角共分散行列が等しいです σ 2 のp。Yi=μ+α⋅Yi−1+ϵiYi=μ+α⋅Yi−1+ϵi Y_{i} = \mu + \alpha\cdot{}Y_{i-1} + \epsilon_{i} ϵiϵi\epsilon_{i}σ2eσe2\sigma_{e}^{2}(μ,α)t(μ,α)t(\mu, \alpha)^{t}(0,0)(0,0)(0,0)σ2pσp2\sigma_{p}^{2} 自己回帰式に基づいて、この手段は、データ点(の分布ことYiYiY_{i})、平均して正常であるμ+α⋅Yi−1μ+α⋅Yi−1\mu + \alpha\cdot{}Y_{i-1}と分散σ2eσe2\sigma_{e}^{2}。したがって、すべてのデータポイントの密度(Y)(Y)(Y)(独立していると仮定すると、これは作成中のプログラムに適しています)は次のようになります。p(Y|(μ,α)t)=∏i=21112πσ2e−−−−√exp−(Yi−μ−α⋅Yi−1)22σ2e.p(Y|(μ,α)t)=∏i=21112πσe2exp⁡−(Yi−μ−α⋅Yi−1)22σe2. p(Y \quad | (\mu, \alpha)^{t}) = \prod_{i=2}^{11}\frac{1}{\sqrt{2\pi\sigma_{e}^{2}}}\exp{\frac{-(Y_{i} - \mu - \alpha\cdot{}Y_{i-1})^{2}}{2\sigma_{e}^{2}}}. ベイズの定理により、上記の密度と前の密度の積をとることができます。その後、正規化定数が必要になります。私の考えでは、これはガウス分布になるはずなので、μμ\muと積分で明示的に計算するのではなく、最後に正規化定数を心配することができαα\alphaます。 これは私が問題を抱えている部分です。事前密度(多変量)とこの単変量データ密度の積の乗算を計算するにはどうすればよいですか?後部は純粋にμμ\muと密度である必要がありαα\alphaますが、そのような製品からどのようにそれを得ることができるかわかりません。 あなたが私を正しい方向に向けただけで、厄介な代数を実行する必要がある場合でも、ポインタは本当に役立ちます(これはすでに何度か試したことです)。 出発点として、ここにベイズの規則からの分子の形式があります:1(2πσ2e)5⋅2πσ2pexp[12σ2e∑i=211(Yi−μ−α⋅Yi−1)2−μ22σ2p−α22σ2p].1(2πσe2)5⋅2πσp2exp⁡[12σe2∑i=211(Yi−μ−α⋅Yi−1)2−μ22σp2−α22σp2]. \frac{1}{(2\pi\sigma_{e}^{2})^{5}\cdot{}2\pi\sigma_{p}^{2}} \exp{\biggl [ \frac{1}{2\sigma_{e}^{2}}\sum_{i=2}^{11}(Y_{i} - \mu - \alpha\cdot{}Y_{i-1})^{2} …

2
選択するパラメーター推定の方法を知るにはどうすればよいですか?
パラメータの推定には、かなりの数の方法があります。MLE、UMVUE、MoM、意思決定理論、その他はすべて、パラメーター推定に役立つ理由についてかなり論理的なケースがあるように見えます。ある方法は他の方法よりも優れていますか、それとも単に「最適な」推定量を定義する方法の問題ですか(直交誤差を最小化すると通常の最小二乗アプローチから異なる推定値が生成されるのと同様)?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.