タグ付けされた質問 「mathematical-statistics」

形式的な定義と一般的な結果に関係する統計の数学的理論。


3
ベータ確率変数の逆正規CDFはどの分布に従うのですか?
以下を定義するとします: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) ここで、は標準正規分布のCDFの逆数です。Φ−1Φ−1\Phi^{-1} 私の質問は次のとおりです続く単純な分布はありますか、それともを近似できますか?YYYYYYシミュレーション結果(以下に示す)に基づいて、およびが高い場合にが正規分布に収束するという強い疑念があるので、私は尋ねていますが、なぜ数学的にそうなるのかわかりません。(もちろん、場合、は均一で、Yは標準の法線になりますが、より高い値に当てはまるのはなぜですか?)YYYαα\alphaββ\betaα=1;β=1α=1;β=1\alpha=1;\beta=1XXXYYY これが法線に収束する場合、αα\alphaとに関して、その法線のパラメーターはどうなりますββ\betaか?(私は平均が可能だろうと期待しておりΦ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})それはモードの変換なので、標準偏差はわかりません)。 (別の言い方をすれば、これは「Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))はベータ分布に収束し、μμ\muとある方向についてはσσ\sigma」と尋ねることができますか?それが答えやすいかどうかわかりません)。 シミュレーション結果 ここで、結果が正常であると疑う理由を示します(数学でバックアップできないため)。シミュレーションはYYY、qnormとでRで実行できますrnorm。たとえば、高いパラメーターα=3000α=3000\alpha=3000および選択する場合β=7000β=7000\beta=7000: hist(qnorm(rbeta(5000, 3000, 7000))) これは正常に見えqqnorm、Shapiro-Wilk検定(正規性は帰無仮説)も同様に示唆します。 qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) #> #> Shapiro-Wilk normality test #> #> data: qnorm(rbeta(5000, 3000, 7000)) #> W = 0.99954, p-value = 0.2838 正常性をもう少し詳しく調べるために、から5,000の値をシミュレートするたびに2,000回のシミュレーションYYYを実行し、それからテストを実行して正常と比較します。(5Kの値を選択したのはshapiro.test、それが最大の処理能力であり、標準からの逸脱を検出する能力を最大化するためです)。 分布が本当に正規である場合、p値は均一であると予想されます(nullがtrueであるため)。それらは確かに均一に近く、分布が正規に非常に近いことを示唆しています。 hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value)) いくつかの実験では、とβが高いほど、分布が正規に近くなることが示されています(たとえば、正規からかなり離れていますが、試してみてください。αα\alphaββ\betarbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, …

2
シンプソンのパラドックスについて、分割表ではなく方程式で説明してください。
私はおそらくシンプソンのパラドックスを明確に理解していないでしょう。非公式には、因子Aのすべてのレベルでグループ化された応答Y1の平均は、Aの各レベル(各グループ)のY1の平均が次の場合でも、Aのすべてのレベルでの応答Y2の平均よりも高くなることがありますY2の対応する平均より常に小さい。私は例を読んでいますが、それを見るたびに驚きます。特定の例でよく学んでいないからかもしれません。それらを一般化するのに苦労しています。私は最もよく学び、数式の説明を見たいと思います。テーブルをカウントするのではなく、方程式に依存するパラドックスを説明していただけますか? また、私が驚いた理由は、パラドックスに関係する平均について無意識に仮定を立てることができたからだと思います。各グループのサンプル数で重み付けするのを忘れるかもしれませんか?しかし、その後、私は各グループの平均を各グループのサンプル数で重み付けすると、(これが真実であれば)明らかではないため、合計平均の推定値がより正確であることを示す式を見たいと思います一般的に私に。単純に、重みに関係なく、サンプルが多いほどの推定値のE [ Y1]E[Y1]\mathbf{E}[Y_1]標準誤差は低くなると思います。

5
分析背景のない数学的統計への道:自習に理想的な教科書
私はかなり数学的に傾いています-私の学部では数学の6学期がありました-しかし、私は少し練習から外れており、偏微分方程式や経路積分と言うと私の概念は少し練習して戻ってきました。私は数学的証明(数学的思考)のコースも分析のコースも持っていません。 大学院レベルの確率も理解しています。正式に研究し、最近の知識を更新しました。 また、統計と統計学習に関する大学院レベルのコースをいくつか受講しました。 個人的な興味から、今後18〜24か月の数学統計を勉強したいと思います。被験者に週に平均5時間の自習をしたいと思います。 私はそれを行う方法について少し迷っています。私はCasella and Bergerの本から勉強しようとしましたが、本当に前進することができませんでした。私はこの本が少し退屈で、その方法が扱いにくいと感じました。 CasellaとBergerについて私が難しいと思ったこと: これを言うのは恥ずかしかったが、タイプ設定の出発点-ホワイトスペースを減らすために詰め込まれた方法が私を苦しめた そこには多くの証拠がありましたが、なぜ結果を達成しようとしていたのか、そして目前の大きな目標は何であるのかについて、直観に欠けていると感じました。 前の章からの証明の参照は、その資料を少し扱いに​​くいものにする方法でした-私は最終的にあきらめるまでずっと戻っていました。 例は非常に実行可能であるように見えましたが、私は問題に取り組むことができませんでした—問題はそれ自体でクラスにあるように見えました。 私は材料に入ることができませんでした-そして、私の心の働きにもっと厳格な治療が必要かどうか疑問に思います- 数学的統計に対する測定理論的アプローチを検討すべきですか? だから質問:私の靴の誰かが勉強して教科を自分で教えることができる教科書はありますか? 私がテキストで欲しいもの: 多くの点で、本で欲しいものは、CasellaとBergerで好きではなかったものの逆です。 本のタイプ設定が役立ちます。以下のポイントのいくつかは、このポイントを詳しく説明します。 私は我々がおそらく非数学的な意味で、やりたいものに直観での始まりの本を持っている良いことだと思う-多少の本のように統計フリーマンら。 定理を数学的な導出と解説形式で同時に提示する本— CBでは、証明を読み上げようとするのをあきらめた 各セクションに付随するさまざまな問題を解決した本。 Rを使用するなどの概念を探求することにより、読者がより良い理解を構築できるようにする計算演習も含まれている本 数理統計学の最初の1つまたは場合によっては2つの大学院コースに必要な資料を網羅した本。 その他の注意事項: 私はこの質問を知っています数学者のための統計入門 -この質問を投稿する前に私が研究したいくつかの重複といくつかの答えがあります-しかし、私は2つの質問が異なる質問を持っていると感じます。

1
同じ平均、異なる分散
8人のランナーがレースを実行しているとします。個々の実行時間の分布は正規であり、それぞれの平均はたとえば秒です。ランナー1の標準偏差は最も小さく、2番目が2番目に小さく、3番目が最も小さく、8個が最も大きくなります。2つの質問が私を混乱させています。(1)最初が最後に勝つ確率は何ですか?(2)レースに勝つ可能性が最も高いのは誰ですか?111111 私の答えはそれぞれとです。それらは同じ平均を共有しているため、がちょうどである確率はありませんか?どうすれば2番目の部分を厳密に実証できますか?また、勝ちの正確な確率を計算できますか?前もって感謝します。8 ˉ X 1 - ˉ X 8 < 0 1 / 21/21/21/2888x¯1−x¯8<0x¯1−x¯8<0\bar x_1-\bar x_8\lt 01/21/21/2

1
一貫性のある推定量の定義がそのままなのはなぜですか?一貫性の代替定義についてはどうですか?
ウィキペディアからの引用: 統計では、一貫性の推定又は漸近一致推定は、パラメータの計算推定のための推定ルールであるθ∗θ∗θ^*データポイントの数と、無期限に確率の推定値が収束の結果のシーケンスを増加を使用したこと特性を-having θ∗θ∗θ^*。 このステートメントを正確にするには、推定する真のパラメーターの値をθ∗θ∗\theta^*とし、データの関数としてこのパラメーターを推定するためのルールをθ^(Sn)θ^(Sn)\hat\theta(S_n)とします。次に、推定量の一貫性の定義は次のように表現できます。 limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0 私の質問は一見表面的なようだが、それは次のとおりです。なぜ単語「一貫性/整合性は、」推定のこの振る舞いを記述するために使用されたのですか? 私がこれを気にする理由は、私にとって、直感的に一貫性という言葉は異なるものを意味するためです(少なくとも、私にとっては異なるように見えますが、等しいことを示すことができるかもしれません)。例を使用して、その意味を説明します。「あなた」は一貫して「良い」(何らかの良い定義について)、そして一貫しているということは、あなたが良いことを証明/示す機会があるたびに、あなたが本当に良いことを毎回本当に証明することを意味します(または少なくともほとんどの時間)。 直観を適用して、推定量の一貫性を定義します。"you"をθ^θ^\hat{\theta}を計算する関数とし、 "good"が真の推定値\ theta ^ *からどれだけ離れているかを意味しますθ∗θ∗\theta^*(良い、l1l1l_1意味で、そうではありません)。一貫性のより良い定義は次のとおりです。 ∀n,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ∀n,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ\forall n,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta 一貫性の定義としてはあまり有用ではないかもしれませんが、推定器θ^θ^\hat\thetaに投げるトレーニング/サンプルセットについては、一貫性を定義する方法のほうが理にかなっています。良い仕事です。つまり、私は一貫してうまくやるでしょう。すべてのn(おそらく不可能)に対してそれを行うのは少し非現実的ですが、次のように言ってこの定義を修正できます。 ∃n0,∀n≥n0,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ∃n0,∀n≥n0,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ\exists n_0, \forall n \geq n_0,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta すなわち、nが十分に大きい場合、推定器は真のから(つまり、「真実」から超えない)より悪くなることはありません(は少なくとも必要な直感をキャプチャしようとしています何かを学習/推定するためのいくつかの例があり、その数に達すると、推定者が定義しようとしている方法に一貫性がある場合、推定者はほとんどの場合うまくいきます)。ϵϵ\epsilonϵϵ\epsilonθ∗θ∗\theta^*n0n0n_0 ただし、前の定義は強力であり、サイズほとんどのトレーニングセットでから遠ざかる可能性を低くすることができます(つまり、すべてのでこれを必要としませんが、またはそのようなものの分布)。そのため、ほとんどのサンプル/トレーニングセットで高いエラーが発生することはほとんどありません。θ∗θ∗\theta^*n≥n0n≥n0n \geq n_0SnSnS_nSnSnS_n とにかく、私の質問は、「一貫性」のこれらの提案された定義は実際に一貫性の「公式」定義と同じですか、しかし等価性を証明するのは難しいですか?証拠を知っているなら、それを共有してください!または、私の直感は完全にオフになっていますか?通常定義されている方法で定義の一貫性を選択するより深い理由がありますか?なぜ(「公式」)一貫性がそのように定義されているのですか? ある種の同等性の証明候補、または私の一貫性の概念と受け入れられている一貫性の概念の類似性についての私の考えのいくつかは、制限の定義。しかし、私はその方法を100%確信していませんでしたが、一貫性の公式定義では、すべての潜在的なトレーニング/サンプルセットについて話すことを考慮していないようです。私はそれらが同等であると信じているので、私が提供した公式の定義は不完全ですか(つまり、私たちができるデータセットまたはサンプルセットを生成できるすべての異なるデータセットについて話さないのはなぜですか)?(ϵ,δ)−(ϵ,δ)−(\epsilon, …

3
なぜこの抜粋は、標準偏差の公平な推定は通常関係がないと言っているのですか?
私は標準偏差の偏りのない推定の計算について読んでいたと私が読んだソース (...)いくつかの重要な状況を除き、タスクは、有意性検定や信頼区間の使用などの標準手順、またはベイズ分析を使用することで必要性が回避されるため、統計の適用とはほとんど関係がありません。 たとえば、信頼区間で計算の一部として標準偏差を使用していないのではないかと、このステートメントの背後にある理由を解明できる人がいるかどうか疑問に思っていました。したがって、信頼区間はバイアス標準偏差の影響を受けませんか? 編集: これまでの回答に感謝しますが、それらの理由のいくつかに従っているのかどうか確信が持てないので、非常に簡単な例を追加します。ポイントは、ソースが正しい場合、私の結論から例に何か間違っているということです。p値が標準偏差にどのように依存しないかを誰かに指摘してもらいたいです。 研究者が、自分の都市でのテストの5年生の平均スコアが、76の全国平均と有意水準0.05で異なるかどうかをテストしたいとします。研究者は20人の学生のスコアをランダムにサンプリングしました。サンプルの平均は80.85で、サンプルの標準偏差は8.87でした。つまり、t =(80.85-76)/(8.87 / sqrt(20))= 2.44。次に、tテーブルを使用して、19 dfでの2.44の両側確率値が0.025であることを計算します。これは有意水準0.05を下回っているため、帰無仮説を棄却します。 したがって、この例では、サンプルの標準偏差をどのように推定したかに応じて、p値(およびおそらくあなたの結論)は変化しませんか?

4
3次の漸近線は存在しますか?
統計のほとんどの漸近的な結果は、として、推定器(MLEなど)が尤度関数の2次テイラー展開に基づいて正規分布に収束することを証明します。ベイジアン文学、「ベイジアン中心極限定理」にも同様の結果があると思います。これは、後部がとして法線に漸近的に収束することを示しています。n→∞n→∞n \rightarrow \inftyn→∞n→∞n \rightarrow \infty 私の質問は-分布は、テイラー級数の第3項に基づいて、正規になる前に何かに収束するのか?それとも、一般的にこれを行うことはできませんか?

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training &lt;- twoClassSim(50, linearVars = 2) set.seed(849) testing &lt;- twoClassSim(500, linearVars = 2) trainX &lt;- training[, -ncol(training)] testX &lt;- testing[, -ncol(testing)] trainY &lt;- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

1
GAM vs LOESS vsスプライン
コンテキスト:パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is &gt;=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。 次の認識は正しいですか? レスは、特定の値で応答を推定します。 スプラインは、データ(一般化された加法モデルを構成する)に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。 最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか?

1
Oracle不等式:基本的に
私はオラクルの不平等を使って何かを証明する論文を読んでいますが、それが何をしようとしているかを理解することはできません。「Oracle Inequality」についてオンラインで検索したところ、「Candes、Emmanuel J.「オラクル不平等による現代の統計的推定」という記事に導かれた情報源がありました。" https://statweb.stanford.edu/~candes/papers/NonlinearEstimation.pdfにあります。しかし、この本は私には重すぎるように思われ、いくつかの前提条件が欠けていると思います。 私の質問は次のとおりです。オラクルの不等式が数学以外の専攻(エンジニアを含む)にどのように説明しますか?第二に、上記の本のようなものを学ぶ前に、前提条件/トピックについてどのように推奨するか。 具体的に把握し、高次元統計の経験が豊富な人に答えてもらうことを強くお勧めします。

2
MAプロセスが可逆的である場合、なぜ気にするのですか?
MAプロセスが可逆的であるかどうかを気にする理由を理解できません。 私が間違っている場合は修正してください、しかし、ARプロセスが因果関係であるかどうかを気にする理由を理解することができます。すなわち、移動平均プロセス。その場合、ARプロセスが因果関係にあることが簡単にわかります。 ただし、MAプロセスを可逆的であることを示すことでARプロセスとして表すことができるかどうかを気にする理由を理解するのに苦労しています。どうして私たちが気にするのか本当に理解していません。 どんな洞察も素晴らしいでしょう。


1
が静止している場合、
Iは、IFと言うたARCHモデルの特性のいずれかの証拠出くわし、次いで、{ Xのtは }静止IFFあるΣ P iは= 1、B I &lt; 1 ARCHモデルです。E(X2t)&lt;∞E(Xt2)&lt;∞\mathbb{E}(X_t^2) < \infty{Xt}{Xt}\{X_t\}∑pi=1bi&lt;1∑i=1pbi&lt;1\sum_{i=1}^pb_i < 1 Xt=σtϵtXt=σtϵtX_t = \sigma_t\epsilon_t σ2t=b0+b1X2t−1+...bpX2t−pσt2=b0+b1Xt−12+...bpXt−p2\sigma_t^2 = b_0 + b_1X_{t-1}^2 + ... b_pX_{t-p}^2 証明の主なアイデアは、がAR(p)プロセスとして記述でき、∑ p i = 1 b i &lt; 1が真である場合、特性多項式のすべての根が単位円の外側にあり、したがって、{ X 2 t }は静止しています。そして、それゆえ{ X t }は静止していると言います。これはどのように続きますか?X2tXt2X_t^2∑pi=1bi&lt;1∑i=1pbi&lt;1\sum_{i=1}^pb_i < 1{X2t}{Xt2}\{X_t^2\}{Xt}{Xt}\{X_t\}

3
ベータ版の配布元はどこですか?
私は確信しているとして、誰もがここでは、すでにベータ分布のPDFを知っているで与えられますX∼B(a,b)X∼B(a,b)X \sim B(a,b) f(x)=1B(a,b)xa−1(1−x)b−1f(x)=1B(a,b)xa−1(1−x)b−1f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1} この式の起源を説明するために、あちこちで狩りをしてきましたが、見つけることができません。私がベータ版の分布で見つけたすべての記事は、この公式を提供し、その形状のいくつかを説明し、その後、その瞬間とそこから議論にまっすぐ進むようです。 私が導き出して説明できない数式を使うのは好きではありません。他の分布(例:ガンマまたは二項分布)については、学習して使用できる明確な導出があります。しかし、ベータ版ディストリビューションについては、そのようなものは見つかりません。 だから私の質問は次のとおりです。この式の起源は何ですか?最初に開発されたどのようなコンテキストでも、どのように第一原理から派生させることができますか? [明確にするために、ベイジアン統計でベータ分布を使用する方法、または実際にそれが直感的に意味するものについては質問していません(野球の例を読みました)。PDFの導出方法を知りたいだけです。同様のことを尋ねる以前の質問がありましたが、問題に対処しなかった別の質問の重複としてマークされていたので(間違っていると思います)、ここでヘルプを見つけることができませんでした。 EDIT 2017-05-06:質問をありがとうございます。私が望むものについての良い説明は、私のコースインストラクターにこれを尋ねたときに得た答えの1つから来ると思います: 「人々はn個の合計をsqrt(n)で割った限界として通常の密度を導き出すことができると思います。また、一定の速度で発生するイベントの考えからポアソン密度を導き出すことができます。ベータ密度については、密度から独立して、論理的に何がベータ分布になるのかをある程度理解する必要があります。」 したがって、コメント内の「ab initio」のアイデアは、おそらく私が探しているものに最も近いでしょう。私は数学者ではありませんが、導出できる数学を使用するのが最も快適だと感じています。起源が私には扱えないほど進んでいるなら、そうであるが、そうでないなら、私はそれらを理解したいと思う。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.