タグ付けされた質問 「mathematical-statistics」

形式的な定義と一般的な結果に関係する統計の数学的理論。

1
最尤推定の幾何学的解釈
私はフランクリンM.フィッシャーの『計量経済学における識別問題』という本を読んでいて、尤度関数を視覚化することで識別を示している部分に戸惑いました。 問題は次のように簡略化できます。 回帰の場合、どこU 〜I 。私。d 。N (0 、σ 2 I )、 及びBはパラメータです。Yの係数cが1に等しいと仮定します。その後の空間における尤度関数Cは、、bが なければならない真のパラメータとそのスカラー倍のベクトルに対応する線に沿ってリッジY= a + Xb + uY=a+Xb+uY=a+Xb+uU 〜I 。私。d。N(0 、σ2私)u∼i.i.d.N(0,σ2I)u \sim i.i.d. N(0,\sigma^2I)aaabbbYYYcccc 、a 、bc,a,bc, a,b。によって与えられる場所のみを考慮する場合、尤度関数は、光線がその平面と交差する点で一意の最大値を持ちます。c=1c=1c=1 私の質問は: デモンストレーションで言及された尾根と光線について、どのように理解し、それを推論すべきか。 光線は真のパラメーターとスカラーであるため、パラメーターcの真の値が1であるため、光線が与えられる平面上にないのはなぜですか。c=1c=1c=1ccc


5
ニューラルネットワークの数学的背景
これがこのサイトに適しているかどうかはわかりませんが、私はMSEをコンピュータサイエンス(応用数学のBS)で始めており、機械学習の強力なバックグラウンドを取得したいと考えています(おそらく博士号を取得する予定です)。私のサブインタレストの1つはニューラルネットワークです。 ANNの良い数学的背景は何ですか?機械学習の他の領域と同様に、線形代数が重要だと思いますが、数学の他のどの領域が重要ですか? ニューラルネットワーク:体系的な紹介またはパターン認識のためのニューラルネットワークを読む予定です。誰かが何か入力や代替推奨事項を持っていますか?

1
経験的平均が値を超えると予想される回数
iid確率変数の列、と言う、与えられたのために、私は= 1 、2 、。。。、n、私は経験的平均の期待される回数を制限しようとしています1Xi∈[0,1]Xi∈[0,1]X_i \in [0,1]i=1,2,...,ni=1,2,...,ni = 1,2,...,n、値を超えるcは≥0:である、我々は、サンプルを描画し続けるように、 T DのEのF = N Σの J=1つのP({ 11n∑ni=1Xi1n∑i=1nXi\frac{1}{n}\sum_{i=1}^n X_ic≥0c≥0c \geq 0T=def∑j=1nP({1j∑i=1jXi≥c})T=def∑j=1nP({1j∑i=1jXi≥c}) \mathcal{T} \overset{def}{=} \sum_{j=1}^n \mathbb{P} \left(\left\{ \frac{1}{j}\sum_{i=1}^j X_i \geq c\right\}\right) あるa > 0に対してであると仮定すると、Hoeffdingの不等式を使用してc=a+E[X]c=a+E[X]c = a + \mathbb{E}[X]a>0a>0a > 0 T≤∑j=1ne−2ja2=1−e−2a2ne2a2−1T≤∑j=1ne−2ja2=1−e−2a2ne2a2−1\begin{align} \mathcal{T} & \leq \sum_{j=1}^n e^{-2ja^2} \\ & = \frac{1 - e^{-2 a^2 n}}{e^{2 …

1
回帰係数のサンプリング分布
私は以前、未知のパラメータに関して、推定器のための結果を与えるサンプリング分布について学びました。例えば、サンプリング分布のためにβ 0及びβ 1線形回帰モデルにおいてY iが = β O + β 1 X I + ε Iβ^0β^0\hat\beta_0β^1β^1\hat\beta_1Yi=βo+β1Xi+εiYi=βo+β1Xi+εiY_i = \beta_o + \beta_1 X_i + \varepsilon_i と β1〜Nを(β1、σ2β^0∼N(β0, σ2(1n+x¯2Sxx))β^0∼N(β0, σ2(1n+x¯2Sxx)) \hat{\beta}_0 \sim \mathcal N \left(\beta_0,~\sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}\right)\right) β^1∼N(β1, σ2Sxx)β^1∼N(β1, σ2Sxx) \hat{\beta}_1 \sim \mathcal N \left(\beta_1,~\frac{\sigma^2}{S_{xx}}\right) ここで、Sxx=∑ni=1(x2i)−nx¯2Sxx=∑i=1n(xi2)−nx¯2S_{xx} = \sum_{i=1}^n (x_i^2) -n \bar{x}^2 しかし今、私は本で以下を見ました: 通常の方法でモデルを最小二乗法で近似するとします。ベイジアン事後分布を検討し、事前分布を選択して、これが通常の頻度主義サンプリング分布と同等になるようにします。 (β0β1)∼N2[(β^1β^2), σ^2(n∑ni=1xi∑ni=1xi∑ni=1x2i)−1](β0β1)∼N2[(β^1β^2), σ^2(n∑i=1nxi∑i=1nxi∑i=1nxi2)−1] …

1
共分散、相互共分散、自己相関/相互相関、パワースペクトル密度を直感的に理解
現在、ECE学士号の基本統計のファイナルを勉強しています。 数学はほとんど落ち込んでいると思いますが、数字が実際に何を意味するのかを直感的に理解できていません。 E [X]は、確率で重み付けされたXのすべての結果の「加重平均」です。 Var [X]は、E [X]の2乗から予想される分散を与えるため、分布の「ぼやけ」について何かを教えてくれます。 他のプロパティは式を知っていますが、直感に欠けています。誰かがそれを助けるための良い説明/リソースを持っていますか?

7
相関関係が因果関係を意味しない場合、2つの変数間の相関関係を知ることの価値は何ですか?
ビジネスオーナー(またはマーケティングまたは散布図を理解している人)が2つの変数の散布図を表示しているとしましょう:過去5年間(またはより多くのサンプルがあります。これを作成しました)。 今、彼/彼女は散布図を見て、相関係数(corr)が次のようであると伝えられます: 1または 0.5または 0.11または 0または -0.75または -1 基本的に有効な値 corr 質問:これは、意思決定者や散布図の消費者にとってどのような意味がありますか?これだけに基づいてどのような決定を下すことができますか? つまり、任意の2つの変数間の相関関係を確認する用途は何ですか。また、その情報を単独で使用して何ができるのでしょうか。回帰分析に含めるために何を考慮すべきか、何を考慮しないかを確認するためだけのものですか、それとももっと実用的な用途がありますか? 興味津々ですが、私はいつもこのテクニックを使用してきましたが、相関関係だけではあまり役に立たないと言われています。


1
を閉じた形でどのように計算できますか?
閉じた形の二乗された通常のCDFの期待値をどのように評価できますか? E[Φ(aZ+b)2]=∫∞−∞Φ(az+b)2ϕ(z)dzE[Φ(aZ+b)2]=∫−∞∞Φ(az+b)2ϕ(z)dz\mathbb{E}\left[\Phi\left(aZ+b\right)^{2}\right] = \int_{-\infty}^{\infty}\Phi\left(az+b\right)^{2}\phi(z)\,dz ここで、、は実数、、とは標準正規確率変数の密度と分布関数です。それぞれ。aaabbbZ∼N(0,1)Z∼N(0,1)Z\sim\mathcal{N}(0,1)ϕ(⋅)ϕ(⋅)\phi(\cdot)Φ(⋅)Φ(⋅)\Phi(\cdot)



1
治療群に対応する対照群を見つけるには?
私は数学補助ソフトウェアを使用したサイズ30(カリフォルニアの30の学校)の治療グループを持っています。簡単な分析では、私たちの治療群と同等の対照群との間の学生の数学の平均成長を比較したいと思います。CAにはソフトウェアを使用しなかった学校がたくさんあります。コントロールグループに同様のパフォーマンスの学校を含めたい(それらのベースラインスコアは妥当な誤差範囲のある治療学校と同様である)。また、コントロールグループのサンプルサイズを私の治療の3倍にしてください(ここでは90校)。カリフォルニアには1000を超える学校があり、そのうち90の学校には多くの選択肢があります。コントロールグループをどのように選択しますか?

3
情報理論の中心極限定理
情報理論CLTの最も単純な形式は次のとおりです。 ましょう平均でIIDさ、分散。ましょう正規化された和の密度であると標準ガウス密度です。次に、情報理論CLTは、がいくつかのnに対して有限である場合、D(f_n \ | \ phi)\ to 0はn \ to \ infty。0 1 f n ∑ n i = 1 X iX1,X2,…X1,X2,…X_1, X_2,\dots000111fnfnf_n∑ni=1Xin√∑i=1nXin\frac{\sum_{i=1}^n X_i}{\sqrt{n}}ϕϕ\phiN D (F N ‖ φ )→ 0 、N → ∞D (fん∥ φ )= ∫fんログ(fん/ ϕ)dバツD(fn‖ϕ)=∫fnlog⁡(fn/ϕ)dxD(f_n\|\phi)=\int f_n \log(f_n/\phi) dxんnnD (fん∥はφ )→ 0D(fn‖ϕ)→0D(f_n\|\phi)\to 0n → ∞n→∞n\to \infty 確かに、この収束は、ある意味では、文献で確立されている収束、分布の収束、L1L1L_1メトリックでの収束よりも「強力」です。これは、Pinskerの不等式( …

1
確率測度間のラドン-ニコディム微分の解釈?
私はいくつかの点で見た別のに対して一方確率測度のラドンNikodym誘導体の使用、最も顕著には、それはいくつかの任意のパラメータのモデルの確率測度の誘導体であるカルバック・ライブラー情報量、におけると実際のパラメータに関してθ 0:θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} :これらは、パラメータ値を条件とデータポイントのスペースの両方の確率測度である場合。Pθ(D)=P(D|θ)Pθ(D)=P(D|θ)P_\theta(D)=P(D|\theta) カルバックライブラーダイバージェンス、またはより一般的には2つの確率測度の間のそのようなラドンニコディム導関数の解釈は何ですか?

3
ダイス100は20回以上出現する顔を転がしません
私はこの問題に頭を抱えようとしています。 サイコロを100回振る。顔が20回以上表示されない確率はどれくらいですか?私の最初の考えは、二項分布P(x)= 1-6 cmf(100、1/6、20)を使用することでしたが、いくつかのケースを複数回カウントするため、これは明らかに間違っています。私の2番目のアイデアは、可能なすべてのロールx1 + x2 + x3 + x4 + x5 + x6 = 100を列挙して、xi <= 20とし、多項式を合計することですが、これは計算が集中しすぎるようです。近似解も私にとってはうまくいきます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.