タグ付けされた質問 「mathematical-statistics」

形式的な定義と一般的な結果に関係する統計の数学的理論。

1
データ行列が対角である場合の投げ縄問題の閉形式解
\newcommand{\diag}{\operatorname{diag}}minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). この場合、閉じた形式のソリューションはありますか? 私はそれを持っています:そして、答えは:^ J = Y \ \ W、^ J \最大\左\ {0,1- \ラムダ\ FRAC {N} {| y ^ J |} \右\}、のためにY \、^ J = \ displaystyle \ sum_ {i = 1} ^ n \ frac {y_ix_i \、^ j} {\ sigma_i ^ 2}ですが、わかりません。W(XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),ywj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}

5
数学統計のどの領域が非常に採用可能ですか?
私は統計学の栄誉を終えようとしています。数学の統計学は非常に興味深いと思うので、本当に博士号を取得したいと思っています。私が最も博士号を取得したい研究分野は、確率過程と時系列です。 しかし、私は博士号取得後、民間部門でのキャリアも追求したいと考えています。私は、数学統計のどの分野が民間部門で最も使用されているのか、どのような職種で使用されているのか疑問に思っていました。 雇用できるという理由だけで博士号を取得するつもりはありませんが、それは間違いなく検討する必要があると感じているので、アドバイスをお願いします。

2
データマイニングにおけるカオス理論の既知の既存の実用的なアプリケーションは何ですか?
過去数年間、大衆市場でカオス理論に関するいくつかの作品をさりげなく読んでいるうちに、ニューラルネット、パターン認識、不確実性管理など、データマイニングや関連分野にそのさまざまな側面をどのように適用できるのか疑問に思い始めました。 '公開された研究でそのようなアプリケーションの例が非常に少ないので、a)既知の公開された実験およびプロジェクトで実際に実行されているか、b)そうでない場合、これらの相互関係でほとんど使用されていないのか疑問に思う田畑? 私がこれまで見てきたカオス理論の議論のほとんどは、完全に有用な科学アプリケーションを中心に展開していますが、データマイニングやパターン認識などの関連分野とはほとんど関係ありません。典型的な例の1つは、物理学の3体問題です。私はこの種の通常の科学的応用の議論を控えて、データマイニングと関連分野に明らかに関連する応用だけに質問を制限したいと思います。以下の潜在的なアプリケーションのリストは、公開された研究の検索の出発点として使用できますが、実際に実行されているアプリケーションがある場合は、それらにのみ興味があります。私が探しているのは、データマイニングに対するカオス理論の既知の実装です。潜在的なアプリケーションのリストとは対照的に、はるかに広いです。これは、読んでいるときに私が思いついたデータマイニングアプリケーションの簡単なアイデアの小さなサンプルです。おそらく、それらのどれも実用的ではなく、おそらくいくつかは私たちが話すように実用化されていますが、私はまだ慣れていない用語で行きます: マンデルブロが数十年前にアナログ電話回線のエラーバーストの場合に実用的な方法で行ったように、パターン認識で自己相似構造を識別します。 マイニングの結果にフェイゲンバウムの定数に出会う(おそらく、研究の過程で予想外の場所にマックスウェルの方程式がポップアップするのを見て、ストリング理論家が驚いたのと同様の方法で)。 ニューラルネットの重みとさまざまなマイニングテストの最適なビット深度を特定します。カオス関連関数の予測不可能性の一部を担っている初期条件への感度が出てくる、非常に小さい数値スケールのために、これについて疑問に思いました。 メンジャースポンジ、コッホカーブ、シェルピンスキーカーペットなど、魅力的なフラクタルの好奇心とは必ずしも関係のない他の方法で、分数次元の概念を使用します。おそらく概念をマイニングモデルの次元に、フラクショナルとして扱うことにより、何らかの有益な方法で適用できますか? フラクタルで作用するような法則の導出。 フラクタルで遭遇する関数は非線形であるため、非線形回帰への実用的なアプリケーションがあるのだろうかと思います。 カオス理論にはエントロピーとの接線的(そして時には誇張された)関係があるので、カオス理論で使用される関数からシャノンのエントロピー(またはその制限とその親類の制限)を計算する方法はあるのでしょうか? データの周期倍増動作を識別します。 有用な方法で「自己組織化」する可能性が最も高いものをインテリジェントに選択することにより、ニューラルネットの最適な構造を特定します。 カオスやフラクタルなども、計算の複雑さに正接しているため、複雑さを使用してカオス構造を特定できるのか、またはその逆の可能性があるのでしょうか。 私は最初にカオス理論の観点からリアプノフ指数を聞いたことがあり、それから特定のニューラルネットのレシピとエントロピーの議論で数回気づきました。 私がここにリストしていない他の関係はおそらく数十あります。これはすべて私の頭の上から外れました。私はこれらの特定の推測に対する具体的な答えにあまり興味がありませんが、野生に存在する可能性のあるアプリケーションのタイプの例として、それらを単に投げ捨てています。アプリケーションがデータマイニングに特に適用可能である限り、現在の研究の例や、このようなアイデアの既存の実装を含む返信を見たいと思います。 おそらく、私がよく知っている分野(情報理論、ファジィ集合、ニューラルネットなど)や、回帰などの能力がさらに低いものでも、気付いていない既存の実装がおそらく存在します。どういたしまして ここでの私の実用的な目的は、カオス理論の特定の側面について学習するためにもっと投資するかどうかを決定することです。明らかな有用性が見つからない場合は、後回しにします。 CrossValidatedを検索しましたが、データマイニングなどへのカオス理論の実用的なアプリケーションに直接対処するトピックは表示されませんでした。最も近いのは、スレッドカオス理論、方程式のないモデリング、ノンパラメトリック統計です。特定のサブセットで。

3
線形回帰:OLSとMLEの同一性を与える非正規分布はありますか?
この質問は、ここでのコメントの長い議論から着想を得ています: 線形回帰は正規分布をどのように使用しますか? :通常の線形回帰モデルでは、単純化のためにここで一つだけの予測で書かれた 知られている定数であり、ゼロ平均の独立した誤差項です。さらに誤差の正規分布を仮定すると、の通常の最小二乗推定量と最尤推定量は同じです。Yi=β0+β1xi+ϵiYi=β0+β1xi+ϵ私 Y_i = \beta_0 + \beta_1 x_i + \epsilon_i xixix_iϵiϵi\epsilon_iβ0,β1β0,β1\beta_0, \beta_1 だから私の簡単な質問:mleが通常の最小スクアレス推定量と同一になるような誤差項の他の分布はありますか?1つの含意は簡単に表示でき、もう1つの含意はそうではありません。

2
一貫性のない最尤推定量の例
私は論文へのコメントを読んでおり、著者は、推定量(MLまたは最大準尤度によって検出された)が一貫していない場合でも、尤度比または準尤度比検定の力はまだ収束する可能性があると述べています1観測されたデータの数が無限になる傾向があるため(テストの一貫性)。これはいつどのように起こりますか?いくつかの参考文献を知っていますか?

2
二変量ポアソン分布の導出
最近、2変量ポアソン分布に遭遇しましたが、その導出方法について少し混乱しています。 分布は次のとおりです。 P(X=x,Y=y)=e−(θ1+θ2+θ0)θx1x!θy2y!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X=x,Y=y)=e−(θ1+θ2+θ0)θ1xx!θ2yy!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X = x, Y = y) = e^{-(\theta_{1}+\theta_{2}+\theta_{0})} \displaystyle\frac{\theta_{1}^{x}}{x!}\frac{\theta_{2}^{y}}{y!} \sum_{i=0}^{min(x,y)}\binom{x}{i}\binom{y}{i}i!\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)^{i} 私が収集できることから、θ0θ0\theta_{0}項はXXXとYの間の相関の尺度YYYです。したがって、XXXとYYYが独立している場合、θ0=0θ0=0\theta_{0} = 0あり、分布は2つの単変量ポアソン分布の積になります。 これを念頭に置いて、私の混乱は総和項に基づいています-この項はXXXとYの間の相関を説明すると仮定していYYYます。 私には、被加数は「成功」の確率が\ left(\ frac {\ theta_ {0}} {\ theta_ {1} \ theta_ {2}で与えられる二項累積分布関数のある種の積を構成するように思われます} \ right)(θ0θ1θ2)(θ0θ1θ2)\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)および「失敗」の確率はi!^ {\ frac {1} {min(x、y)-i}}によって与えられます。i!1min(x,y)−ii!1min(x,y)−ii!^{\frac{1}{min(x,y)-i}}なぜなら、(i!1min(x,y)−i!)(min(x,y)−i)=i!(i!1min(x,y)−i!)(min(x,y)−i)=i!\left(i!^{\frac{1}{min(x,y)-i!}}\right)^{(min(x,y)-i)} = i!、しかしこれで大丈夫です。 誰かがこの分布をどのように導き出すことができるかについての支援を提供できますか?また、このモデルを多変量シナリオ(3つ以上のランダム変数など)に拡張する方法を回答に含めることができれば、それは素晴らしいことです! (最後に、以前に投稿された同様の質問(2変量ポアソン分布を理解する)があったことに注意しましたが、その導出は実際には調査されませんでした。)

2
閉区間内のすべての有理値をとる離散一様確率変数(?)
(知的)パニック発作を起こしました。 閉じた間隔ユニフォームに続く連続ランダム変数:快適におなじみの統計的概念。 U(a,b)U(a,b)U(a,b) 拡張実数(半分または全体)をサポートする連続した均一なrv:適切なrvではなく、不適切な事前の有用で適用可能な基本的なベイジアン概念。 有限数の値を取る離散ユニフォーム:測地線ドームを投げましょう、大したことはありません。 しかし、整数境界(必要に応じて始まる)の閉区間に含まれるすべての有理数をドメインとして持つ関数はどうでしょうか。そして、可能性のある各値が他のすべての値と等しい確率を持つことを要求する、確率論的な枠組みでそれを使用したいのですか?[0,1][0,1][0,1] 可能な値の数は数え切れないほど無限です(多くの離散分布を特徴づけます)が、確率を等しくしたい場合、単一の値の確率をどのように表現するのでしょうか? そのようなエンティティがランダム変数であることを証明することはできますか? そうでない場合、これは「不適切な事前」の別の化身(おそらくすでによく知られている)ですか? このエンティティは、明確に定義された意味ではありますが、連続した均一なrvと特別に「同等」である可能性はありますか?それとも私は枢機inalの罪を犯したのですか? ドメインが閉じた間隔であるという事実は、私が手放すことができないようです。通常、制限されたものは管理可能です。 質問は、内部の大渦を示すために多くあります。私はそれらのそれぞれに答えを得ることを求めていません。 私は洞察を思いつくかもしれないときはいつでも、私は更新します。 更新:現在の質問は、構成主義者の続編をここで取得したばかりです。

1
期待値とトレース関数の分散
ランダム変数の、および半正定値行列A:期待値の簡略化式があり、E [ T R (X T A X )]と分散、V R [ T R (X T A X )]?Aは確率変数ではないことに注意してください。バツ∈ Rhバツ∈RhX \in \mathbb{R}^hAAAE[ Tr (XTA X)]E⁡[Tr(バツTAバツ)]\mathop {\mathbb E}[Tr(X^TAX)]Va r [ Tr (XTA X)]Var[Tr(バツTAバツ)]Var[Tr(X^TAX)]AAA


7
統計理論とアプリケーションを理解する
私は最近、工学および数学をバックグラウンドとして医学および生物学のモデリングの修士号を取得しました。私の教育プログラムには、かなり高い成績で管理した数学的統計学のコース(以下のリストを参照)がかなり含まれていましたが、統計学の理論と応用の両方を見つめていました。「純粋な」数学と比較して、統計は本当に意味がありません。特に、ほとんどの統計学者(私の過去の講師を含む)が使用する表記法と言語は煩わしく複雑であり、これまでに見たリソース(ウィキペディアを含む)には、簡単に関連し、与えられた理論に関連付けることができる簡単な例がありませんでした。 .. これが背景です。また、特にバイオインフォマティクスの分野では、統計をしっかりと把握しなければ、研究者/エンジニアとしてのキャリアを積むことはできないという現実を実感しています。 私はより経験豊富な統計学者/数学者からいくつかのヒントを得られることを望んでいました。上記のこの問題をどのように克服できますか?良いリソースを知っていますか。書籍、電子書籍、オープンコース(iTunesまたはOpenCourseware for exを使用)など。 編集:私が述べたように、私は統計の一般的なタイトルの下で大部分の文学にかなり否定的に偏っています、そして統計のブランチごとに多くの(そして高価な)コースブックを買うことができないので、必要なもの本の点で は、物理学のためのTipler&Moscaと似ていますが、統計のためです。 ティプラーを知らない人のために。それは、高等研究中に遭遇する可能性のある主題の大部分をカバーする大きな教科書であり、それぞれ基本的な紹介からやや深い詳細までそれらを提示します。基本的には完璧な参考書で、Uniで最初の1年間に購入しましたが、それでもときどき使用しています。 統計に関するコース: 大規模な紹介コース、 定常確率過程、 マルコフ過程、 モンテカルロ法 生存分析

1
循環統計の高次モーメントの直観
循環統計では、円上の値を持つ確率変数の期待値は、として定義され ます(wikipediaを参照)。これは、分散定義と同様に、非常に自然な定義 したがって、分散を定義するために2番目の瞬間は必要ありませんでした!ZZZSSSm1( Z)= ∫SzPZ(θ )のD θm1(Z)=∫SzPZ(θ)dθ m_1(Z)=\int_S z P^Z(\theta)\textrm{d}\theta V a r( Z)= 1 − | m1( Z)| 。Var(Z)=1−|m1(Z)|。 \mathrm{Var}(Z)=1-|m_1(Z)|. それにもかかわらず、より高いモーメントを定義します これは一見するとかなり自然に見え、線形統計の定義に非常に似ていることを認めます。しかし、それでも私は少し不快に感じ、以下を持っていますmn( Z)= ∫SznPZ(θ )D θ 。mn(Z)=∫SznPZ(θ)dθ。 m_n(Z)=\int_S z^n P^Z(\theta)\textrm{d}\theta. 質問: 1. 上記で定義されたより高いモーメントによって(直感的に)測定されるものは何ですか?分布のどの特性がモーメントによって特徴付けられますか? 2.高次モーメントの計算では、複素数の乗算を使用しますが、ランダム変数の値は単に平面内のベクトルまたは角度として考えます。この場合、複素乗算は基本的に角度の加算であることを知っていますが、それでもなお、 なぜ複素乗算は循環データにとって意味のある演算なのでしょうか?

11
標準偏差は完全に間違っていますか?どのように高さ、カウントなどの正の数値を計算できますか?
高さ(cm)を計算していて、数値はゼロよりも大きくなければならないとします。 サンプルリストを次に示します。 0.77132064 0.02075195 0.63364823 0.74880388 0.49850701 0.22479665 0.19806286 0.76053071 0.16911084 0.08833981 Mean: 0.41138725956196015 Std: 0.2860541519582141 この例では、正規分布に従って、値の99.7%が平均からの標準偏差の±3倍の間にある必要があります。ただし、標準偏差の2倍でも負になります。 -2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468 しかし、私の数字は正でなければなりません。負の数は無視できますが、これが標準偏差を使用して確率を計算する正しい方法だとは思いません。 これを正しい方法で使用しているかどうかを誰かが理解するのを助けることができますか?または、別の方法を選択する必要がありますか? 正直言って、数学は数学です。正規分布であるかどうかは関係ありません。符号なしの数値で動作する場合、正の数値でも動作するはずです!私が間違っている? EDIT1:ヒストグラムを追加しました より明確にするために、実際のデータのヒストグラムを追加しました EDIT2:いくつかの値 Mean: 0.007041500928135767 Percentile 50: 0.0052000000000000934 Percentile 90: 0.015500000000000047 Std: 0.0063790857035425025 Var: 4.06873389299246e-05

2
UMPがないときに拒否領域を定義する方法は?
線形回帰モデルを考えます 、y=Xβ+uy=Xβ+u\mathbf{y}=\mathbf{X\beta}+\mathbf{u} 、u∼N(0,σ2I)u∼N(0,σ2I)\mathbf{u}\sim N(\mathbf{0},\sigma^2\mathbf{I}) 。E(u∣X)=0E(u∣X)=0E(\mathbf{u}\mid\mathbf{X})=\mathbf{0} LET 対H 1:σ 2 0 ≠ σ 2H0:σ20=σ2H0:σ02=σ2H_0: \sigma_0^2=\sigma^2H1:σ20≠σ2H1:σ02≠σ2H_1: \sigma_0^2\neq\sigma^2。 私たちは、その推測することができここで、Diは、m個(X)=N×K。そしてMXはアニヒレーターマトリックスのための典型的な表記法であるMXY= Y、 yは従属変数であるYに回帰X。yTMXyσ2∼χ2(n−k)yTMXyσ2∼χ2(n−k)\frac{\mathbf{y}^T\mathbf{M_X}\mathbf{y}}{\sigma^2}\sim \chi^2(n-k)dim(X)=n×kdim(X)=n×kdim(\mathbf{X})=n\times kMXMX\mathbf{M_X}MXy=y^MXy=y^\mathbf{M_X}\mathbf{y}=\hat{\mathbf{y}}y^y^ \hat{\mathbf{y}}yy\mathbf{y}XX\mathbf{X} 私が読んでいる本は次のように述べています: 以前に、拒否領域(RR)を定義するためにどの基準を使用する必要があるかを尋ねました。 この質問た。主なものは、テストを可能な限り強力にするRRを選択することでした。 この場合、二者間複合仮説である代替案では、通常UMPテストはありません。また、本で与えられた答えによって、著者はRRの力の研究をしたかどうかを示しません。それにもかかわらず、彼らは両側RRを選択しました。なぜ仮説は「一方的に」RRを決定しないのですか? 編集:この画像は、演習4.14の解決策として本書の解決策マニュアルに記載されています。

1
カイ2乗検定とカイ2乗分布の理解
私はカイ二乗検定の背後にある論理を理解しようとしています。 カイ2乗検定は。χ2は、その後、帰無仮説を棄却かないためにp.valueを見つけるためにカイ二乗分布と比較されます。H0:観測値は、期待値の作成に使用した分布から取得されます。たとえば、取得の確率が予想どおりpで与えられるかどうかをテストできます。したがって、100回反転し、nHと1−nHを見つけます。我々は(期待されているものに我々の発見を比較したい100⋅P)。二項分布を使用することもできますが、それは問題のポイントではありません…問題は次のとおりです。χ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p あなたはなぜ、帰無仮説の下で、説明していただけますはカイ二乗分布に従いますか?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} カイ2乗分布について知っているのは、次のカイ2乗分布がkの標準正規分布の2乗の合計であることだけです。kkkkkk

2
ランダム変数とランダムサンプルの違いは何ですか?
統計を学んでいたとき、これら2つの式は私をよく混乱させました。まるで違うもののようです。 ランダムなサンプルは一方で、ランダムに母集団からサンプルを取ることである確率変数が実数に、実験のすべての可能な結果セットをマップする関数のようなものです。 ただし、いくつかのサンプル、、およびを描画する場合、およびは不明ですが、、、ランダムサンプルまたはランダム変数ですか?X1X1X_1X2X2X_2X3X3X_3Xi∼N(μ,σ2)Xi∼N(μ,σ2)X_i \sim N(\mu,\sigma^2)μμ\muσσ\sigmaX1X1X_1X2X2X_2X3X3X_3

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.