タグ付けされた質問 「mathematical-statistics」

形式的な定義と一般的な結果に関係する統計の数学的理論。

2
指数ファミリーにすべての分布が含まれないのはなぜですか?
私は本を​​読んでいます: ビショップ、パターン認識、機械学習(2006) 次の形式の分布として指数族を定義します(式2.194): p(x|η)=h(x)g(η)exp{ηTu(x)}p(x|η)=h(x)g(η)exp⁡{ηTu(x)}p(\mathbf x|\boldsymbol \eta) = h(\mathbf x) g(\boldsymbol \eta) \exp \{\boldsymbol \eta^\mathrm T \mathbf u(\mathbf x)\} しかし、h(x)h(x)h(\mathbf x)または\ mathbf u(\ mathbf x)に制限はありませんu(x)u(x)\mathbf u(\mathbf x)。これは、h(\ mathbf x)と\ mathbf u(\ mathbf x)を適切に選択することにより、この形式に任意の分布を配置できることを意味しないのですか(実際、どちらか1つだけを適切に選択する必要があります!)?では、指数関数族にすべての確率分布が含まれていないのはなぜですか?私は何が欠けていますか?h(x)h(x)h(\mathbf x)u(x)u(x)\mathbf u(\mathbf x) 最後に、私が興味を持っているより特定の質問はこれです:ベルヌーイ分布は指数関数族ですか?ウィキペディアはそうだと主張していますが、ここで何かについて明らかに混乱しているので、その理由を知りたいと思います。

7
「正規分布」にはmean = median = modeが必要ですか?
私は大学院レベルの統計学教授と「正規分布」について議論しています。真の正規分布を得るには、mean = median = modeでなければならず、すべてのデータがベル曲線の下に含まれ、平均に関して完全に対称でなければならない、と私は考えます。したがって、技術的には、実際の研究では事実上正規分布は存在せず、それらを他の何か、おそらく「ほぼ正常」と呼ぶ必要があります。 彼女は私がうるさすぎると言い、スキュー/尖度が1.0未満の場合、それは正規分布であり、試験でポイントを取りました。データセットは、52の老人ホームのランダムサンプリングにおける1年あたりの転倒総数であり、これはより大きな母集団のランダムサンプルです。洞察はありますか? 問題: 質問:3.このデータの歪度と尖度の測定値を計算します。通常の曲線のヒストグラムを含めます。調査結果について話し合います。データは正常に配信されていますか? Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a a。複数のモードが存在します。最小値が表示されます Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650 私の答え: データは板状で、わずかな正のゆがみしかありません。また、平均と中央値およびモードが等しくなく、データが平均の周りに均等に分布していないため、正規分布ではありません。現実には、データが完全な正規分布となることはほとんどありませんが、大規模な人口グループの成人薬指の身長、体重、体温、または長さなどの「ほぼ正規分布」について説明できます。 教授の答え: 完全に正規分布がないことは正しいです。しかし、私たちは完璧を求めていません。ヒストグラムと中心傾向の尺度に加えて、データを調べる必要があります。歪度と尖度の統計は、分布について何を教えてくれますか?これらは両方とも-1と+1の重要な値の間にあるため、このデータは正規分布していると見なされます。

3
「統計実験」と「統計モデル」の違いは何ですか?
AW van der Vaartの漸近統計(1998年)をフォローしています。彼は統計実験とは異なり、統計モデルとは異なると主張しているが、どちらも定義していない。私の質問: (1)統計実験、(2)統計モデル、(3)統計実験と統計モデルを常に区別する重要な要素は何ですか?

1
最尤法とモーメント法が同じ推定量を生成するのはいつですか?
先日、私はこの質問をされましたが、これまで考えたことはありませんでした。 私の直感は、各推定量の利点から来ています。最尤法は、モーメントの方法とは異なり、分布全体の知識を利用するため、データ生成プロセスに自信がある場合に可能です。MoM推定器はモーメントに含まれる情報のみを使用するため、推定しようとしているパラメーターの十分な統計がデータのモーメントである場合、2つの方法は同じ推定値を生成するようです。 いくつかの分布でこの結果を確認しました。正規(未知の平均と分散)、指数、およびポアソンはすべて、それらのモーメントに等しい十分な統計を持ち、MLEとMoM推定器は同じです(複数のMoM推定器があるポアソンのようなものには厳密に当てはまりません)。私たちは制服を見てみると、のための十分統計であるとMOMとMLE推定器は異なっています。(0,θ)(0,θ)(0,\theta)θθ\thetamax(X1,⋯,XN)max(X1,⋯,XN)\max(X_1,\cdots,X_N) 多分これは指数族の奇癖だと思ったが、平均値が既知のラプラスの場合、十分な統計は1n∑|Xi|1n∑|Xi|\frac{1}{n} \sum |X_i| 分散のMLEとMoM推定量が等しくありません。 これまでのところ、一般的な結果を表示することはできませんでした。誰もが一般的な条件を知っていますか?または、反例でも直観を磨くのに役立ちます。

2
クラスタリング—クラインバーグの不可能性定理の裏にある直観
Kleinberg(2002)によるクラスタリングの難しさを探るこの興味深い分析に関するブログ投稿を書くことを考えています。クラインバーグは、クラスタリング関数の3つの一見直感的な設計を概説し、そのような関数が存在しないことを証明しています。3つの基準のうち2つを満足させる多くのクラスタリングアルゴリズムがあります。ただし、3つすべてを同時に満たす機能はありません。 簡潔かつ非公式に、彼が概説する3つの要求事項は次のとおりです。 Scale-Invariance:すべての方向にすべてが均等に引き伸ばされるようにデータを変換する場合、クラスタリング結果は変わらないはずです。 一貫性:クラスター間の距離が増加するように、および/またはクラスター内の距離が減少するようにデータをストレッチする場合、クラスタリングの結果は変わらないはずです。 豊富さ:クラスタリング機能は、理論的には、データポイントの任意のパーティション/クラスタリングを生成できる必要があります(2つのポイント間のペアワイズ距離がわからない場合) 質問: (1)これらの3つの基準間の矛盾を示すことができる、直感的で幾何学的な絵はありますか? (2)これは、論文の技術的な詳細を指します。質問のこの部分を理解するには、上記のリンクを読む必要があります。 論文では、定理3.1の証明は、私がいくつかの点で従うのが少し難しいです。私は、こだわっている:「してみましょう。クラスタリング機能も満たす一貫性私たちはどんなパーティションのためと主張しているΓ ∈ レンジ(F )、正の実数が存在する&lt; bのペアよう(、bが)ですΓ -強制する。」fffΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)a&lt;ba&lt;ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma 私はこれがどうなるかわかりません... 反例の下のパーティションではありませんか(つまり、クラスター間の最小距離はクラスター内の最大距離よりも大きい)?a&gt;ba&gt;ba > b 編集:これは明らかに反例ではなく、私は自分自身を混乱させていました(回答を参照)。 その他の論文: Ackerman&Ben-David(2009)。クラスタリング品質の尺度:クラスタリングの公理のワーキングセット 「一貫性」公理に関するいくつかの問題を指摘する

1
バギングの理論的保証は何ですか
私は(およそ)聞いたことがある: バギングは、予測子/推定子/学習アルゴリズムの分散を減らす技術です。 しかし、私はこの声明の正式な数学的な証拠を見たことがない。なぜこれが数学的に正しいのか誰もが知っていますか?これは広く受け入れられている/知られている事実であるように思えるので、これを直接参照することを期待します。非がある場合私は驚かれることでしょう。また、誰がこれがバイアスにどのような影響を与えるか知っていますか? 誰かが重要であり、それを共有したいと思っていると考える他のアプローチの理論的保証はありますか?

2
ジェフリーズとは異なり、不変ではない事後確率につながる事前確率の例
ここで2週間ほど前に出した質問への「回答」を再投稿しています。なぜジェフリーズの事前知識が役に立つのですか?しかし、それは本当に質問でした(また、私はその時点でコメントを投稿する権利もありませんでした)。 上記のリンクでは、Jeffreysの以前の興味深い特徴は、モデルを再パラメータ化するときに、結果の事後分布が、変換によって課せられる制限に従う事後確率を与えるということです。そこに説明されているように、ベータベルヌーイの例の成功確率からオッズに移動するとき、事後が。θθ\thetaψ=θ/(1−θ)ψ=θ/(1−θ)\psi=\theta/(1-\theta)P(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3\leq\theta\leq 2/3\mid X=x)=P(1/2\leq\psi\leq 2\mid X=x) をオッズに変換するためのジェフリーズの不変性の数値例を作成し、さらに興味深いことに、他の事前分布(たとえば、Haldane、ユニフォーム、または任意のもの)がないことを作成したいと考えました。θθ\thetaψψ\psi さて、成功確率の事後がベータである場合(ジェフリーズだけでなく任意のベータ事前の場合)、オッズの事後は同じパラメーターで第2種のベータ分布(Wikipediaを参照)に従います。次に、以下の数値例で強調されているように、Jeffreysだけでなく、ベータ事前の選択(alpha0_Uおよびで遊んでくださいbeta0_U)に不変性があることは(少なくとも私にとって)それほど驚くことではありません。プログラムの出力。 library(GB2) # has the Beta density of the 2nd kind, the distribution of theta/(1-theta) if theta~Beta(alpha,beta) theta_1 = 2/3 # a numerical example as in the above post theta_2 = 1/3 odds_1 = theta_1/(1-theta_1) # the corresponding odds odds_2 = theta_2/(1-theta_2) n …

3
PCAを行う前に、他の標準化因子ではなく標準偏差で割るのはなぜですか?
生データをその標準偏差で除算する理由について、次の正当化(cs229コースノートから)を読みました。 説明が言っていることは理解できますが、なぜ標準偏差で割るとそのような目標が達成されるのかはわかりません。誰もが同じ「スケール」にいるようにそれは言います。ただし、標準偏差で除算することでそれが達成される理由は完全には明らかではありません。同様に、分散で割ると何が悪いのでしょうか?なぜ他の数量ではないのですか?のような...絶対値の合計?または他の標準... STDを選択するための数学的な正当化はありますか? この抽出物の主張は、数学(および/または統計)を通じて導き出される/証明できる理論的な声明なのか、それとも「実践」で機能するように見えるために私たちが行う声明の1つですか? 基本的に、その直観が真実である理由の厳密な数学的説明のいずれかを提供できますか?または、それが単なる経験的な観察である場合、なぜPCAを行う前にそれが一般に機能すると考えるのですか? また、PCAのコンテキストでは、これは標準化または正規化のプロセスですか? 私が持っていたいくつかの他の考えは、STDがなぜ「説明」するかもしれない: 1n∑ni = 1(x私- μ )p1n∑i=1n(xi−μ)p\frac{1}{n} \sum^{n}_{i=1} (x_i -\mu)^p おそらく関連する質問があることがわかりました。 相関または共分散に関するPCA? しかし、「相関」または「共分散」をいつ使用するかについてはもっと話しているように見えましたが、厳密または説得力のある、または詳細な正当化が欠けていました。 同じ: 分析前にデータを正規化する必要がある理由 関連: SVD / PCAの変数の「正規化」

4
統計の数学的基礎に関する優れたリソース(オンラインまたは書籍)
私が質問する前に、私が探しているリソースの種類をよりよく理解できるように、統計について知っていることについて少し背景を説明しましょう。 私は心理学の大学院生なので、ほぼ毎日統計を使用しています。今では、一般的な構造方程式モデリングフレームワークに実装されているため、かなり幅広い技術に精通しています。しかし、私のトレーニングはこれらのテクニックの使用と結果の解釈についてでした-私はこれらのテクニックの正式な数学的基礎についてあまり知識がありません。 しかし、ますます統計から適切な論文を読む必要がありました。これらの論文は、線形代数など、私があまり知らない数学的概念の実用的な知識を前提としていることが多いことがわかりました。したがって、私が教えられてきたツールを盲目的に使用する以上のことをしたい場合、統計の数学的基礎のいくつかを学ぶことは有益だと確信しました。 したがって、2つの関連する質問があります。 統計の数学的基礎を磨くかどうかを知るために、どのような数学的手法が役立つでしょうか?私は線形代数にかなり頻繁に遭遇し、確率理論について学ぶことは役立つと確信していますが、私が学ぶのに役立つ数学の他の分野はありますか? 統計の数学的基礎についてもっと知りたい人として、どのリソース(オンラインまたは書籍形式)をお勧めできますか?

4
独立性がゼロ相関を意味するのはなぜですか?
まず第一に、私はこれを求めていません: ゼロ相関が独立性を意味しないのはなぜですか? これは(むしろうまく)ここで対処されています:https : //math.stackexchange.com/questions/444408/why-does-zero-correlation-not-imply-independence 私が求めているのは逆です... 2つの変数は互いに完全に独立しています。 彼らは偶然にわずかな相関関係を持っていなかったのでしょうか? そうではないはずです...独立は、非常に小さい相関を意味しますか?

4
ベイジアン統計は、事前分布の欠如をどのように処理しますか?
この質問は、私が最近行った2つのやり取りからインスピレーションを受けました。1つはCVで、もう1つはEconomics.seでのやり取りです。 そこに、私は答え掲示していた有名な「封筒パラドックス」(ないとして、あなたを気にする「正しい答え」が、状況の構造に関する特定の仮定から流れる答えとして)。しばらくして、ユーザーが重要なコメントを投稿し、私は彼の主張を理解しようと会話を始めました。彼がベイズの方法を考えていたことは明らかだった、と事前確率の話を保持-そしてそれは私に夜が明けた、と私は私の自己に言った: "待っ分、任意の前について何か言った?ように私が策定しています問題、ここには事前条件はありません。彼らは写真を入力しないだけで、必要はありません。」 最近、CVで統計的独立性の意味についてこの答えを見ました。著者に彼の文章をコメントしました 「...イベントが統計的に独立している場合、(定義により)一方を観察することから他方を知ることはできません。」 露骨に間違っていた。コメント交換で、彼は(彼の言葉)の問題に戻り続けました 「「学習」とは、別のものの観察に基づいて物事に関する私たちの信念を変えることを意味するのではないでしょうか?そうだとすれば、独立は(定義的に)これを排除しませんか? 繰り返しになりますが、彼がベイジアンの考え方をしていること、そして私たちがいくつかの信念(つまり、事前)から始めることを自明であると考えたことは明らかでした。しかし、最初の信念はどのように作成されますか? 科学は現実に適合しなければならないので、私は関係する人間に事前がない状況が存在することに注意します(私は、事前に何もせずに状況に入ります-私は事前があると主張しないでくださいが、私は気づかないで、ここで偽の精神分析をspareしましょう)。 たまたま「情報価値のない事前確率」という言葉を聞いたことがあるので、質問を2つの部分に分けます。ここで、ベイジアン理論に精通しているユーザーは、私が尋ねようとしていることを正確に知っています。 Q1:情報に基づいていない事前情報を取得するのと同等の事前の(厳密な理論的意味での)欠如はありますか? Q1の答えが「はい」(詳細をご記入ください)の場合、ベイズのアプローチは普遍的かつ最初から適用可能であることを意味します。その場所は、当面のケースにとって情報価値のない事前情報です。 しかし、Q1の答えが「いいえ」の場合、Q2は次のようになります。 Q2:Q1の答えが「いいえ」の場合、事前分布がない場合、ベイジアンアプローチは最初から適用できず、非ベイジアン方法で事前に事前分布を作成する必要があります。後でベイジアンアプローチを適用できますか?

1
離散均一分布から置換せずに描画されたサンプル間の最大ギャップ
この問題は、ロボットカバレッジに関する私の研究室の研究に関連しています。 セットから数字を置換せずにランダムに描画し、数字を昇順で並べ替えます。 。nnn{1,2,…,m}{1,2,…,m}\{1,2,\ldots,m\}1≤n≤m1≤n≤m1\le n\le m この並べ替えられた数字のリスト、連続する数字と境界の差を生成します。これにより、ギャップが与えられます。{a(1),a(2),…,a(n)}{a(1),a(2),…,a(n)}\{a_{(1)},a_{(2)},…,a_{(n)}\}g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g = \{a_{(1)},a_{(2)}−a_{(1)},\ldots,a_{(n)}−a_{(n-1)},m+1-a_{(n)}\}n+1n+1n+1 最大ギャップの分布は何ですか? P(max(g)=k)=P(k;m,n)=?P(max(g)=k)=P(k;m,n)=?P(\max(g) = k) = P(k;m,n) = ? これは、使用することができるフレーム順序統計量を: P(g(n+1)=k)=P(k;m,n)=?P(g(n+1)=k)=P(k;m,n)=?P(g_{(n+1)} = k) = P(k;m,n) = ? ギャップの分布についてはリンクを参照してくださいが、この質問は最大ギャップの分布を求めています。 平均値\ mathbb {E} [g _ {(n + 1)}]に満足しE[g(n+1)]E[g(n+1)]\mathbb{E}[g_{(n+1)}]ます。 n = mの場合n=mn=mn=m、すべてのギャップはサイズ1ですn+1=mn+1=mn+1 = m場合、サイズ2のギャップが1つ222あり、n+1n+1n+1可能な場所があります。最大のギャップサイズはm−n+1m−n+1m-n+1であり、このギャップはnnn 数字の前または後に配置でき、合計でn+1n+1n+1可能な位置になります。最小の最大ギャップサイズは⌈m−nn+1⌉⌈m−nn+1⌉\lceil\frac{m-n}{n+1}\rceilです。任意の組み合わせT = {m \ choose n} ^ {-1}の確率を定義しますT=(mn)−1T=(mn)−1T= {m \choose n}^{-1}。 P(g …

2
中央極限定理の動的システムビュー?
(元々MSEに投稿されました。) 古典的な中心極限定理のヒューリスティックな議論の多くは、確率密度の空間における「アトラクター」として正規分布(または任意の安定した分布)を語っています。たとえば、Wikipediaの扱いの最上位にあるこれらの文を考えてみましょう。 より一般的な使用法では、中心極限定理は確率論における弱収束定理のセットのいずれかです。それらはすべて、多くの独立した同一に分布した(iid)ランダム変数、または特定の種類の依存関係を持つランダム変数の合計が、アトラクタ分布の小さなセットの1つに従って分布する傾向があるという事実を表しています。iid変数の分散が有限の場合、アトラクタ分布は正規分布です。 この動的システム言語は非常に暗示的です。フェラーはまたに(つまり、言語のソースである場合、私の不思議)彼の第二のボリュームにCLTの彼の治療に「魅力」のことを話す、とのYuval Flimus このノートさえ話す「の魅力の流域。」(私は彼が本当に「の正確な形式意味はないと思うの魅力の流域は、」の正確な形式推論事前にある「のではなくアトラクターが演繹事前にある」;まだ、言語があります。)私の質問は次のとおりです。これらのことができます動的なアナロジーを正確にできますか?多くの本は、正規分布が畳み込み下での安定性(およびフーリエ変換下での安定性)に特別であることを強調しているが、私はそれらの本を知らない。これは基本的に、固定小数点であるため、法線が重要であることを示しています。CLTはさらに進んで、固定小数点ではなく、アトラクタであることを示しています。 この幾何学的な図を正確にするために、位相空間を適切な無限次元関数空間(確率密度の空間)とし、進化演算子を初期条件で畳み込みを繰り返すことを想像します。しかし、私はこの絵をうまく機能させるために必要な技術や、追求する価値があるかどうかについては理解していません。 私はこのアプローチを明確に追求する治療法を見つけることができないので、それができる、または面白いという私の感覚に何か間違っているに違いないと思います。その場合は、その理由を聞きたいです。 編集:Math Stack ExchangeとMathOverflowには、読者が興味を持ちそうな3つの同様の質問があります。 いくつかの分布空間(MO)の固定小数点としてのガウス分布 最大エントロピー(MO)による中心極限定理 いくつかの不動点定理による中心極限定理の証明はありますか?(MSE)

2
標準偏差の閉じた形の不偏推定量はどの分布にありますか?
正規分布の場合、標準偏差の不偏推定量があります: σ^unbiased=Γ(n−12)Γ(n2)12∑k=1n(xi−x¯)2−−−−−−−−−−−−√σ^不偏=Γ(n−12)Γ(n2)12∑k=1n(xi−x¯)2\hat{\sigma}_\text{unbiased} = \frac{\Gamma(\frac{n-1}{2})}{\Gamma(\frac{n}{2})} \sqrt{\frac{1}{2}\sum_{k=1}^n(x_i-\bar{x})^2} この結果があまり知られていない理由は、それが大部分の重要な輸入の問題ではなくむしろ骨cur品であるように思われます。証明はこのスレッドでカバーされています。正規分布の重要な特性を利用します。 1σ2∑k=1n(xi−x¯)2∼χ2n−11σ2∑k=1n(xi−x¯)2∼χn−12 \frac{1}{\sigma^2} \sum_{k=1}^n(x_i-\bar{x})^2 \sim \chi^{2}_{n-1} そこから、少しの作業で、、およびこの回答を倍数として識別することにより、の結果を推測でき。σ σ公平E(∑nk=1(xi−x¯)2−−−−−−−−−−−−√)E(∑k=1n(xi−x¯)2)\mathbb{E}\left( \sqrt{\sum_{k=1}^n(x_i-\bar{x})^2} \right)σσ\sigmaσ^unbiasedσ^unbiased\hat{\sigma}_\text{unbiased} これにより、他のどの分布が標準偏差の閉形式の不偏推定量を持っているのか興味があります。分散の不偏推定量とは異なり、これは明らかに分布固有です。さらに、他の分布の推定量を見つけるために証明を適応させるのは簡単ではありません。 スキュー正規分布には、2次形式の優れた分布特性がいくつかあります。これは、使用した正規分布特性が事実上特別なケースです(正規分布は特殊なタイプのスキュー正規分布なので)。このメソッドをそれらに拡張します。しかし、他のディストリビューションでは、まったく異なるアプローチが必要と思われます。 そのような推定量が知られている他の分布はありますか?

1
十分な統計、詳細/直感の問題
私は楽しみのためにいくつかの統計を教えていますが、十分な統計に関する混乱があります。混乱をリスト形式で書きます。 分布にパラメーターがある場合、十分な統計がありますか?nnnnnnn 十分な統計とパラメーターの間に何らかの直接的な対応関係はありますか?または、基礎となる分布のパラメーターについて同じ推定値を計算できるように設定を再作成できるように、十分な統計が単に「情報」のプールとして機能するようにします。 すべての分布に十分な統計がありますか?すなわち。因数分解定理が失敗することはありますか? データのサンプルを使用して、データの出所である可能性が最も高い分布を想定し、分布のパラメーターの推定値(MLEなど)を計算できます。十分な統計は、データ自体に依存せずにパラメーターの同じ推定値を計算できる方法ですよね? 十分な統計のすべてのセットには、最小限の十分な統計がありますか? これは、トピックの問題を理解しようとするために使用している資料です:https : //onlinecourses.science.psu.edu/stat414/node/283 私が理解していることから、共同分布を2つの関数に分離する因数分解定理がありますが、分布を関数に因数分解した後に十分な統計を抽出する方法がわかりません。 この例で与えられたポアソン質問には明確な因数分解がありましたが、十分な統計はサンプル平均とサンプル合計であると述べられました。最初の方程式の形を見るだけで、それらが十分な統計量であることをどのように知ったのでしょうか? 分解結果の2番目の方程式がデータ値自体に依存する場合、十分な統計を使用して同じMLE推定を実行する方法はありますか?たとえば、ポアソンの場合、2番目の関数はデータの階乗の積の逆数に依存しており、データはもうありません!バツ私バツ私X_i Webページのポアソンの例と比較して、サンプルサイズが十分な統計量ではないのはなぜですか?最初の関数の特定の部分を再構成するためにを必要とするのに、なぜそれも十分な統計量ではないのですか?nnnnnnn

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.