タグ付けされた質問 「mathematical-statistics」

形式的な定義と一般的な結果に関係する統計の数学的理論。


9
素人が分析を行うことが多い時代に、モデルの仮定と評価の重要性を誇張しているか
結論として、統計について学べば学ぶほど、自分の分野で発表された論文を信用しなくなります。私は単に、研究者が統計を十分に行っていないと信じています。 私はいわば素人です。私は生物学の訓練を受けていますが、統計や数学の正式な教育を受けていません。私はRを楽しんでおり、研究を行う際に適用する方法の理論的基礎のいくつかを読む(そして理解する)努力をすることがよくあります。今日分析を行っている大多数の人々が実際に正式に訓練されていなくても、私は驚かないでしょう。私は約20のオリジナルの論文を発表しましたが、その一部は有名なジャーナルに受け入れられ、統計学者は頻繁にレビュープロセスに関与しています。私の分析には、通常、生存分析、線形回帰、ロジスティック回帰、混合モデルが含まれます。レビューアーがモデルの仮定、適合、評価について尋ねたことはありません。 したがって、モデルの仮定、適合、評価についてあまり気にしませんでした。仮説から始め、回帰を実行し、結果を提示します。場合によってはこれらのことを評価しようと努力しましたが、常に「すべての仮定を満たしていませんでしたが、結果(「主題の知識」)を信頼しているので、もっともらしいので大丈夫です」統計学者に相談するとき、彼らはいつも同意するように思われました。 今、私は自分で分析を行う他の統計学者と非統計学者(化学者、医師、生物学者)と話をしました。人々はこれらすべての仮定と正式な評価についてあまり気にしません。しかし、CVには、残差、モデルの適合、評価方法、固有値、ベクトルなどについて尋ねる人がたくさんいます。このように言えば、lme4が大きな固有値について警告するとき、そのユーザーの多くがそれに対処することを気にかけていることを本当に疑います... それは余分な努力の価値がありますか?公開されているすべての結果の大部分がこれらの仮定を尊重しておらず、おそらくそれらを評価していない可能性はありませんか?データベースは毎日大きくなり、データが大きくなると仮定と評価はそれほど重要ではなくなるという考えがあるため、これはおそらく大きな問題です。 私は絶対に間違っている可能性がありますが、これは私がこれを認識した方法です。 更新: StasKからの引用(下):http : //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

5
サンプル中央値の中心極限定理
同じ分布から得られた十分に多くの観測値の中央値を計算すると、中央極限定理は中央値の分布が正規分布に近づくと述べていますか?私の理解では、これは多数のサンプルの平均について当てはまりますが、中央値についても当てはまりますか? そうでない場合、サンプル中央値の基礎となる分布は何ですか?

19
数学統計ビデオ
以前は数学統計に関する教科書の推奨事項を求めていた質問 誰もが数学統計に関する優れたオンラインビデオ講義を知っていますか?私が見つけた最も近いものは: 機械学習 計量経済学 更新:以下に挙げる多くの提案は、良い統計である101タイプの動画です。しかし、統計の厳密な数学的表現を提供するビデオがあるかどうか、特に疑問に思っています。つまり、mathoverflowに関するこのディスカッションで言及された教科書を使用するコースに付随する可能性のあるビデオ

14
ガウス(正規)分布の最も驚くべき特徴は何ですか?
の標準化されたガウス分布は、密度を明示的に指定することで定義できます。 RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} またはその特徴的な機能。 この質問で想起されたように、それはサンプル平均と分散が独立している唯一の分布でもあります。 あなたが知っているガウス尺度の他の驚くべき代替の特徴は何ですか?最も驚くべき答えを受け入れます


6
分布間のコルモゴロフ距離の動機
2つの確率分布がどれほど似ているかを測定する方法はたくさんあります。(異なるサークルで)人気のある方法は次のとおりです。 コルモゴロフ距離:分布関数間の距離。 Kantorovich-Rubinstein距離:リプシッツ定数を持つ関数の2つの分布に対する期待値の最大差111。これは分布関数間のL1L1L^1距離でもあります。 境界付きリプシッツ距離:KR距離に似ていますが、関数は絶対値がである必要があります111。 これらには異なる利点と欠点があります。3.の意味での収束のみが実際に分布の収束に正確に対応します。1.または2.の意味での収束は、一般にわずかに強くなります。(特に、X n = 1の場合Xn=1nXn=1nX_n=\frac{1}{n}は確率111で、は分布で0にXnXnX_n収束し000が、コルモゴロフ距離では収束しません。ただし、制限の分布が連続している場合、この病理は発生しません。) 初等確率または測度理論の観点から見ると、1はあるセットに含まれる確率を比較するため、非常に自然です。一方、より洗練された確率論的視点は、確率よりも期待に集中する傾向があります。また、機能分析の観点から、いくつかの機能空間との双対性に基づいた2または3のような距離は非常に魅力的です。 しかし、私の印象(間違っていれば私を修正してください!)は、統計では、コルモゴロフ距離が分布の類似性を測定するための通常好ましい方法であるということです。理由の1つは推測できます:分布の1つが有限のサポートで離散的である場合、特に実際のデータの分布である場合、モデル分布までのコルモゴロフ距離は計算が簡単です。(KR距離は計算がやや​​難しく、BL距離は実際的にはおそらく不可能です。) 私の質問(最終的に)は、統計的な目的でコルモゴロフ距離(またはその他の距離)を優先する他の理由(実用的または理論的)がありますか?


4
テイラー級数(特に残り)の期待値を取得する
私の質問は、広く使用されている方法、つまり、Taylor Seriesの期待値を正当化することに関するものです。正の平均および分散を持つランダム変数があると仮定します。さらに、などの関数があります。XXXμμ\muσ2σ2\sigma^2log(x)log⁡(x)\log(x) 平均を中心にテイラー展開を行うと、 ここで、通常どおり、はst。logXlog⁡X\log XlogX=logμ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξ3X,log⁡X=log⁡μ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξX3, \log X = \log\mu + \frac{X - \mu}{\mu} - \frac12 \frac{(X-\mu)^2}{\mu^2} + \frac13 \frac{(X - \mu)^3}{\xi_X^3}, ξXξX\xi_X|ξX−μ|&lt;|X−μ||ξX−μ|&lt;|X−μ||\xi_X - \mu| < |X - \mu| 予想を立てると、通常は自明の何かと呼ばれる近似式が得られます(最初の式の記号を参照してください)≈≈\approx: ElogX≈logμ−12σ2μ2Elog⁡X≈log⁡μ−12σ2μ2 \mathbb{E}\log X \approx \log \mu - \frac12 \frac{\sigma^2}{\mu^2} 質問:剰余項の期待値が実際に無視できることを証明する方法に興味があります。つまり、 (または、言い換えれば、)。E[(X−μ)3ξ3X]=o(σ2)E[(X−μ)3ξX3]=o(σ2) \mathbb{E}\left[\frac{(X - \mu)^3}{\xi_X^3}\right] = o(\sigma^2) E[o(X−μ)2]=o(E[(X−μ)2])E[o(X−μ)2]=o(E[(X−μ)2])\mathbb{E}\bigl[o(X-\mu)^2\bigr] = o\bigl(\mathbb{E}\bigl[(X-\mu)^2\bigr]\bigr) 私が実行しようと何:と仮定し(これは、順に、手段で)、I は周囲、二つに積分を分割しようと一部とを …

9
相関は因果関係を意味するものではありません。しかし、変数の1つが時間である場合はどうでしょうか。
私はこの質問が10億回も聞かれたことを知っているので、オンラインで調べた後、2つの変数間の相関は因果関係を意味しないと完全に確信しています。今日の統計講義の1つで、物理学における統計的手法の重要性について、物理学者からゲスト講義を受けました。彼は驚くべき声明を述べた: 相関は因果関係を意味するものではなく、変数の1つが時間である場合を除きます。したがって、いくつかの独立変数と時間の間に強い相関がある場合、これは因果関係も意味します。 この声明を聞いたことがありません。物理学者/相対論者は「因果関係」を統計の人々とは異なるものと見ていますか?

3
どうすればよい計算
ϕ (⋅ )ϕ(⋅)\phi(\cdot)とΦ (⋅ )Φ(⋅)\Phi(\cdot)が標準正規分布の密度関数と分布関数であると仮定します。 積分の計算方法: ∫∞- ∞Φ (w − ab) ϕ(w)d w∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

3
または上の一様分布の合計を考えます。でのPDFのカスプが消えるのはなぜですか?
私はしばらくこのことについて疑問に思っていました。私はそれがどのように突然起こるか少し奇妙だと思います。基本的に、がそれを滑らかにするために3つのユニフォームだけが必要なのはなぜですか?そして、なぜスムージングアウトがそれほど速く起こるのですか?ZnZnZ_n Z2Z2Z_2: Z3Z3Z_3: (ジョン・D・クックのブログから恥知らずに盗まれた画像:http : //www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/) なぜ、たとえば4つの制服が必要なのでしょうか?それとも5?それとも...?

3
平均、中央値、モード間の経験的関係
適度に歪んだユニモーダル分布の場合、平均、中央値、モードの間に次の経験的関係があります。 この関係はどうでしたか派生?(Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} この結論を形成する前に、カールピアソンはこれらの関係を何千もプロットしましたか、それともこの関係の背後に論理的な推論の線がありますか?


3
単純な線形回帰における回帰係数の分散を導き出す
単純な線形回帰では、。ここで、です。推定量を導き出しました: ここでおよびはおよびサンプル平均です。y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy ここで、\ hat \ beta_1の分散を見つけたいと思いますβ^1β^1\hat\beta_1。次のようなものを導き出しました: Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . 派生は次のとおりです。 Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , since ui 's are …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.