タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。



1
適合確率分布におけるMLEと最小二乗
私が読んだいくつかの論文、本、記事に基づいて得た印象は、データのセットに確率分布を当てはめる推奨方法は最尤推定(MLE)を使用することです。ただし、物理学者としてのより直感的な方法は、最小二乗法を使用して、モデルのpdfをデータの経験的pdfに適合させることです。なぜ確率分布の近似においてMLEが最小二乗よりも優れているのですか?誰かがこの質問に答える科学論文/本を教えてもらえますか? 私の考えは、MLEがノイズモデルを想定しておらず、経験的pdfの「ノイズ」が異分散であり、正常ではないためです。

2
負の二項分布変数の違いを説明する分布?
スケルラム分布はポアソン分布を持つ2つの変数の違いを説明しています。負の二項分布に従う変数間の違いを説明する同様の分布はありますか? 私のデータはポアソンプロセスによって生成されますが、かなりの量のノイズが含まれており、分布に過剰分散が生じています。したがって、負の二項(NB)分布を使用したデータのモデリングはうまく機能します。これらのNBデータセットの2つの違いをモデル化する場合、私のオプションは何ですか?役立つ場合は、2つのセットで同様の平均と分散を仮定します。

3
意図した分布に対してランダムに生成されたデータをテストする
ランダムデータを生成するプログラムを作成しました。プログラムが正常に動作している場合、そのデータは特定の既知の確率分布に従う必要があります。プログラムを実行し、結果に対していくつかの計算を行い、p値を見つけたいと思います。 他の誰かがそれを言う前に:私は、仮説テストではプログラムが正しく動作していることを検出できないことを理解しています。特定の方法で正しく動作していない場合にのみ検出できます。(それでも、選択した有意水準に応じて、テストは時間のX%で「失敗」するはずです...) だから、私はどのツールが適切かを理解しようとしています。特に: 必要なだけランダムデータを生成できます。私がしなければならないことは、プログラムを十分に長く実行することです。したがって、特定のサンプルサイズに限定されません。 p値を生成する手法に興味があります。したがって、グラフをじっと見て、「はい、それは線形に見えます」と言うことは、興味深い選択肢ではありません。グラフの「不安定」にハードナンバーを付ける何らかの方法がない限り。;-) 私がこれまでに知っていること: 適用できると思われる3つの主要なテストの種類を見ました。[Pearson]カイ2乗検定、Kolmogorov-Smirnov検定、およびAnderson-Darling検定。 カイ二乗検定は離散分布に適しているように見えますが、他の2つは連続分布に適しています。(?) さまざまな情報源は、ADテストはKSテストよりも「優れている」と示唆していますが、それ以上の詳細は説明していません。 最終的に、これらのテストはすべて、指定されたヌル分布から逸脱する「異なる方法」を検出すると考えられます。しかし、私はまだ違いが何であるかを本当に知りません...要約すると、私は各タイプのテストが最も適切である場所と、それが最もよく検出する種類の問題のある種の一般的な説明を探しています。


1
この事後分布の図の何が問題になっていますか?
私は、事後確率分布が事前分布と尤度分布の組み合わせである方法の実例であると言われている次の画像を持っています。 私は、画像に何か問題がある、つまり事後分布は尤度関数の形式を与えられた形式にできないと言われました。しかし、私はイメージのどこが悪いのか考えるのに苦労しています。 事後確率は可能性が高いように見えますが、事前分布によって右に引っ張られます。これは、何が起こるべきかについての私の理解と一致し、理にかなっています。誰が間違っているのか知っていますか? 私の唯一の考えは、後部の下の領域が尤度の下の領域よりわずかに小さいかもしれないということです。これは、後部が可能性よりも少し太いように思えますが、これは非常にうるさい側面です。

3
Rのt分布のフィッティング:スケーリングパラメーター
t分布のパラメーター、つまり正規分布の「平均」と「標準偏差」に対応するパラメーターをどのように適合させますか。私はそれらがt分布の「平均」と「スケーリング/自由度」と呼ばれていると思いますか? 次のコードは、多くの場合「最適化に失敗しました」エラーになります。 library(MASS) fitdistr(x, "t") 最初にxをスケーリングするか、確率に変換する必要がありますか?それを行うのに最適な方法は?

5
Rのglmファミリー引数で対数正規分布を指定するにはどうすればよいですか?
簡単な質問:RのGLMファミリ引数で対数正規分布を指定するにはどうすればよいですか?これをどのように達成できるかわかりませんでした。対数正規(または指数)がファミリー引数のオプションではないのはなぜですか? R-Archivesのどこかで、対数正規分布を指定するために、GLMでガウスに設定されたファミリのログリンクを使用するだけでよいことを読みました。ただし、これは非線形回帰に適合し、Rは開始値を求め始めるため、これはナンセンスです。 GLMの対数正規(または指数)分布を設定する方法を知っている人はいますか?

2
2つの独立したベルヌーイ母集団からのサンプリング分布
2つの独立したベルヌーイ確率変数のサンプル、およびます。Ber(θ1)Ber(θ1)\mathrm{Ber}(\theta_1)Ber(θ2)Ber(θ2)\mathrm{Ber}(\theta_2) どうやっていることを証明しない?(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2−−−−−−−−−−−−−−√→dN(0,1)(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2→dN(0,1)\frac{(\bar X_1-\bar X_2)-(\theta_1-\theta_2)}{\sqrt{\frac{\theta_1(1-\theta_1)}{n_1}+\frac{\theta_2(1-\theta_2)}{n_2}}}\xrightarrow{d} \mathcal N(0,1) と仮定します。n1≠n2n1≠n2n_1\neq n_2

2
分布何ですか、一様分布では?
4つの独立した均一に分布した変数あります 。の分布を計算したい。Iは、分布計算あるとしたがって)、およびは今、合計分布は(も独立)理由a,b,c,da,b,c,da,b,c,d[0,1][0,1][0,1](a−d)2+4bc(a−d)2+4bc(a-d)^2+4bcu2=4bcu2=4bcu_2=4bcf2(u2)=−14lnu24f2(u2)=−14ln⁡u24f_2(u_2)=-\frac{1}{4}\ln\frac{u_2}{4}u2∈(0,4]u2∈(0,4]u_2\in(0,4]u1=(a−d)2u1=(a−d)2u_1=(a-d)^2f1(u1)=1−u1−−√u1−−√.f1(u1)=1−u1u1.f_1(u_1)=\frac{1-\sqrt{u_1}}{\sqrt{u_1}}.u1+u2u1+u2u_1+u_2u1,u2u1,u2u_1,\, u_2fu1+u2(x)=∫+∞−∞f1(x−y)f2(y)dy=−14∫401−x−y−−−−√x−y−−−−√⋅lny4dy,fu1+u2(x)=∫−∞+∞f1(x−y)f2(y)dy=−14∫041−x−yx−y⋅ln⁡y4dy,f_{u_1+u_2}(x)=\int_{-\infty}^{+\infty}f_1(x-y)f_2(y)dy=-\frac{1}{4}\int_0^4\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy,y∈(0,4]y∈(0,4]y\in(0,4]。ここでは、でなければならないため、積分は等しくなりそれをMathematicaに挿入して、x>yx>yx>yfu1+u2(x)=−14∫x01−x−y−−−−√x−y−−−−√⋅lny4dy.fu1+u2(x)=−14∫0x1−x−yx−y⋅ln⁡y4dy.f_{u_1+u_2}(x)=-\frac{1}{4}\int_0^{x}\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy.fu1+u2(x)=14[−x+xlnx4−2x−−√(−2+lnx)].fu1+u2(x)=14[−x+xln⁡x4−2x(−2+ln⁡x)].f_{u_1+u_2}(x)=\frac{1}{4}\left[-x+x\ln\frac{x}{4}-2\sqrt{x}\left(-2+\ln x\right)\right]. 私はそれぞれ個の数字で構成される4つの独立したセット作成し、ヒストグラムを描きました:a,b,c,da,b,c,da,b,c,d10610610^6(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc そしてプロットを描きました:fu1+u2(x)fu1+u2(x)f_{u_1+u_2}(x) 一般に、プロットはヒストグラムに似ていますが、間隔ほとんどが負です(ルートは2.27034です)。そして、正の部分の積分はです。(0,5)(0,5)(0,5)≈0.77≈0.77\approx 0.77 間違いはどこですか?それとも、どこで何かが欠けていますか? 編集: PDFを表示するためにヒストグラムをスケーリングしました。 編集2:私は推論のどこに問題があるのか​​を知っていると思う-統合の限界。そのためと、私はできません単にプロットショー私は統合する必要があり地域。:y∈(0,4]y∈(0,4]y\in (0,4]x−y∈(0,1]x−y∈(0,1]x-y\in(0,1]∫x0∫0x\int_0^x つまり、にはがあり(これが、一部が正しい理由です)、にがあり、 in。残念ながら、Mathematicaは後者の2つの積分の計算に失敗します(まあ、2番目の計算は、出力に虚数単位があり、すべてを損なうため... )。∫x0∫0x\int_0^xy∈(0,1]y∈(0,1]y\in(0,1]fff∫xx−1∫x−1x\int_{x-1}^xy∈(1,4]y∈(1,4]y\in(1,4]∫4x−1∫x−14\int_{x-1}^4y∈(4,5]y∈(4,5]y\in (4,5] 編集3: Mathematicaは次のコードで最後の3つの積分を計算できるようです: (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,0,u1}, Assumptions ->0 <= u2 <= u1 && u1 > 0] (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,u1-1,u1}, Assumptions -> 1 <= u2 <= 3 && u1 > 0] (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,u1-1,4}, Assumptions -> 4 <= u2 <= 4 …

2
どのような(対称)分布について、サンプルはサンプル中央値よりも効率的な推定量を意味しますか?
サンプルの中央値は、外れ値を無視するため、サンプル平均よりも中心傾向のより堅牢な尺度であるという信念のもとで努力しました。したがって、(別の質問への回答で)正規分布から引き出されたサンプルの場合、サンプル平均の分散がサンプル中央値の分散よりも小さいこと(少なくともが大きい)を知って驚いた。nnn 私は数学的にこれが本当である理由を理解しています。他の分布の平均ではなく、中央値をいつ使用するかについての直感に役立つ「哲学的」な見方はありますか? 特定の分布に関する質問にすばやく答えるのに役立つ数学的なツールはありますか?

3
pdfとpmfとcdfには同じ情報が含まれていますか?
pdfとpmfとcdfには同じ情報が含まれていますか? 私にとって、pdfは特定のポイント(基本的には確率の下の領域)に確率全体を与えます。 pmfは、特定のポイントの確率を示します。 cdfは、特定のポイントの下での確率を​​示します。 だから私にはpdfとcdfは同じ情報を持っていますが、pmfはx分布上の点の確率を与えるのでそうではありません。

3
5つの数字の要約のみが知られている2つの分布の統計的検定
5つの数値の要約(最小、1番目の四分位数、中央値、3番目の四分位数、最大)とサンプルサイズのみがわかっている2つの分布があります。ここでの質問に反して、すべてのデータポイントが利用できるわけではありません。 2つの基礎となる分布が異なるかどうかを確認できるノンパラメトリック統計テストはありますか? ありがとう!

3
使用するglmファミリを決定する方法は?
いくつかの異なる収集手法を比較しようとしている魚の密度データがあり、データには多くのゼロがあり、ヒストグラムはポアソン分布に適しているように見えますが、密度としては整数データではありません。私はGLMに比較的不慣れで、使用するディストリビューションをどのように判断するかをオンラインで探していましたが、この決定に役立つリソースを見つけることができませんでした。データのサンプルヒストグラムは次のようになります。 GLMに使用する適切なファミリを決定する方法についてはわかりません。誰かがアドバイスをしたり、私がチェックアウトするリソースを私に提供できるなら、それは素晴らしいでしょう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.