タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

3
Kullback-Leibler発散と比較したWassersteinメトリックの利点は何ですか?
Wasserstein計量とKullback-Leibler発散の実際の違いは何ですか?Wassersteinメトリックは、Earth Mover's Distanceとも呼ばれます。 ウィキペディアから: Wasserstein(またはVaserstein)メトリックは、所定のメトリック空間Mの確率分布間で定義される距離関数です。 そして Kullback–Leiblerの発散は、1つの確率分布が2番目の予想確率分布からどのように発散するかの尺度です。 機械学習の実装でKLが使用されているのを見てきましたが、最近、Wassersteinメトリックに出会いました。どちらを使用するかについての良いガイドラインはありますか? (Wassersteinまたはで新しいタグを作成するには評判が不十分Earth mover's distanceです。)


2
負の二項分布の連続一般化
負の二項分布は非負の整数で定義され、確率質量関数f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.同じ式(k∈N0k∈N0k\in \mathbb N_0をx \ in \ mathbb R _ {\ ge 0}で置き換える)で定義された非負の実数上の連続分布を考慮することは意味がありx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0}ますか?二項係数は(k + 1)\ cdot \ ldots \ cdot(k + r-1)の積として書き換えることができます(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)。これは任意の実数kに対して明確に定義されていますkkk。したがって、PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. より一般的には、二項係数をガンマ関数で置き換えて、rの非整数値を許可できますrrr。 f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. 有効な配布ですか?名前はありますか?用途はありますか?多分化合物か混合物か?平均と分散(およびPDFの比例定数)の閉じた式はありますか? (現在、NB混合モデル(固定r=2r=2r=2)を使用してEMで近似する論文を研究しています。ただし、データは、正規化後の整数、つまり整数ではありません。可能性と非常に合理的な結果を得るので、すべてがうまく機能しているようです。私はそれが非常に不可解であることがわかりました。この質問はNB GLM に関するものではないことに注意してください。

1
半コーシー分布の特性は何ですか?
現在、状態空間モデルのマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを開発する必要がある問題に取り組んでいます。 この問題を解決するために、次の確率でが与えられました:p()= 2I( > 0)/(1+)。はの標準偏差です。τ τ τ 2 τ Xττ\tauττ\tauττ\tauτ2τ2\tau^2ττ\tauバツバツx だから今、私はそれが半分コーシー分布であることを知っています、なぜなら私は例を見てからそれを認識し、そして私がそう言われたからです。しかし、なぜそれが「半コーチ」分布であり、どの特性がそれに伴うのかを完全には理解していません。 プロパティの観点から、私は何が欲しいのかよくわかりません。私はこのタイプの計量経済学理論にかなり慣れていない。そのため、状態空間モデルのコンテキストでの分布と使用方法を理解することがより重要です。モデル自体は次のようになります。 ytバツt + 1at + 1p (σ2)p (τ)= xt+ et= xt+ at + 1〜N (0 、τ2)∝ 1 / σ2= 2 I(τ> 0 )π(1 + τ2)yt=バツt+etバツt+1=バツt+at+1at+1〜 N(0、τ2)p(σ2)∝1/σ2p(τ)=2私(τ>0)π(1+τ2)\begin{align} y_t &= x_t + e_t \\ x_{t+1} &= x_t + a_{t+1} \\[10pt] a_{t+1} …

1
Multinomial(1 / n、…、1 / n)は、離散化されたディリクレ(1、..、1)として特徴付けられますか?
そのため、この質問は少し厄介ですが、それを補うためにカラフルなグラフを含めます!最初に背景、次に質問。 バックグラウンド あなたが持っていると言う以上の等しいprobailitesと次元の多項分布カテゴリを。してみましょう正規化数(可能:つまり、その分布から)、N π = (π 1、... 、π N)Cnnnnnnπ= (π1、… 、πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1、… 、cn)〜多項(1 / n 、… 、1 / n )π私= c私n(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} 現在、を介した分布は -simplexをサポートしていますが、個別のステップがあります。たとえば、場合、この分布には次のサポートがあります(赤い点):N 、N = 3ππ\pinnnn = 3n=3n = 3 同様のサポートを備えた別の分布は、次元の分布、つまり単位シンプレックス上の均一な分布です。たとえば、次は3次元の 1、1、1)からのランダムな描画です。ディリクレ(1 、... 、1 …

3
歪んだ分布での外れ値の検出
データポイントとしての上位値または下位四分位数からの1.5 * IQRを超える外れ値の古典的な定義では、非歪分布の仮定があります。歪んだ分布(指数関数、ポアソン、幾何学など)の場合、元の関数の変換を分析して外れ値を検出するのに最適な方法ですか? たとえば、指数分布で緩やかに管理されている分布は、対数関数で変換できます-どの時点で、同じIQR定義に基づいて外れ値を探すことは許容できますか?

3
ベイジアンは分布をどのように比較しますか?
ですから、私は、頻度論的確率と統計分析の基本を十分に理解していると思います(そして、それがどれほどひどく使用できるのか)。頻度論の世界では、「この分布はその分布とは異なる」というような質問をするのは理にかなっています。なぜなら、分布は現実的で客観的で不変(少なくとも特定の状況では)であると想定されているからです。 1つのサンプルが別のサンプルのような形状の分布から引き出される可能性を確認します。 ベイジアンの世界観では、過去の経験を考えると、私たちが見ることを期待するだけです(この部分についてはまだ少しあいまいですが、ベイジアン更新の概念は理解しています)。もしそうなら、ベイジアンは「このデータのセットはそのデータのセットとは異なる」とどのように言えますか? この質問の目的のために、私は統計的有意性、または同様の違いを気にかけません。パラメトリック分布とノンパラメトリック分布にも等しく興味があります。

3
このディストリビューションには名前がありますか?
今日は私に起こったその配布 のために、ガウスとラプラス分布との間の妥協点として見ることができるX∈R、P∈[1、2]およびβ>0このような分布は、名前を持っていますか?また、正規化定数の式はありますか?私ものために解決を開始する方法がわからないので計算は、私を切り株C不可欠で 1=C⋅∫ ∞ - ∞のexp(-|X-μ | Pf(x)∝exp(−|x−μ|pβ)f(x)∝exp⁡(−|x−μ|pβ) f(x)\propto\exp\left(-\frac{|x-\mu|^p}{\beta}\right) x∈R,p∈[1,2]x∈R,p∈[1,2]x\in\mathbb{R}, p\in[1,2]β>0.β>0.\beta>0.CCC1=C⋅∫∞−∞exp(−|x−μ|pβ)dx1=C⋅∫−∞∞exp⁡(−|x−μ|pβ)dx 1=C\cdot \int_{-\infty}^\infty \exp\left(-\frac{|x-\mu|^p}{\beta}\right) dx

2
2つのiid対数正規確率変数の差
レッツと 2 iidrvのこと。分布を知りたい。X 2ログ(X 1)、ログ(X 2)〜N (μ 、σ )X 1 - X 2X1X1X_1X2X2X_2log(X1),log(X2)∼N(μ,σ)log⁡(X1),log⁡(X2)∼N(μ,σ)\log(X_1),\log(X_2) \sim N(\mu,\sigma)X1−X2X1−X2X_1 - X_2 私ができる最善の方法は、両方のテイラー級数を取り、差が残りの項間の差の残りに加えて、2つの通常のrvと2つのカイ二乗rvの差の合計であることを取得することです。2つのiid対数正規rvの差の分布を取得するより簡単な方法はありますか?

4
Rの累積分布を計算する方法は?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 データサンプルの累積分布関数を計算する必要があります。 累積密度関数を測定するRのhist()に似たものはありますか? 私はecdf()を試しましたが、ロジックを理解できません。
23 r  distributions  cdf 

3
ガウスの混合としての学生t
k>0k>0k > 0の自由度、位置パラメーターおよびスケールパラメーターが密度を持つスチューデントt分布を使用するSlllsss Γ(k+12)Γ(k2kπs2−−−−√){1+k−1(x−ls)}−(k+1)/2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k \pi s^2}\right)} \left\{ 1 + k^{-1}\left( \frac{x-l}{s}\right)\right\}^{-(k+1)/2}, スチューデントの分布が、、および結合密度を積分して、限界密度を取得しますか?μ 、α 、βの関数として、結果のt分布のパラメーターは何ですか?tttX∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^2)τ=1/σ2∼Γ(α,β)τ=1/σ2∼Γ(α,β)\tau = 1/\sigma^2\sim\Gamma(\alpha,\beta)f(x,τ|μ)f(x,τ|μ)f(x,\tau|\mu)f(x|μ)f(x|μ)f(x|\mu)tttμ,α,βμ,α,β\mu,\alpha,\beta 結合条件付き密度をガンマ分布と統合することにより、計算で迷子になりました。

4
データの分布が対称かどうかを確認するにはどうすればよいですか?
中央値と平均値がほぼ等しい場合、対称分布が存在することを意味しますが、この特定のケースでは確信がありません。平均値と中央値は非常に近い(差額は0.487m / gallのみ)ため、対称分布があると言えますが、箱ひげ図を見ると、わずかに正に歪んでいるように見えます(中央値はQ3よりもQ1に近いことが確認されています)値によって)。 (このソフトウェアについて特別なアドバイスがあれば、Minitabを使用しています。)

3
最大エントロピー分布の統計的解釈
最大エントロピーの原理を使用して、さまざまな設定でいくつかの分布を使用することを正当化しました。ただし、最大エントロピーの情報理論的な解釈とは対照的に、統計を定式化することはまだできていません。言い換えると、エントロピーを最大化すると、分布の統計的特性について何が示唆されるのでしょうか? 誰かに出くわしたり、最大の統計的解釈を自分自身で発見したりしました。情報には訴えず、確率論的な概念にのみ訴えるエントロピー分布? そのような解釈の例として(必ずしも真とは限らない):「RVのドメイン上の任意の長さLの間隔(単純化のために1-d連続と仮定)では、この間隔に含まれる最大確率は最小化されます。最大エントロピー分布による。」 したがって、「情報量」やその他のより哲学的なアイデアについての話はなく、確率的な意味合いだけがあります。



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.