タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

1
平日の分布の均一性を測定する
私はここで尋ねられた質問と同様の問題を抱えています: 分布の不均一性をどのように測定しますか? 曜日全体にわたる一連の確率分布があります。各分布が(1 / 7,1 / 7、...、1/7)にどれだけ近いかを測定したいと思います。 現時点では、上記の質問の回答を使用しています。L2ノルムは、分布の1日の質量が1の場合に値1を持ち、(1 / 7,1 / 7、...、1/7)に対して最小化されます。私はこれを線形にスケーリングして、0と1の間にあるようにします。それを反転させると、0は完全に不均一になり、1は完全に均一になります。 これはかなりうまく機能しますが、私には1つの問題があります。平日は7次元空間の次元として等しく扱われるため、日数の近さは考慮されません。つまり、(1 / 2,1 / 2,0,0,0,0,0)と(1 / 2,0,0,1 / 2,0,0,0)にも同じスコアを与えますある意味では、後者はより「広がり」、均一であり、理想的にはより高いスコアを取得する必要があります。日付の順序が循環的であるという追加の複雑さが明らかにあります。 日の近さを説明するために、このヒューリスティックをどのように変更できますか?

2
同じですか、それとも違いますか?ベイジアンウェイ
次のモデルがあるとします。 Poisson(λ)∼{λ1λ2if t<τif t≥τPoisson(λ)∼{λ1if t<τλ2if t≥τ\text{Poisson}(\lambda) \sim \begin{cases} \lambda_1 & \text{if } t \lt \tau \\ \lambda_2 & \text{if } t \geq \tau \end{cases} そして私はのための事後推測およびλ 2私のデータから、下に示します。伝える(または定量)のベイズの方法があればそこにあるλ 1およびλ 2があり、同一または異なりますか?λ1λ1\lambda_1λ2λ2\lambda_2λ1λ1\lambda_1λ2λ2\lambda_2 おそらく、測定する確率異なるλ 2をλ1λ1\lambda_1λ2λ2\lambda_2?または、おそらくKL分岐を使用していますか? 例えば、どのように測定することができ、又は少なくとも、P (λ 2 > λ 1)を?p(λ2≠λ1)p(λ2≠λ1)p(\lambda_2 \neq \lambda_1)p(λ2>λ1)p(λ2>λ1)p(\lambda_2 \gt \lambda_1) 一般的に、以下に示すように後処理者(両方でゼロでない PDF値を想定)を取得したら、この質問に答える良い方法は何ですか? 更新 この質問には2つの方法で回答できるようです。 λ1≠λ2λ1≠λ2\lambda_1 \neq \lambda_2λ2>λ1λ2>λ1\lambda_2 > \lambda_1 後世のある種の違いを統合する。そして、それは私の質問の重要な部分です。その統合はどのように見えますか?おそらくサンプリング手法はこの積分を近似するでしょうが、この積分の定式化について知りたいのです。 …

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

3
2つの独立したポアソン確率変数の加重和
ウィキペディアを使用して、2つのポアソン確率変数の合計から生じる確率質量関数を計算する方法を見つけました。しかし、私が持っているアプローチは間違っていると思います。 LET 平均値を有する2つの独立したポアソン確率変数であるλ 1、λ 2、及びS 2 = 1 X 1 + 2 X 2、1及び2は定数、次いで確率発生関数でありますS 2によって与えられる G S 2(Z )= E (Z S 2)= Eバツ1、X2X1,X2X_1, X_2λ1、λ2λ1,λ2\lambda_1, \lambda_2S2= a1バツ1+ a2バツ2S2=a1X1+a2X2S_2 = a_1 X_1+a_2 X_2a1a1a_1a2a2a_2S2S2S_2 今、ポアソン確率変数の確率発生関数であるという事実使用 G XがI(Z )= E λ I(Z - 1 )、我々は、2つの独立したポアソンランダムの和の確率生成関数を書くことができるが変数として GS2(z)= E(zS2)= E(za1バツ1+ a2バツ2)Gバツ1(za1)Gバツ2(za2)。GS2(z)=E⁡(zS2)=E⁡(za1X1+a2X2)GX1(za1)GX2(za2). G_{S_2}(z) = \operatorname{E}(z^{S_2})= \operatorname{E}(z^{a_1 …

2
ガンマ確率変数の違い
与えられた二つの独立確率変数とY 〜G MをM(α Y、β Y)、差の分布、すなわち何D = X - Yは?バツ〜G A M M A(αバツ、βバツ)X∼Gamma(αX,βX)X\sim \mathrm{Gamma}(\alpha_X,\beta_X)Y〜G A M M A(αY、βY)Y∼Gamma(αY,βY)Y\sim \mathrm{Gamma}(\alpha_Y,\beta_Y)D = X− YD=X−YD=X-Y 結果がよく知られていない場合、どのように結果を導き出しますか?


3
2D正方形の点の分布の均一性を測定する
2Dの正方形があり、その中に一連のポイントがあります。たとえば、1000ポイントです。正方形内のポイントの分布が広がっているか(または多かれ少なかれ均一に分布しているか)、または正方形内のいくつかのスポットに集まる傾向があるかどうかを確認する方法が必要です。 これを決定するための数学的/統計的(プログラミングではない)方法が必要です。私はググって、適合度、コルモゴロフなどのようなものを見つけました、そしてこれを達成する他のアプローチがあるのか​​と思っています。クラスペーパーにはこれが必要です。 入力:2D正方形、および1000ポイント。出力:はい/いいえ(はい=均等に広がる、いいえ=一部のスポットに集まる)。

2
なぜディストリビューションが重要なのですか?
これは、このフォーラムでこれまでに質問された最も愚かな質問と同じくらい下がるかもしれませんが、前の質問に対する健全で意味のある回答を受け取ったので、私は再び運を伸ばすつもりです。 統計的分布の重要性については、特に資産のリターンに関連しており、さらに具体的には資産配分に関連しているため、しばらく混乱していました。 私の具体的な質問は次のとおりです。S&P 500の月次収益データが20年あると仮定します。単純にできるときに、資産配分決定のために特定の種類の分布(つまり、通常/ジョンソン/レビーフライトなど)を想定する必要があるのはなぜですか。私が持っている履歴データに基づいて、資産割り当ての決定を行うだけですか?

2
巨大な尖度?
株価指数の日次リターンの説明統計を行っています。即ち、もし及びP 2は、次いで、それぞれ、1日目と2日目に指数のレベルであるL O のG E(P 2P1P1P_1P2P2P_2は、私が使用しているリターンです(文献では完全に標準です)。loge(P2P1)loge(P2P1)log_e (\frac{P_2}{P_1}) したがって、これらのいくつかでは尖度が巨大です。私は約15年分の日次データを見ている(つまり、約∗ 15時系列観測)260∗15260∗15260 * 15 means sds mins maxs skews kurts ARGENTINA -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532 AUSTRIA 0.00003 0.00640 -0.03845 0.04621 0.19614 2.36104 CZECH.REPUBLIC 0.00008 0.00800 -0.08289 0.05236 -0.16920 5.73205 FINLAND 0.00005 0.00639 -0.03845 0.04622 0.19038 2.37008 HUNGARY -0.00019 0.00880 -0.06301 0.05208 …

1
時間イベントの長期的な分布
Webサーバーのログがあるとします。これらのログには、次の種類のタプルがあります。 user1, timestamp1 user1, timestamp2 user1, timestamp3 user2, timestamp4 user1, timestamp5 ... これらのタイムスタンプは、たとえばユーザーのクリックを表します。これで、user1は1か月間に複数回(セッション)のサイトにアクセスし、各セッション中に各ユーザーからのクリックのバーストが発生します(ユーザーがサイトにアクセスすると、ユーザーは複数のページをクリックするとします)。 これらのクリックのバーストを、それらを生成したセッションで分割したいとしますが、追加の情報源はなく、タイムスタンプのリストのみがあるとします。同じユーザーによる2回のクリックの間隔の分布を計算すると、長い分布が得られます。直感的には、「カットパラメータ」、たとえばN秒を探します。ここで、であればtimestamp_{i+1} - timestamp{i} > N、あなたtimestamp_{i+1}は新しいセッションの始まりです。 問題は、この分布が実際には2つの変数の混合であるということです:X =「同じセッションでの2つの後続のクリック間の間隔」とY =「前のセッションの最後のクリックと新しいセッションの最初のクリックとの間の間隔」。 問題は、このNをどのように推定するかであり、クリックのバーストを調べるだけで、2つの分布を(おそらく少しオーバーラップして)分割しますか?


1
に対数正規確率密度関数を乗算して分析的に積分することは可能ですか?
まず、分析的に統合することによって、つまり、数値解析(台形、ガウスレジェンドル、シンプソンの規則など)とは対照的に、これを解決するための統合規則はありますか? 私には関数があり、 は、対数正規分布の確率密度関数です。パラメータおよび。以下では、表記を省略して、累積分布関数にを使用します。f(x)=xg(x;μ,σ)f(x)=xg(x;μ,σ)\newcommand{\rd}{\mathrm{d}}f(x) = x g(x; \mu, \sigma)g(x;μ,σ)=1σx2π−−√e−12σ2(log(x)−μ)2g(x;μ,σ)=1σx2πe−12σ2(log⁡(x)−μ)2 g(x; \mu, \sigma) = \frac{1}{\sigma x \sqrt{2\pi}} e^{-\frac{1}{2\sigma^2}(\log(x) - \mu)^2} μμ\muσσ\sigmag(x)g(x)g(x)G(x)G(x)G(x) 積分を計算する必要があり ∫baf(x)dx.∫abf(x)dx. \int_{a}^{b} f(x) \,\rd x \>. 現在、Gauss-Legendre法を使用した数値積分でこれを行っています。これを何度も実行する必要があるため、パフォーマンスは重要です。数値解析/その他の部分の最適化を検討する前に、これを解決するための統合ルールがあるかどうかを知りたいと思います。 パーツごとの統合ルールを適用してみたところ、再び行き詰まりました。 ∫udv=uv−∫vdu∫udv=uv−∫vdu\int u \,\mathrm{d}v = u v - \int v \mathrm{d}u。 u=x⟹du=dxu=x⟹du=dxu=x \implies \rd u = \rd x dv=g(x)dx⟹v=G(x)dv=g(x)dx⟹v=G(x)\rd v = g(x) \rd …


3
分布
日常的な練習として、私は√の分布を見つけようとしていますX2+Y2−−−−−−−√X2+Y2\sqrt{X^2+Y^2}XXX及びYYY独立しているU(0,1)U(0,1) U(0,1)ランダム変数。 (X,Y)(X,Y)(X,Y)の結合密度は fX,Y(x,y)=10&lt;x,y&lt;1fX,Y(x,y)=10&lt;x,y&lt;1f_{X,Y}(x,y)=\mathbf 1_{0\cos^{-1}\left(\frac{1}{z}\right)、のようにcosθcos⁡θ\cos\thetaに減少しているθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right]; そしてzsinθ&lt;1⟹θ&lt;sin−1(1z)zsin⁡θ&lt;1⟹θ&lt;sin−1⁡(1z)z\sin\theta<1\implies\theta<\sin^{-1}\left(\frac{1}{z}\right)、のようにsinθsin⁡θ\sin\theta上に増加しているθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right]。 したがって、1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2、cos−1(1z)&lt;θ&lt;sin−1(1z)cos−1⁡(1z)&lt;θ&lt;sin−1⁡(1z)\cos^{-1}\left(\frac{1}{z}\right)<\theta<\sin^{-1}\left(\frac{1}{z}\right)。 変換のヤコビアンの絶対値です|J|=z|J|=z|J|=z こうしての関節密度(Z,Θ)(Z,Θ)(Z,\Theta)によって与えられます。 fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2√),θ∈(cos−1(1/z),sin−1(1/z))}fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2),θ∈(cos−1⁡(1/z),sin−1⁡(1/z))}f_{Z,\Theta}(z,\theta)=z\mathbf 1_{\{z\in(0,1),\,\theta\in\left(0,\pi/2\right)\}\bigcup\{z\in(1,\sqrt2),\,\theta\in\left(\cos^{-1}\left(1/z\right),\sin^{-1}\left(1/z\right)\right)\}} θθ\theta積分すると、次のようにZZZのpdfが得られます。 fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1(1z))11&lt;z&lt;2√fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1⁡(1z))11&lt;z&lt;2f_Z(z)=\frac{\pi z}{2}\mathbf 1_{0\sqrt 2 \end{cases} 正しい表現のように見えます。1 &lt; z &lt; √の場合のFZFZF_Z微分1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2、すでに取得したpdfに簡単に単純化できない式を表示します。 最後に、私はCDFの正しい写真があると思います。 用0&lt;z&lt;10&lt;z&lt;10<z<1: そして1&lt;z&lt;2–√1&lt;z&lt;21<z<\sqrt 2: 網掛け部分は、領域の面積を示します{(x,y):0&lt;x,y&lt;1,x2+y2≤z2}{(x,y):0&lt;x,y&lt;1,x2+y2≤z2}\left\{(x,y):0<x,y< 1\,,\,x^2+y^2\le z^2\right\} 写真はすぐに得られます FZ(z)=Pr(−z2−X2−−−−−−−√≤Y≤z2−X2−−−−−−−√)=⎧⎩⎨⎪⎪⎪⎪πz24z2−1−−−−−√+∫1z2−1√z2−x2−−−−−−√dx, if 0&lt;z&lt;1, if 1&lt;z&lt;2–√FZ(z)=Pr(−z2−X2≤Y≤z2−X2)={πz24, if 0&lt;z&lt;1z2−1+∫z2−11z2−x2dx, if 1&lt;z&lt;2\begin{align} F_Z(z)&=\Pr\left(-\sqrt{z^2-X^2}\le Y\le\sqrt{z^2-X^2}\right) \\&=\begin{cases}\frac{\pi z^2}{4} &,\text{ if } …

3
最小、平均、最大から分布を計算する
あるデータセットの最小値、平均値、最大値、たとえば10、20、25があるとします。次の方法はありますか? これらのデータから分布を作成し、 人口の何パーセントが平均より上または下にある可能性が高いかを知る 編集: グレンの提案に従って、サンプルサイズが200であるとします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.