タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

4
直感/相関行列の固有値の分布の解釈?
相関行列の固有値の分布の直感/解釈は何ですか?通常、最大3つの固有値が最も重要であるのに対し、ゼロに近い固有値はノイズであると聞きがちです。また、自然に発生する固有値分布がランダム相関行列から計算されたものとどのように異なるかを調査するいくつかの研究論文を見ました(ここでも、ノイズを信号から区別します)。 あなたの洞察について詳しく説明してください。

1
「絶対連続確率変数」対「連続確率変数」?
バレンティンV.ペトロフの著書「確率論の限界定理」では、次のように「連続」と「絶対連続」の分布の定義が区別されています。 X P (X ∈ B ) = 0 B P (X ∈ B ) = 0 B(∗)(∗)(*) 「... 実線の点の有限または可算集合について場合、確率変数の分布は連続的であるといいます。場合、ルベーグメジャーゼロのすべてのボレル集合がゼロの場合、完全に連続する... "XXXP(X∈B)=0P(X∈B)=0P\left(X \in B\right)=0BBBP(X∈B)=0P(X∈B)=0P\left(X \in B\right)=0BBB 私が精通しているコンセプトは: (#)(#)(\#) 「確率変数に連続累積分布関数がある場合、それは完全に連続です。」 (∗ )(#)My questions are:My questions are:\textbf{My questions are:}同じことについてと「絶対連続性」についての2つの説明ですか?はいの場合、1つの説明を別の説明にどのように変換できますか?(∗)(∗)(*)(#)(#)(\#) ありがとうございました!

2
最大平均不一致(距離分布)
異なる分布に従う2つのデータセット(ソースデータとターゲットデータ)があります。ソースデータとターゲットデータ間の周辺分布を計算するために、MMD(これはノンパラメトリック距離分布です)を使用しています。 ソースデータ、X ターゲットデータ、Xt 適応マトリックスA *予測データ、Zs = A '* XsおよびZt = A' Xt * MMD =>距離(P(Xs)、P(Xt))= | mean(A'Xs)-mean(A ' Xt)| つまり、元の空間のソースデータとターゲットデータ間の分布の距離は、埋め込み空間の投影されたソースデータとターゲットデータの平均間の距離に相当します。 MMDのコンセプトについて質問があります。 MMD式で、なぜ潜在空間での距離を計算すると、元の空間での分布の距離を測定できるのでしょうか。 ありがとう

11
正規分布ですが、非常に歪んだ分布はガウスと見なされますか?
この質問があります:YouTubeで1日あたりに費やされる時間の分布はどのように見えると思いますか? 私の答えは、おそらく正規分布であり、非常に歪んでいるということです。一部のユーザーはパワーユーザーを圧倒しているため、ほとんどのユーザーが平均的な時間を費やしてから右の長いテールを使用するモードが1つあると思います。 それは公平な答えですか?その分布についてより良い言葉はありますか?

5
と独立して
XXXおよびYYY独立確率変数分布しているX∼χ2(n−1)X∼χ(n−1)2X\sim\chi^2_{(n-1)}とY∼Beta(n2−1,n2−1)Y∼Beta(n2−1,n2−1)Y\sim\text{Beta}\left(\frac{n}{2}-1,\frac{n}{2}-1\right)。Z=(2Y−1)√の分布は何ですかZ=(2Y−1)X−−√Z=(2Y−1)XZ=(2Y-1)\sqrt X? 関節密度(X,Y)(X,Y)(X,Y)によって与えられます。 fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}f_{X,Y}(x,y)=f_X(x)f_Y(y)=\frac{e^{-\frac{x}{2}}x^{\frac{n-1}{2}-1}}{2^{\frac{n-1}{2}}\Gamma\left(\frac{n-1}{2}\right)}\cdot\frac{y^{\frac{n}{2}-2}(1-y)^{\frac{n}{2}-2}}{B\left(\frac{n}{2}-1,\frac{n}{2}-1\right)}\mathbf1_{\{x>0\,,\,00\,,\,|z|<w\}} 限界PDF その後で 、F Z(Z )= ∫ ∞ | z | f Z 、W(z 、w )ZZZ、私をどこにも導かない。fZ(z)=∫∞|z|fZ,W(z,w)dwfZ(z)=∫|z|∞fZ,W(z,w)dwf_Z(z)=\displaystyle\int_{|z|}^\infty f_{Z,W}(z,w)\,\mathrm{d}w 繰り返しますが、の分布関数を見つけると、不完全なベータ/ガンマ関数が現れます:ZZZ FZ(z)=Pr(Z≤z)FZ(z)=Pr(Z≤z)F_Z(z)=\Pr(Z\le z) = Pr ((2 Y− 1 )X−−√≤ Z)=∬(2y−1)x√≤zfX,Y(x,y)dxdy=Pr((2Y−1)X≤z)=∬(2y−1)x≤zfX,Y(x,y)dxdy\quad\qquad=\Pr((2Y-1)\sqrt X\le z)=\displaystyle\iint_{(2y-1)\sqrt{x}\le z}f_{X,Y}(x,y)\,\mathrm{d}x\,\mathrm{d}y ここでの変数の適切な変更とは何ですか?の分布を見つける別の方法はありますか?ZZZ カイ二乗、ベータ、「F」、「t」の分布の間で異なる関係を使用してみましたが、何も機能しないようです。おそらく私は明らかな何かを見逃しています。 @Francisが述べたように、この変換はBox-Müller変換の一般化です。

2
を示す構成例
E (1の確率分布の例を構築する方法X)=1E(1X)=1E(X)\mathbb{E}\left(\frac{1}{X}\right)=\frac{1}{\mathbb{E}(X)}P(X≠0)=1P(X≠0)=1\mathbb{P}(X\ne0)=1と仮定して、 E(X )が成り立つ? 正の値RV用ジェンセンの不等式から以下の不平等XはXX似ているE (1X)≥1E(X )E(1X)≥1E(X)\mathbb{E}\left(\frac{1}{X}\right)\ge\frac{1}{\mathbb{E}(X)}(X&lt;0のX&lt;0X<0場合、逆不等式)。マッピングがためですxは↦1xx↦1xx\mapsto\frac{1}{x}は、x&gt;0のx&gt;0x>0場合は凸で、x&lt;0の場合はx&lt;0x<0凹です。ジェンセンの不等式の等号条件に従って、必要な等式が成立するためには、分布を縮退させる必要があると思います。等式が成り立つ些細なケースは、もちろんX=1X=1X=1aeの場合です。問題の本で見つけた例は次のとおりです。P(X=−1)=1のような離散確率変数XXX9、P(X=12)=P(X=2)=49P(X=−1)=19,P(X=12)=P(X=2)=49\mathbb{P}(X=-1)=\frac{1}{9}, \mathbb{P}(X=\frac{1}{2})=\mathbb{P}(X=2)=\frac{4}{9}。その後、E(1X)=1E(X ) =1E(1X)=1E(X)=1\mathbb{E}\left(\frac{1}{X}\right)=\frac{1}{\mathbb{E}(X)}=1。 この例は、タイトルの平等が保持されるために、XXXが正(または負)aeである必要がないことを示しています。ここでの分布も縮退していません。 本で見つけたようなサンプルを作成するにはどうすればよいですか?動機はありますか?

1
パレート/ nbdモデルを概念的に理解することは可能ですか?
パレート/ NBDモデルを使用して、顧客がいつ戻ってくるかを予測するBTYDパッケージを使用することを学んでいます。ただし、このモデルに関するすべての文献には数学が満載されており、このモデルの動作についての単純な/概念的な説明はないようです。非数学者のパレート/ NBDモデルを理解することは可能ですか?フェーダーのこの有名な論文を読んだ。パレート/ NBDモデルは、次のことを前提としています。 私。アクティブな場合、長さtの期間に顧客によって行われたトランザクションの数は、トランザクションレートλでポアソン分布されます。 ii。顧客間のトランザクションレートの不均一性は、形状パラメーターrとスケールパラメーターαのガンマ分布に従います。 iii。各顧客には、長さτの観察されない「寿命」があります。顧客が非アクティブになるこのポイントは、ドロップアウト率µで指数関数的に分布します。 iv)顧客全体のドロップアウト率の不均一性は、形状パラメーターsとスケールパラメーターβのガンマ分布に従います。 v。トランザクションレートλとドロップアウトレートµは、顧客ごとに独立して変化します。」 仮定(ii)、(iii)、および(iv)の理論的根拠(背後にある直感)がわかりません。なぜこれらのディストリビューションのみで、他のディストリビューションではないのですか? また、BG / NBDモデルの仮定は次のとおりです。 i。)アクティブになっている間、顧客によって行われたトランザクションの数は、トランザクションレートλでポアソンプロセスに従います。これは、トランザクション間の時間がトランザクションレートλで指数関数的に分布していると仮定するのと同じです。 ii)λの不均一性はガンマ分布に従う iii)取引後、顧客は確率pで非アクティブになります。したがって、顧客が「ドロップアウト」するポイントは、pmfを使用した(シフトされた)幾何分布に従ってトランザクション全体に分散されます。 iv)ベータ分布に従うpの不均一性 仮定(ii)、(iii)、および(iv)の(直観的な)合理性もまったく明らかではありません。 どんな助けにも感謝します。ありがとう。

6
サンプリングできない単変量分布はありますか?
単変量分布(逆変換、アクセプトリジェクト、メトロポリスヘイスティングスなど)からランダムに生成するためのさまざまな方法があり、文字通り任意の有効な分布からサンプリングできるようです-それは本当ですか? ランダムに生成することが不可能な単変量分布の例を提供できますか?私は「不可能」によって、我々はまた、ある場合を意味することだと言うてみましょう(?)それは不可能であるという例が存在していないと思い、非常にちょうどAを受け入れるために、サンプルの膨大な量を描くような必要性のブルートフォースシミュレーションこと例えば、計算コストをそれらのいくつか。 そのような例が存在しない場合は、我々は実際に描画し、我々はランダム生成できることを証明することができます任意の有効な分布?これに反例が存在するかどうか、私は単に興味があります。

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid &lt;- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric &lt;- "RMSE" trainControl &lt;- trainControl(method="cv", number=10) set.seed(99) gbm.caret &lt;- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

1
ecdfが線形補間ではなくステップ関数を使用するのはなぜですか?
経験的CDF関数は通常、ステップ関数によって推定されます。これが線形補間を使用するのではなく、そのような方法で行われる理由はありますか?ステップ関数には、それを好む興味深い理論上の特性がありますか? 次に2つの例を示します。 ecdf2 &lt;- function (x) { x &lt;- sort(x) n &lt;- length(x) if (n &lt; 1) stop("'x' must have 1 or more non-missing values") vals &lt;- unique(x) rval &lt;- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered") class(rval) &lt;- …
12 r  distributions  ecdf 


1
標準正規確率変数の二乗のPDF [閉じた]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前に閉鎖されました。 pdfを見つけなければならないところに、この問題がありますY=X2Y=X2Y = X^2。すべてのI knowがあることであるXXX分布があるN(0,1)N(0,1)N(0,1)。はどのような分布Y=X2Y=X2Y = X^2ですか?同じXXX?PDFを見つけるにはどうすればよいですか?

2
共同正規性は、正常なランダム変数の合計が正常であるための必要条件ですか?
関連する質問に対する私のこの回答に続くコメントで、ユーザーssdecontrolとGlen_b は、合計正規性を主張するためにと共同正規性が必要かどうかを尋ねました。ジョイントの正規性が十分であることは、もちろんよく知られています。この補足的な質問はそこでは取り上げられておらず、おそらくそれ自体で検討する価値があります。XXXYYYX+YX+YX+Y 共同正規性は限界正規性を意味するので、私は尋ねます が通常のランダム変数であるが、とが 一緒に通常のランダム変数ではないような 通常のランダム変数とが存在しますか?XXXYYYX+YX+YX+YXXXYYY 場合はと正規分布を持つ必要はありません、正常な確率変数を簡単に見つけることができます。1つの例は、以前の回答にあります(リンクは上記のとおりです)。上記のハイライトされた質問に対する答えは「はい」であると信じており、この質問に対する答えとして例を(私が思うに)掲載しています。XXXYYY

1
N正規iidの積の近似分布?特殊なケースμ≈0
与えられた IID、及び、探しているもの:N≥30N≥30N\geq30Xn≈N(μX,σ2X)バツn≈N(μバツ、σバツ2)X_n\approx\mathcal{N}(\mu_X,\sigma_X^2)μX≈0μバツ≈0\mu_X \approx 0 正確な閉形式分布近似 YN=∏1NXnYN=∏1NXnY_N=\prod\limits_{1}^{N}{X_n} 同じ積の漸近(指数関数)近似 これは、より一般的な質問の特殊なケースです。μX≈0μX≈0\mu_X \approx 0

2
を見つける方法
どうすれば解決できますか?中間方程式が必要です。たぶん答えは−tf(x)−tf(x)-tf(x)です。 ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)は確率密度関数です。 すなわち、あるlimx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0とlimx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 ソース: http: //www.actuaries.jp/lib/collection/books/H22/H22A.pdf p.40 以下の中間方程式を試してください: ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) \right ]_t^\infty - \int_t^\infty F(x)\,dx \right ]?? ddt∫atf(x)dx=−ddt∫taf(x)dx=−ddt(F(t)−F(a))=F′(t)=f(t)ddt∫taf(x)dx=−ddt∫atf(x)dx=−ddt(F(t)−F(a))=F′(t)=f(t) \frac{d}{dt} \int_t^a f(x)\,dx = -\frac{d}{dt} …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.