タグ付けされた質問 「pdf」

連続確率変数の確率密度関数(PDF)は、可能な各値の相対確率を示します。このタグは、離散確率質量関数(PMF)にも使用します。

1
スプラインを使用して密度関数の局所極値を見つける
確率密度関数の局所的な最大値を見つけようとしています(Rのdensity方法を使用して見つけました)。大量のデータがあるため、単純な「周辺を見る」方法(ポイントを見て周辺の最大値であるかどうかを確認する方法)を実行できません。さらに、フォールトトレランスやその他のパラメータを使用して「辺りを見る」のではなく、スプライン補間のようなものを使用してから1次導関数の根を見つける方がより効率的で一般的です。 だから、私の質問: からの関数が与えられた場合splinefun、どのメソッドが局所最大値を見つけますか? を使用して返される関数の導関数を見つける簡単/標準的な方法はありsplinefunますか? 確率密度関数の極大値を見つけるためのより良い/標準的な方法はありますか? 参考のために、以下は私の密度関数のプロットです。私が使用している他の密度関数の形式は似ています。私はRには慣れていないが、プログラミングには慣れていないので、必要なものを達成するための標準ライブラリまたはパッケージがあるかもしれません。 ご協力いただきありがとうございます!!
15 r  pdf  splines  maximum 

2
Wolfram Mathworldは、確率密度関数で離散確率分布を記述する間違いを犯しますか?
通常、離散変数にわたる確率分布は、確率質量関数(PMF)を使用して記述されます。 連続確率変数を使用する場合、確率質量関数ではなく確率密度関数(PDF)を使用して確率分布を記述します。 - ディープラーニンググッドフェロー、Bengio、およびCourvilleによって しかし、Wolfram MathworldはPDFを使用して、離散変数の確率分布を記述しています。 これは間違いですか?またはそれは大した問題ではありませんか?

3
経験的確率密度間の重複を計算する方法は?
2つのサンプル間の類似性の尺度として、Rの2つのカーネル密度推定値間のオーバーラップ領域を計算する方法を探しています。明確にするために、次の例では、紫がかった重複領域の面積を定量化する必要があります。 library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA) 同様の質問がここで議論されました。違いは、事前定義された正規分布ではなく、任意の経験的データに対してこれを行う必要があることです。overlapパッケージアドレスこの質問が、どうやら私だけのために動作しないタイムスタンプデータ、のために。Bray-Curtisインデックス(veganパッケージのvegdist(method="bray")関数に実装されている)も関連しているように見えますが、やはりデータが多少異なります。 理論的なアプローチと、それを実装するために使用する可能性のあるR関数の両方に興味があります。

1
導関数のカーネル密度推定量に最適な帯域幅はありますか?
カーネル密度推定器を使用して、一連の観測に基づいて密度関数を推定する必要があります。同じ観測セットに基づいて、カーネル密度推定器の導関数を使用して密度の1次および2次導関数を推定する必要もあります。帯域幅は確かに最終結果に大きな影響を与えます。 まず、KDE帯域幅を提供するR関数がいくつかあることを知っています。どちらがより好ましいかわかりません。誰もがKDE帯域幅のためにこれらのR関数の1つを推奨できますか? 第二に、KDEの導関数について、同じ帯域幅を選択する必要がありますか?

3
2つのヒストグラムを同じスケールで配置する最良の方法は?
詳細に比較したい2つの分布があるとしましょう。つまり、形状、スケール、シフトを簡単に見えるようにします。これを行う1つの良い方法は、各分布のヒストグラムをプロットし、それらを同じXスケールに配置し、一方を他方の下に積み重ねることです。 これを行うとき、ビニングはどのように行われるべきですか?下の画像1のように、1つの分布が他の分布よりもはるかに分散している場合でも、両方のヒストグラムで同じビン境界を使用する必要がありますか?下の画像2のように、ズームする前にヒストグラムごとにビニングを個別に行う必要がありますか?これについての経験則もありますか?


1
個々のサンプルの確率が0であるのに、なぜMLEが理にかなっていますか?
これは、いくつかの古い統計を確認しているときに感じた奇妙な考えであり、何らかの理由でその答えを考えることができないようです。 連続PDFは、特定の範囲の観測値の密度を示します。すなわち、場合X∼N(μ,σ2)X∼N(μ,σ2)X \sim N(\mu,\sigma^2)、例えば、次に実現が間に入る確率とBは単に∫ bは φを(X )D Xここでφは、標準正規の密度です。aaabbb∫baϕ(x)dx∫abϕ(x)dx\int_a^{b}\phi(x)dxϕϕ\phi たとえばμμ\muパラメーターのMLE推定を行うことを考えるとき、たとえばNNNランダム変数X1..XNX1..XNX_1 .. X_Nの結合密度を書きます。。X Nとする対数尤度WRT分化μμ\mu、0に等しく設定し、について解きますμμ\mu。しばしば与えられる解釈は「データが与えられると、どのパラメーターがこの密度関数をもっともらしいものにするか」です。 私を悩ませている部分はこれです:NNN rvの密度があり、特定の実現、たとえばサンプルを取得する確率は正確に0です。データ(繰り返しますが、実際のサンプルを観察する確率は正確に0です)? 私が思いつく唯一の合理化は、領域内の積分(したがって、この領域内のデータを観測する確率)が最高になるように、観測されたサンプルの周囲で PDFを可能な限りピークにしたいということです。

3
ベータ版の配布元はどこですか?
私は確信しているとして、誰もがここでは、すでにベータ分布のPDFを知っているで与えられますX∼B(a,b)X∼B(a,b)X \sim B(a,b) f(x)=1B(a,b)xa−1(1−x)b−1f(x)=1B(a,b)xa−1(1−x)b−1f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1} この式の起源を説明するために、あちこちで狩りをしてきましたが、見つけることができません。私がベータ版の分布で見つけたすべての記事は、この公式を提供し、その形状のいくつかを説明し、その後、その瞬間とそこから議論にまっすぐ進むようです。 私が導き出して説明できない数式を使うのは好きではありません。他の分布(例:ガンマまたは二項分布)については、学習して使用できる明確な導出があります。しかし、ベータ版ディストリビューションについては、そのようなものは見つかりません。 だから私の質問は次のとおりです。この式の起源は何ですか?最初に開発されたどのようなコンテキストでも、どのように第一原理から派生させることができますか? [明確にするために、ベイジアン統計でベータ分布を使用する方法、または実際にそれが直感的に意味するものについては質問していません(野球の例を読みました)。PDFの導出方法を知りたいだけです。同様のことを尋ねる以前の質問がありましたが、問題に対処しなかった別の質問の重複としてマークされていたので(間違っていると思います)、ここでヘルプを見つけることができませんでした。 EDIT 2017-05-06:質問をありがとうございます。私が望むものについての良い説明は、私のコースインストラクターにこれを尋ねたときに得た答えの1つから来ると思います: 「人々はn個の合計をsqrt(n)で割った限界として通常の密度を導き出すことができると思います。また、一定の速度で発生するイベントの考えからポアソン密度を導き出すことができます。ベータ密度については、密度から独立して、論理的に何がベータ分布になるのかをある程度理解する必要があります。」 したがって、コメント内の「ab initio」のアイデアは、おそらく私が探しているものに最も近いでしょう。私は数学者ではありませんが、導出できる数学を使用するのが最も快適だと感じています。起源が私には扱えないほど進んでいるなら、そうであるが、そうでないなら、私はそれらを理解したいと思う。

3
密度推定はどこで役立ちますか?
少し簡潔な数学を経て、カーネル密度の推定について少し直感が得られたと思います。しかし、3つを超える変数の多変量密度を推定することは、その推定量の統計的性質の観点から、良いアイデアではないかもしれないことも認識しています。 それでは、たとえば、ノンパラメトリック法を使用して、二変量密度をどのような状況で推定する必要がありますか?3つ以上の変数の推定を心配するのに十分な価値がありますか? 多変量密度の推定の適用に関するいくつかの有用なリンクを指すことができれば、それは素晴らしいことです。

3
2つの独立したガンマ確率変数の合計
ガンマ分布に関するウィキペディアの記事によると: もしバツ〜G A M M A(、θ )バツ〜Gamma(a、θ)X\sim\mathrm{Gamma}(a,\theta)と、及び独立ランダム変数であり、次いで、。X Y X + Y 〜G MをM(+のB 、θ )Y〜G A M M A(B 、θ )Y〜Gamma(b、θ)Y\sim\mathrm{Gamma}(b,\theta)バツバツXYYYバツ+ Y〜G A M M A(+のB 、θ )バツ+Y〜Gamma(a+b、θ)X+Y\sim \mathrm{Gamma}(a+b, \theta) しかし、証拠は見当たりません。誰かがその証拠を教えてくれますか? 編集:Zenに感謝します。また、ウィキペディアのページで特性関数に関する回答を例として見つけました。

1
ネゲントロピーの導出。はまる
そのため、この質問は多少複雑ですが、できる限り簡単になるように心がけました。 目標:長い話を簡単に言えば、高次のキュムラントを含まない負のエントロピーの導出があり、それがどのように導出されたかを理解しようとしています。 背景:(これはすべて理解しています) ここにある「独立成分分析」という本を自習しています。(この質問は、「非多項式関数によるエントロピーの近似」という本がある場合は、セクション5.6からのものです)。 我々は持っているバツバツxランダム変数であり、そしてそのネゲントロピー我々は我々が持っているいくつかの観測から、推定したいです。のPDFはp x(ζ )でバツバツx与えられます。ネゲントロピーは、標準化されたガウス確率変数の微分エントロピーとxの微分エントロピーの差です。ここでの微分エントロピーは、次のようにHによって与えられます。pバツ(ζ)pバツ(ζ)p_x(\zeta)バツバツxHHH H(X )= - ∫∞- ∞pバツ(ζ)L O G(pバツ(ζ))dζH(バツ)=−∫−∞∞pバツ(ζ)log(pバツ(ζ))dζ H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta そのため、負のエントロピーは J(x )= H(v )− H(x )J(バツ)=H(v)−H(バツ)J(x) = H(v) - H(x) ここでvvvは標準化されたガウスrvであり、PDFは与えられϕ (ζ)ϕ(ζ)\phi(\zeta)ます。 さて、この新しい方法の一部として、私の本はのPDFの推定値を導き出しましたバツバツx。 pバツ(ζ)= ϕ (ζ)[ 1 + ∑私c私F私(ζ)]pバツ(ζ)=ϕ(ζ)[1+∑私c私F私(ζ)] p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; …


2
標準正規分布の期待値を計算する方法は?
連続確率変数の期待値を計算する方法を学びたいのですが。期待値はここで、は確率密度関数です。、F (X )XE[X]=∫∞−∞xf(x)dxE[X]=∫−∞∞xf(x)dxE[X] = \int_{-\infty}^{\infty} xf(x)\mathrm{d}xf(x)f(x)f(x)XXX 確率密度関数 があるとします標準正規分布。f (x )= 1XXXf(x)=12π−−√e−x22f(x)=12πe−x22f(x) = \frac{1}{\sqrt{2\pi}}e^{\frac{-x^{2}}{2}} したがって、最初にPDFをプラグインして、 は、やや乱雑に見える方程式です。定数は積分の外に移動でき、 1E[X]=∫∞−∞x12π−−√e−x22dxE[X]=∫−∞∞x12πe−x22dxE[X] = \int_{-\infty}^{\infty} x\frac{1}{\sqrt{2\pi}}e^{\frac{-x^{2}}{2}}\mathrm{d}x E[X]=112π−−√12π\displaystyle\frac{1}{\sqrt{2\pi}}E[X]=12π−−√∫∞−∞xe−x22dx.E[X]=12π∫−∞∞xe−x22dx.E[X] = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty} xe^{\frac{-x^{2}}{2}}\mathrm{d}x. ここで動けなくなる。積分を計算するにはどうすればよいですか?私はこれをここまで正しくやっていますか?期待値を取得する最も簡単な方法はありますか?

1
標準正規確率変数の二乗のPDF [閉じた]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前に閉鎖されました。 pdfを見つけなければならないところに、この問題がありますY=X2Y=X2Y = X^2。すべてのI knowがあることであるXXX分布があるN(0,1)N(0,1)N(0,1)。はどのような分布Y=X2Y=X2Y = X^2ですか?同じXXX?PDFを見つけるにはどうすればよいですか?

1
密度プロットの高さの解釈方法
密度プロットの高さの解釈方法: たとえば、上のプロットでは、ピークはx = 18で約0.07にあります。値の約7%が約18であると推測できますか?それよりも具体的にできますか?また、高さ0.02のx = 30に2番目のピークがあります。これは、値の約2%が約30であることを意味しますか? 編集:1を超える確率分布値は問題ないのですか?ここではまったく問題ではない確率値> 1について説明します。また、単純なベイズの分類法に関連して、ここでもポイントではないことを説明します。私は、このような密度曲線から描くことができる数値的推論を、簡単な言葉で言いたいです。曲線下面積の役割について説明しますが、私の質問は、曲線上に存在する特定のxとyの組み合わせに関して具体的にどのような推論を引き出すことができるかです。たとえば、このグラフでx = 30とy = 0.02をどのように関連付けることができますか。ここで30と0.02の関係についてどのような記述を書くことができますか。密度は1つの単位値であるため、値の2%が29.5と30.5の間で発生していると言えますか?その場合、次のプロットのように、値が0から1までしか変化しない場合、どのように解釈するのでしょうか。 値の100%が0と1の間にある場合、なぜ0と1の外側に曲線があるのですか? ここで、x = 0.1からx = 0.2に平坦な部分があり、yは0.8です。長方形を形成します。x = 0.1とx = 0.2の間でどのような値の割合が発生するかを知るにはどうすればよいですか (PS:この質問がおもしろい/重要だと思ったら、賛成してください;)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.