タグ付けされた質問 「pdf」

連続確率変数の確率密度関数(PDF)は、可能な各値の相対確率を示します。このタグは、離散確率質量関数(PMF)にも使用します。

1
無限ランダム幾何学グラフでランダムウォークを行うロボットの密度
ノードの位置が密度ポアソン点プロセスに従い、エッジがdよりも近いノード間に配置されている無限ランダム幾何学グラフを考えてみます。したがって、エッジの長さは次のPDFに従います。ρρ\rhoddd f(l )= { 2 ld2L ≤ D0l > df(l)={2ld2l≤d0l>d f(l)= \begin{cases} \frac{2 l}{d^2} \;\quad l \le d \\ 0 \qquad\; l > d \end{cases} 上のグラフで、原点を中心とする半径の円の内側のノードを考えます。時間t = 0で、言及した各ノードの内側に小さなロボットを配置するとします。つまり、平面上のロボットの密度は次のように与えられます。rrrt = 0t=0t=0 ここで、lは原点からの距離です。次の図は、ロボットの初期配置の例を示しています。g(l )= { ρL ≤ R0l > dg(l)={ρl≤r0l>d g(l)= \begin{cases} \rho \quad l \le r \\ 0 \quad\; l > …

3
正規(またはその他の)ディストリビューションの「ブレーク」を正式にテストする方法
社会科学では、何らかの方法で、通常は分布するはずの変数が、特定の点の周りの分布に不連続性をもたらすことがよくあります。 たとえば、「合格/不合格」などの特定のカットオフがあり、これらの対策が歪みの影響を受けている場合、その時点で不連続性がある可能性があります。 有名な例の1つ(以下に引用)は、学生の標準化されたテストのスコアが、50%から60%までの質量がほとんどなく60%から65%程度の過剰な質量がある60%を除いて、基本的にどこにでも分布します。これは、教師が自分の生徒の試験を採点する場合に発生します。著者は、教師が生徒の試験合格を本当に支援しているかどうかを調査します。 間違いなく最も説得力のある証拠は、さまざまなテストのさまざまなカットオフの周りに大きな不連続があるベルカーブのグラフを示すことです。しかし、統計的検定をどのように作成しますか?彼らは補間を試みてから、分数の上または下の分数を比較し、カットオフの上下5ポイントの分数についてもt検定を行いました。これらは賢明ですが、アドホックです。誰かがもっと良いことを考えることができますか? リンク: 生徒と学校の評価における規則と裁量:ニューヨークリージェンツ試験の事例 http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

5
経験的データからランダムな多変量値を生成する
私は、部分的に相関関係のある収益を持ついくつかの資産を評価するためのモンテカルロ関数に取り組んでいます。現在、私は共分散行列をrmvnorm()生成し、R の関数にフィードするだけです(相関ランダム値を生成します)。 ただし、資産のリターンの分布を見ると、通常は分布していません。 これは実際には2つの部分からなる質問です 。1)既知の分布のない実際のデータがある場合に、PDFまたはCDFの種類を推定するにはどうすればよいですか? 2)rmvnormのような相関値をどのように生成できますか?しかし、この未知の(そして非正規の)分布については? ありがとう! 分布が既知の分布に適合していないようです。パラメトリックと仮定してモンテカルロ推定に使用することは非常に危険だと思います。 私が見ることができるある種のブートストラップまたは「経験的なモンテカルロ」方法はありませんか?
10 mcmc  monte-carlo  pdf 

2
カーネル密度推定におけるカーネル帯域幅
私は、N次元で、重み付けされたポイントセット(つまり、各サンプルに必要ではない重みがある)を使用して、カーネル密度推定を行っています。また、これらのサンプルはメトリック空間にあります(つまり、サンプル間の距離を定義できます)が、他には何もありません。たとえば、サンプルポイントの平均や標準偏差を決定したり、ある変数を別の変数と比較してスケーリングしたりすることはできません。カーネルは、この距離と各サンプルの重みの影響を受けるだけです。 f(x)=1.∑weightsi∗∑weightih∗Kernel(distance(x,xi)h)f(x)=1.∑weightsi∗∑weightih∗Kernel(distance(x,xi)h)f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h}) この文脈では、カーネル帯域幅ロバストな推定を見つけようとしています。空間的に変化する可能性があり、トレーニングデータセット正確に再構成することができます。必要に応じて、関数は比較的滑らかであると想定できます。hhhxixix_i 最初または2番目に近い隣人までの距離を使用してみましたが、かなり悪い結果になります。私はリーブワンアウトの最適化を試しましたが、Ndのこのコンテキストで最適化するための適切な手段を見つけるのが難しいため、特にトレーニングサンプル自体について、非常に悪い推定値を見つけます。標準偏差を計算できないため、通常の仮定に基づく貪欲な推定は使用できません。異方性カーネルを取得するために共分散行列を使用している参照を見つけましたが、繰り返しになりますが、この空間には当てはまりません... 誰かがアイデアやリファレンスを持っていますか?

3
PDF推定方法を評価する最良の方法
私が見たどのアイデアよりも優れていると思う私のアイデアのいくつかをテストしたいと思います。私は間違っている可能性がありますが、自分の考えをテストして、より確実な観察によって疑問を解消したいと思います。 私がやろうとしていることは次のとおりです: 一連の分布を分析的に定義します。これらのいくつかは、ガウス、ユニフォーム、またはトップハットのような簡単なものです。しかし、シンプソンズ分布のように、これらのいくつかは困難でやりがいのあるものでなければなりません。 それらの分析分布に基づいてソフトウェアを実装し、それらを使用していくつかのサンプルを生成します。 分布は分析的に定義されているため、私は(定義により)真のPDFをすでに知っています。これは素晴らしい。 次に、上記のサンプルに対して次のPDF推定方法をテストします。 既存のPDF推定方法(さまざまなカーネルと帯域幅を備えたKDEなど)。 自分で試してみる価値はあると思います。 次に、真のPDFに対する推定の誤差を測定します。 次に、どのPDF推定方法が良いかをよりよく理解します。 私の質問は: Q1:上記の計画に対して何か改善点はありますか? Q2:多くの真のPDFを分析的に定義するのは難しいと思います。私がここで再利用できる、さまざまな困難(非常に困難なものを含む)を持つ分析的に定義された多くの真のPDFの包括的なリストはすでにありますか?

2
ロジスティック成長データの周りのエラーの分布はどうですか?
生態学では、ロジスティック成長方程式をよく使用します。 Nt=KN0ertK+N0ert−1Nt=KN0ertK+N0ert−1 N_t = \frac{ K N_0 e^{rt} }{K + N_0 e^{rt-1}} または Nt=KN0N0+(K−N0)e−rtNt=KN0N0+(K−N0)e−rt N_t = \frac{ K N_0}{N_0 + (K -N_0)e^{-rt}} ここで、は運搬能力(到達した最大密度)、は初期密度、は成長率、は初期からの時間です。KKKN0N0N_0rrrttt の値には、ソフトな上限と下限、強い下限があり。NtNtN_t(K)(K)(K)(N0)(N0)(N_0)000 さらに、私の特定のコンテキストでは、測定は、光学密度または蛍光を使用して行われます。どちらも理論上の最大値、つまり強い上限があります。NtNtN_t したがって、周りのエラーは、おそらく有界分布によって最もよく説明されます。NtNtN_t 値が小さい場合、分布にはおそらく強い正のスキューがあり、値がKに近づくと、分布にはおそらく強い負のスキューがあります。したがって、分布にはおそらくにリンクできる形状パラメーターがあります。NtNtN_tNtNtN_tNtNtN_t 分散もとともに増加する可能性があります。NtNtN_t これはグラフィカルな例です と K<-0.8 r<-1 N0<-0.01 t<-1:10 max<-1 これはrで生成できます library(devtools) source_url("https://raw.github.com/edielivon/Useful-R-functions/master/Growth%20curves/example%20plot.R") 周りの理論的な誤差分布はどうなりますか(モデルと提供された経験的情報の両方を考慮して)?NtNtN_t この分布のパラメーターはまたは時間の値にどのように関連していますか(パラメーターを使用していた場合、モードを直接関連付けることができません(例:logis normal))。NtNtN_tNtNtN_t この分布には、実装されている密度関数がありますか?RRR これまでに探索された方向: 周りの正規性を仮定します(推定の超過につながります)NtNtN_tKKK 付近のロジット正規分布、ただし形状パラメーターのアルファとベータのフィッティングは困難Nt/maxNt/maxN_t/max ロジック周辺の正規分布Nt/maxNt/maxN_t/max
10 r  distributions  pdf  ecology 

1
カーネル密度推定器の簡単なサンプリング方法
私はJavaで単純なKernel Density Estimatorを開発しました。これは、数十ポイント(おそらく100程度まで)とガウスカーネル関数に基づいています。この実装により、任意の時点での確率分布のPDFおよびCDFが得られます。 このKDEに簡単なサンプリング方法を実装したいと思います。もちろん、KDEを構成するポイントのセットから描画するのが当然の選択ですが、KDEのポイントとは少し異なるポイントを取得できるようにしたいと思います。 これまでのところ、この問題を解決するために簡単に実装できる(数値積分や複雑な計算のための外部ライブラリに依存せずに)サンプリング手法を見つけていません。何かアドバイスは?精度や効率に関しては、特に強い要件はありません。私の主な関心事は、機能し、簡単に実装できるサンプリング機能を持つことです。ありがとう!
10 sampling  pdf  kde 

2
2つのrvの差の均一PDF
2つのiid rvの差のPDFを長方形のように見えるようにすることは可能ですか(たとえば、rvが均一な分布から取得された場合に得られる三角形の代わりに)。 つまり、jkのPDF f(ある分布から取られた2つのiid rvについて)がすべて-1 <x <1に対してf(x)= 0.5を持つことは可能ですか? 最小値が-1で最大値が1であることを除いて、jとkを取得する分布に制限はありません。 いくつかの実験の後、これは不可能かもしれないと思っています。

2
ランダム変数を独自のpdfまたはcdfにプラグインする背後にある直感的な意味は何ですか?
pdfは通常、として記述されます。小文字のxは、そのpdfを持つ確率変数Xの実現または結果として扱われます。同様に、cdfはF X(x )として記述され、P (X &lt; x )の意味を持ちます。ただし、スコア関数の定義やcdfが均一に分布しているというこの導出など、状況によっては、確率変数Xが独自のpdf / cdfにプラグインされているように見えます。そうすることで、f(x|θ)f(x|θ)f(x|\theta)xxxXXXFX(x)FX(x)F_X(x)P(X&lt;x)P(X&lt;x)P(X<x)XXX新しいランダム変数 またはZ = F X(X )。それ自体が確率変数になり、後者の場合、「解釈」F X(X )= P (X &lt; X )は私にはナンセンスのように見えるので、これをpdfまたはcdfと呼ぶことはもうできないと思います。Y= f(X| θ)Y=f(X|θ)Y=f(X|\theta)Z= Fバツ(X)Z=FX(X)Z=F_X(X)Fバツ(X)= P(X&lt; X)FX(X)=P(X&lt;X)F_X(X)=P(X<X) さらに、上記の後者の場合、「確率変数の累積分布関数は一様分布に従う」という文を理解していることを確信できません。cdfは関数であり、確率変数ではないため、分布はありません。むしろ、一様な分布を持つのは、独自の累積分布関数を表す関数を使用して変換された確率変数ですが、この変換がなぜ意味があるのか​​はわかりません。同じことがスコア関数にも当てはまります。ここでは、独自の対数尤度を表す関数にランダム変数を挿入します。 私はこれらの変換の背後にある直感的な意味を考え出そうと何週間も頭を悩ませてきましたが、行き詰まっています。どんな洞察もいただければ幸いです!

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Irwin-Hall分布をより一般的にすることはできますか?
均一な、尖った、正規のガウス分布を含む、対称性の低い尖度分布クラスを見つける必要があります。Irwin-Hall分布(標準のユニフォームの合計)はこの特性を提供しますが、非整数次数扱いません。ただし、たとえば2つの標準的なユニフォームと1つの3rdをような小さい範囲で単純に独立して合計すると、実際には任意の任意の次数(この場合はように)。しかし、CDFの実用的な閉じた式を見つけることは可能ですか?[ 0 、1 ] [ 0 、0.25 ] N = 2.25NNN[0,1][0,1][0,1][0,0.25][0,0.25][0,0.25]N=2.25N=2.25N=2.25

5
循環/定期的な時系列を平滑化する
自動車事故の時間別データがあります。予想通り、それらは一日の真ん中に高く、ラッシュアワーにピークを迎えます。ggplot2のデフォルトのgeom_densityはそれを滑らかにします 飲酒運転に関連するクラッシュのデータのサブセットは、1日の終わり(夕方と早朝)に高く、極端に高くなります。しかし、ggplot2のデフォルトのgeom_densityは、依然として右端にあります。 これについて何をしますか?目的は単に視覚化であり、堅牢な統計分析の必要はありません(ありますか?)。 x &lt;- structure(list(hour = c(14, 1, 1, 9, 2, 11, 20, 5, 22, 13, 21, 2, 22, 10, 18, 0, 2, 1, 2, 15, 20, 23, 17, 3, 3, 16, 19, 23, 3, 4, 4, 22, 2, 21, 20, 1, 19, 18, 17, 23, 23, 3, 11, …

1
上付き文字での意味は何である
尤度ベースの推論のコンテキストで、私は少し混乱しているので、関心のあるパラメーターに関するいくつかの表記を見てきました。 例えば、表記などとE θ [ S (θ )]。pθ(x)pθ(x)p_{\theta}(x)Eθ[S(θ)]Eθ[S(θ)]{\mathbb E}_{\theta}\left[S(\theta)\right] 上記の添え字表記におけるパラメーター()の意味は何ですか?言い換えれば、それをどのように読むべきでしょうか?θθ\theta 私の最初の仮定は、それが単に「パラメーター使って」を意味するということでした。例えば、用のp θ(X )、それは次のようになります。θθ\thetapθ(x)pθ(x)p_{\theta}(x) 「パラメーターθを持つの確率密度。」xxxθθ\theta しかし、これはおそらく正しくないと、一般的には、L (θが)でない分布は(すなわち、それは団結に統合されません)。したがって、それは密度ではあり得ないでしょうか?pθ(x)=L(θ)pθ(x)=L(θ)p_{\theta}(x) = L(\theta)L(θ)L(θ)L(\theta) また、の場合には、私はそれがに対する変更内容はよく分からないE [ (S (θ )](つまり添字付きθ省略します)。Eθ[S(θ)]Eθ[S(θ)]{\mathbb E}_{\theta}\left[S(\theta)\right]E[(S(θ)]E[(S(θ)]{\mathbb E}\left[(S(\theta)\right]θθ\theta 上記のとL (θ )は、それぞれスコア関数と尤度関数を表します。S(θ)S(θ)S(\theta)L(θ)L(θ)L(\theta)

2
この「現象」とは何ですか?
以下は、いくつかのデータのヒストグラムです。ビンは整数で、他のパラメーターは関係ありません。 ご覧のように、奇数と偶数の2つの別々の重複する正規分布があるようです。 偶数になる確率は1/3、奇数の場合は2/3です。 正直に言うと、これの実際の統計的有意性がわからないので、詳細を知ることさえ調べようとしていますが、何も見つけることができません。画像検索を逆にしても、マルチモーダル分布などに関する情報しか得られず、マルチモーダル分布が実際にこの方法で実際にオーバーラップする時期について何も見つからない これに名前はありますか? 興味のある人のためのデータは、MATLABスクリプトを使用した1,000,000のランダム化されたgoofspielゲーム(N = 13)からのものです。 N = 1000000; random = zeros(1,N); for i = 1 : N pc = randperm(13); p1 = randperm(13); p2 = randperm(13); random(i) = sum(pc.*sign(p1-p2)); end histogram(random,'BinMethod','integer') より一般的な(人工的なものですが)例は次のようになります a = [1:50 50:-1:1]; b = normpdf(linspace(-2,2),0,0.5).*50; c = a; rng('default') %For reproducibility d = …

2
カイ二乗確率変数の二乗の合計の分布はどのようになっていますか?
次の方程式の分布はどうなりますか: y= a2+ 2 a d+ d2y=a2+2ad+d2y = a^2 + 2ad + d^2 ここでとは、自由度を持つ独立した非中心カイ二乗確率変数です。d 2 Maaaddd2 M2M2 \textbf{M} OBS:RVの生成の両方と持っていると、のは言わせ。D μ = 0 σ 2 ≠ 1 σ 2 = Caaadddμ = 0μ=0\mu = 0σ2≠ 1σ2≠1\sigma^2 \neq 1σ2= cσ2=c\sigma^2 = c

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.