タグ付けされた質問 「kernel-smoothing」

カーネル密度推定(KDE)やNadaraya-Watsonカーネル回帰などのカーネル平滑化手法は、データポイントからの局所補間によって関数を推定します。[kernel-trick]と混同しないでください。たとえば、SVMで使用されるカーネルの場合です。

3
密度推定はどこで役立ちますか?
少し簡潔な数学を経て、カーネル密度の推定について少し直感が得られたと思います。しかし、3つを超える変数の多変量密度を推定することは、その推定量の統計的性質の観点から、良いアイデアではないかもしれないことも認識しています。 それでは、たとえば、ノンパラメトリック法を使用して、二変量密度をどのような状況で推定する必要がありますか?3つ以上の変数の推定を心配するのに十分な価値がありますか? 多変量密度の推定の適用に関するいくつかの有用なリンクを指すことができれば、それは素晴らしいことです。

1
すべての可能なペアを使用して正規混合分布を作成する密度推定法の名前は何ですか?
私はちょうど一次元の密度推定値を作成するきちんとした(必ずしも良いとは限りません)方法を考えました、私の質問は: この密度推定方法には名前がありますか?そうでない場合、それは文献の他の方法の特殊なケースですか? ここでの方法である:我々は、ベクターが有するX=[x1,x2,...,xn]X=[x1,x2,...,xn]X = [x_1,x_2,...,x_n]は、推定したい未知の分布から引き出されたと仮定します。これを行う方法は、すべての可能な値のペアを取得し、各ペアに対してを最尤法を使用して正規分布に適合させることです。結果の密度推定値は、結果のすべての法線で構成される混合分布になり、各法線には同じ重みが与えられます。XXX[xi,xj]i≠j[xi,xj]i≠j[x_i,x_j]_{i \neq j} 次の図は、ベクトルこのメソッドを使用する方法を示しています。ここで、円はデータポイント、色付きの法線は可能な各ペアを使用して推定された最尤分布、太い黒線は結果の密度推定(混合分布)を示しています。[−1.3,0.15,0.73,1.4][−1.3,0.15,0.73,1.4][-1.3,0.15,0.73,1.4] ところで、結果の混合分布からサンプルを引き出すRのメソッドを実装するのは本当に簡単です。 # Generating some "data" x <- rnorm(30) # Drawing from the density estimate using the method described above. density_estimate_sample <- replicate(9999, { pair <- sample(x, size = 2) rnorm(1, mean(pair), sd(pair)) }) # Plotting the density estimate compared with # the …

4
不確実性を組み込んだカーネル密度推定
1次元データを視覚化する場合、カーネル密度推定手法を使用して、不適切に選択されたビン幅を考慮するのが一般的です。 1次元データセットに測定の不確実性がある場合、この情報を組み込む標準的な方法はありますか? たとえば、KDEは観測のデルタ関数を使用してガウスプロファイルを畳み込みます。このガウスカーネルは各場所で共有されますが、ガウスパラメーターは測定の不確実性に合わせて変更できます。これを実行する標準的な方法はありますか?広いカーネルで不確実な値を反映したいと思っています。σσ\sigma 私はこれを単にPythonで実装しましたが、これを実行するための標準的なメソッドや関数を知りません。この手法に問題はありますか?奇妙な見た目のグラフが得られることに注意してください!例えば この場合、KDEは低い値(および不確実な値)に過剰な重みを付けますが、低い値はより大きな不確実性を持つため、広く平坦なカーネルを提供する傾向があります。

1
確率の比率とPDFの比率
クラスタリングの問題を解決するためにベイズを使用しています。いくつかの計算を行った後、2つの確率の比率を取得する必要があります。 P(A)/P(B)P(A)/P(B)P(A)/P(B) を取得できるようにします。これらの確率は、この回答で説明されているように、2つの異なる2D多変量KDEの統合によって得られます。P(H|D)P(H|D)P(H|D) P(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy ここで、f^(x,y)f^(x,y)\hat{f}(x, y)およびg^(x,y)g^(x,y)\hat{g}(x, y)はKDEであり、しきい値f^(ra,sa)f^(ra,sa)\hat{f}(r_a, s_a)およびg^(rb,sb)g^(rb,sb)\hat{g}(r_b, s_b)。両方のKDEはガウスカーネルを使用します。私が作業しているものに似たKDEの代表的な画像をここで見ることができます:2Dでのカーネル密度推定量の統合。 python関数stats.gaussian_kdeを使用してKDEを計算するため、次の一般的な形式を想定しています。 KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}} ここnで、ポイントの配列の長さとh使用される帯域幅です。 上記の積分は、モンテカルロプロセスを適用して計算されますが、これは非常に計算コストがかかります。このようなケースでは、確率の比率をしきい値ポイントで評価されたPDF(KDE)の比率で置き換えて、同等の有効な結果を得ることができることをどこかで読みました(場所を忘れてしまった、申し訳ありません)。KDEs比の計算は、MCとの積分比の計算よりも桁違いに速いため、これに興味があります。 したがって、問題はこの式の妥当性に限定されます。 P(A)P(B)=f^(ra,sa)g^(rb,sb)P(A)P(B)=f^(ra,sa)g^(rb,sb)\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)} どのような状況下で、もしあれば、この関係が真実であると言えますか? [誤字修正(編集)] 追加: …

2
カーネル密度推定器を2Dに統合する
誰かがトレイルをたどりたい場合に備えて、私はこの質問から来ています。 基本的に、N個のオブジェクトで構成されたデータセットがあり、各オブジェクトには特定の数の測定値(この場合は2つ)が付加されています。ΩΩ\OmegaNNN Ω = o1[ x1、y1] 、o2[ x2、y2] 、。。。、oN[ xN、yN]Ω=o1[バツ1、y1]、o2[バツ2、y2]、。。。、oN[バツN、yN]\Omega = o_1[x_1, y_1], o_2[x_2, y_2], ..., o_N[x_N, y_N] Iは、確率を決定する方法が必要新しいオブジェクトに属するΩを私はその質問に助言されたように、確率密度得るためにFをp [ xp、yp]p[バツp、yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f}私は私が既に持っていると信じてカーネル密度推定スルーを、 。 私の目標は、この新しいオブジェクトの確率(得ることであるので、設定されたこの2次元データへの帰属)Ωを、私はPDFファイルに統合するように言われたFを "上のサポートの値はその密度のためにあなたが観察したものよりも少ない」。"観察"密度は、fは、新しいオブジェクトで評価P、すなわち:F(XはP、Y P)。だから私は方程式を解く必要があります:p [ xp、yp]p[バツp、yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f}f^f^\hat{f}pppf^(xp、yp)f^(バツp、yp)\hat{f}(x_p, y_p) ∬x 、y:f^(x 、y)&lt; f^(xp、yp)f^(x 、y)dバツdy∬バツ、y:f^(バツ、y)&lt;f^(バツp、yp)f^(バツ、y)dバツdy\iint_{x, y:\hat{f}(x, y) < \hat{f}(x_p, y_p)} \hat{f}(x,y)\,dx\,dy 2DデータセットのPDF(pythonのstats.gaussian_kdeから取得)モジュール)は次のようになります。 ここで、赤い点は新しいオブジェクトp [ x p、y p ]を表しますp [ xp、yp]p[バツp、yp]p[x_p, …

1
モードの信頼区間を計算していますか?
モード(一般的に)の信頼区間の計算に関するリファレンスを探しています。ブートストラップは自然な最初の選択のように思えるかもしれませんが、Romano(1988)によって説明されているように、標準のブートストラップはモードに対して失敗し、単純なソリューションを提供しません。このペーパー以降、何か変更はありましたか?モードの信頼区間を計算する最良の方法は何ですか?ブートストラップベースの最良のアプローチは何ですか?関連する参照を提供できますか? ロマーノ、JP(1988)。モードのブートストラップ。Institute of Statistical Mathematics、40(3)、565-586。

1
最初のk(経験的)モーメントを使用して、近似PDF(つまり、密度推定)をフィットさせる方法は?
データセットの(最初の)モーメントを推定できる状況があり、それを使用して密度関数の推定を生成したいと考えています。kkk 私はすでにピアソン分布に出くわしましたが、それが最初の4つのモーメントのみに依存していることを認識しました(モーメントの可能な組み合わせにいくつかの制限があります)。 さらに、仮定を使用しない場合、有限のモーメントセットは特定の分布を「固定」するのに十分ではないことも理解しています。ただし、(ピアソンファミリーのディストリビューション以外の)より一般的なクラスのディストリビューションを希望します。他の質問を見て、私はそのような分布を見つけることができませんでした(参照:ここ、ここ、ここ、ここ、ここ、ここ、およびここ)。 モーメントの任意のセットに対して定義できるいくつかの(「単純な」)一般化された分布ファミリーはありますか?(標準の正規分布を取り、モーメントのすべてのセットで確認されるまで変換する一連の変換)kkkkkkk (他のモーメントが0であると仮定しても、あまり気にしません)k+1…∞k+1…∞k+1\ldots\infty ありがとう。 ps:私は、拡張された例を喜んでいます。Rコードの例が望ましい。

1
地理座標からカーネル密度推定を計算する適切な方法は何ですか?
緯度と経度の座標のリストから2Dカーネル密度推定(kde)を計算する必要があります。しかし、緯度の1度は経度の1度と同じ距離ではありません。これは、個々の核が楕円形になることを意味します。特に、赤道から離れているほどポイントが大きくなります。 私の場合、ポイントはすべて互いに非常に接近しているため、それらを平らな地球に変換しても多くの問題は発生しません。ただし、これが正しくなかった場合に、これを適切に処理する方法については、まだ知りたいと思っています。

4
カーネル密度推定からランダムに値を取得するにはどうすればよいですか?
いくつかの観察結果があり、これらの観察結果に基づいてサンプリングを模倣したいと思います。ここでは、ノンパラメトリックモデルについて検討します。具体的には、カーネル平滑化を使用して、制限された観測からCDFを推定します。次に、取得したCDFからランダムに値を描画します。以下は私のコードです(アイデアは累積的にランダムに取得することです)均一分布を使用した確率、および確率値に関してCDFの逆数をとります) x = [randn(100, 1); rand(100, 1)+4; rand(100, 1)+8]; [f, xi] = ksdensity(x, 'Function', 'cdf', 'NUmPoints', 300); cdf = [xi', f']; nbsamp = 100; rndval = zeros(nbsamp, 1); for i = 1:nbsamp p = rand; [~, idx] = sort(abs(cdf(:, 2) - p)); rndval(i, 1) = cdf(idx(1), 1); end figure(1); hist(x, …

2
非対称分布のカーネル密度推定
ましょう不明(確かに非対称)確率分布から引き出される観測。{ x1、… 、xN}{バツ1、…、バツN}\{x_1,\ldots,x_N\} 私はKDEのアプローチを使用して確率分布を見つけたい ただし、ガウスカーネルを使用しようとしましたが、対称であるため、パフォーマンスが低下しました。したがって、ガンマカーネルとベータカーネルに関するいくつかの作業がリリースされたことがわかりましたが、それらの操作方法はわかりませんでした。f^(x )= 1NhΣi = 1NK( x − x私h)f^(バツ)=1NhΣ私=1NK(バツ−バツ私h) \hat{f}(x) = \frac{1}{Nh}\sum_{i=1}^{N} K\bigl(\frac{x-x_i}{h}\bigr) 私の質問は次のとおりです。基礎となる分布のサポートが区間でないとすると、この非対称のケースを処理する方法を?[ 0 、1 ][0、1][0,1]

4
Rでカーネル幅を変更する効果をアニメーション化する
Rにいくつかのデータがあり、リストに格納されています。考える d &lt;- c(1,2,3,4) これは私のデータではありませんが。次にコマンドを入力した場合 plot(density(d, kernel="gaussian", width=1)) 次に、カーネルが標準正規であるカーネル確率密度推定値を取得します。1を他の数字に置き換えると、もちろん画像が変わります。 私がやりたいことは、各フレームがそのようなプロットであるビデオまたはアニメーションを作成することですが、カーネルの帯域幅はフレームごとに異なり、それによって帯域幅の変更の効果を示しています。これどうやってするの? (これがRについて質問するのに適切な場所でない場合は、申し訳ありません。)

2
カーネル密度推定におけるカーネル帯域幅
私は、N次元で、重み付けされたポイントセット(つまり、各サンプルに必要ではない重みがある)を使用して、カーネル密度推定を行っています。また、これらのサンプルはメトリック空間にあります(つまり、サンプル間の距離を定義できます)が、他には何もありません。たとえば、サンプルポイントの平均や標準偏差を決定したり、ある変数を別の変数と比較してスケーリングしたりすることはできません。カーネルは、この距離と各サンプルの重みの影響を受けるだけです。 f(x)=1.∑weightsi∗∑weightih∗Kernel(distance(x,xi)h)f(x)=1.∑weightsi∗∑weightih∗Kernel(distance(x,xi)h)f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h}) この文脈では、カーネル帯域幅ロバストな推定を見つけようとしています。空間的に変化する可能性があり、トレーニングデータセット正確に再構成することができます。必要に応じて、関数は比較的滑らかであると想定できます。hhhxixix_i 最初または2番目に近い隣人までの距離を使用してみましたが、かなり悪い結果になります。私はリーブワンアウトの最適化を試しましたが、Ndのこのコンテキストで最適化するための適切な手段を見つけるのが難しいため、特にトレーニングサンプル自体について、非常に悪い推定値を見つけます。標準偏差を計算できないため、通常の仮定に基づく貪欲な推定は使用できません。異方性カーネルを取得するために共分散行列を使用している参照を見つけましたが、繰り返しになりますが、この空間には当てはまりません... 誰かがアイデアやリファレンスを持っていますか?

1
ランダムフーリエの特徴が負ではないのはなぜですか?
ランダムフーリエ機能は、カーネル関数の近似を提供します。これらは、SVMやガウスプロセスなど、さまざまなカーネルメソッドに使用されます。 今日、TensorFlow実装を使用してみましたが、機能の半分で負の値が得られました。私の理解では、これは起こらないはずです。 それで、私は元の論文に戻りました。これは、期待したとおり、機能は[0,1]にあるはずだと述べています。しかし、その説明(以下で強調表示)は私には意味がありません。余弦関数は[-1,1]のどこでも値を生成でき、表示されるほとんどの点には負の余弦値があります。 私はおそらく明白なものを見落としているでしょうが、誰かがそれが何であるかを指摘することができればそれを感謝します。

3
PDF推定方法を評価する最良の方法
私が見たどのアイデアよりも優れていると思う私のアイデアのいくつかをテストしたいと思います。私は間違っている可能性がありますが、自分の考えをテストして、より確実な観察によって疑問を解消したいと思います。 私がやろうとしていることは次のとおりです: 一連の分布を分析的に定義します。これらのいくつかは、ガウス、ユニフォーム、またはトップハットのような簡単なものです。しかし、シンプソンズ分布のように、これらのいくつかは困難でやりがいのあるものでなければなりません。 それらの分析分布に基づいてソフトウェアを実装し、それらを使用していくつかのサンプルを生成します。 分布は分析的に定義されているため、私は(定義により)真のPDFをすでに知っています。これは素晴らしい。 次に、上記のサンプルに対して次のPDF推定方法をテストします。 既存のPDF推定方法(さまざまなカーネルと帯域幅を備えたKDEなど)。 自分で試してみる価値はあると思います。 次に、真のPDFに対する推定の誤差を測定します。 次に、どのPDF推定方法が良いかをよりよく理解します。 私の質問は: Q1:上記の計画に対して何か改善点はありますか? Q2:多くの真のPDFを分析的に定義するのは難しいと思います。私がここで再利用できる、さまざまな困難(非常に困難なものを含む)を持つ分析的に定義された多くの真のPDFの包括的なリストはすでにありますか?

2
パラメトリック推定に対するカーネル密度推定の利点
パラメトリック推定よりもカーネル密度推定を選択する特別な理由はありますか?私は自分のデータに分布を合わせる方法を学んでいました。この質問が私に来ました。 私のデータサイズは比較的大きく、7500データポイントです。オートクレーム。私の目標は、分布(ノンパラメトリックまたはパラメトリック)に適合させることです。次に、それを使用して自動請求データをシミュレートし、VaRまたはTVaRを計算します。 ログを使用してデータを変換し、比較的正常にした。正規、対数正規、ガンマ、tなどを含む多くの分布をフィッティングしました。AICと対数尤度を使用して、最適なフィッティングを特定しました。しかし、このフィッティングはすべてKSテストに合格しませんでした(p値はe-10で非常に小さい)。 そのため、どのような状況でKDEに切り替えるべきかを尋ねました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.