タグ付けされた質問 「kernel-smoothing」

カーネル密度推定(KDE)やNadaraya-Watsonカーネル回帰などのカーネル平滑化手法は、データポイントからの局所補間によって関数を推定します。[kernel-trick]と混同しないでください。たとえば、SVMで使用されるカーネルの場合です。

2
カーネル回帰はガウスプロセス回帰に似ていますか?
以前は、データを平滑化するためにNadaraya-Watsonカーネル回帰を使用しました。最近、ガウスプロセス回帰に遭遇しました。 一応、彼らは関連していないようです。しかし、私が知らないもっと深いつながりがあるのではないかと思っています。Nadaraya-Watsonカーネル回帰はGPRの特別なケースですか?

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
多次元カーネル密度推定の効率的な評価
カーネル密度の見積もりを計算するときにカーネルと帯域幅を選択する方法については、かなりの量の文献を見てきましたが、現在、任意の数のポイントで結果のKDE を評価するのにかかる時間を改善する方法に興味があります。 私の場合、私は対角共分散の多次元(2Dまたは3D)ガウスカーネルを使用しています(つまり、各次元は独立しています)。各次元の帯域幅は異なる場合があり、最近傍を使用して選択されます。ただし、私の質問はおそらく、異なるカーネルと帯域幅の選択方法に及んでいます。 のは、私が持っていると言うデータポイントとの結果としてKDEを評価したいNの格子点を。単純な実装では、多変量正規確率密度関数をM N回評価します。私の目的では、MとNはどちらも数千程度であり、評価が私のコードのボトルネックになっています。MMMNNNMNMNMNMMMNNN この基本的な方法に一般に受け入れられている改善があるかどうかは知りません。複雑さをO (M N )からO (M + N )に減らすと主張するこの論文を見つけました。ただし、このメソッドは、私が知っている「標準の」RまたはPythonライブラリには実装されていません。これは、まだ広く採用されていないことを示唆していますか?O (MN)O(MN)O(MN)O (M+ N)O(M+N)O(M+N) あなたが与えることができるすべてのポインタをありがとう。

5
循環/定期的な時系列を平滑化する
自動車事故の時間別データがあります。予想通り、それらは一日の真ん中に高く、ラッシュアワーにピークを迎えます。ggplot2のデフォルトのgeom_densityはそれを滑らかにします 飲酒運転に関連するクラッシュのデータのサブセットは、1日の終わり(夕方と早朝)に高く、極端に高くなります。しかし、ggplot2のデフォルトのgeom_densityは、依然として右端にあります。 これについて何をしますか?目的は単に視覚化であり、堅牢な統計分析の必要はありません(ありますか?)。 x <- structure(list(hour = c(14, 1, 1, 9, 2, 11, 20, 5, 22, 13, 21, 2, 22, 10, 18, 0, 2, 1, 2, 15, 20, 23, 17, 3, 3, 16, 19, 23, 3, 4, 4, 22, 2, 21, 20, 1, 19, 18, 17, 23, 23, 3, 11, …

2
Silverman(1981)は「クリティカル帯域幅」によって何を意味しましたか?
Kernel Density Estimatorの帯域幅の選択において、私の理解による重要な帯域幅は次のとおりです。 「すべての整数kについて、カーネル密度の推定値が最大でk最大になるような1<k<n最小幅を見つけることができますh(k)。Silvermanはこれらのh(k)値を「クリティカル幅」と呼びます。 私はこの概念を直感的に理解していません。任意の助けいただければ幸いです。 ありがとうございました!

1
コサインカーネルはベータ分布の場合と理解できますか?
Wand and Jones(1995)が述べたように、ほとんどの標準カーネルは、 K(x;p)={22p+1B(p+1,p+1)}−1(1−x2)p1{|x|&lt;1}K(x;p)={22p+1B(p+1,p+1)}−1(1−x2)p1{|x|&lt;1} K(x;p) = \{ 2^{2p+1} \; \mathrm{B}(p+1,p+1) \}^{-1} \; (1-x^2)^p \;\boldsymbol{1}_{\{|x|<1\}} ここで、B(⋅,⋅)B(⋅,⋅)\mathrm{B}(\cdot,\cdot)はベータ関数です。pの異なる値はppp、長方形(p=0p=0p=0)、エパネチニコフ(p=1p=1p=1)、バイウェイト(p=2p=2p=2)、およびトライウェイト(p=3p=3p=3)カーネルにつながります。 余弦カーネル(R density関数で理解できる) 12(1+cos(πx))1{|x|&lt;1}12(1+cos⁡(πx))1{|x|&lt;1} \frac{1}{2} (1 + \cos(\pi x)) \;\boldsymbol{1}_{\{|x|<1\}} この家族の一員としても考えられますか?もしそうなら、それのためのpの適切な値は何pppですか?いくつかのシミュレーションを実行した後、≈2.35≈2.35\approx 2.35はかなり近いと思いますが、(方法)シミュレーションなしで適切なものを見つけるにはどうすればよいですか?そうでない場合、ベータ分布を使用して概算できますか? ワンド、MPおよびジョーンズ、MC(1995)。 カーネル平滑化。 チャップマンとホール、ロンドン。

1
Epanechnikovカーネルによるnpパッケージカーネル密度推定
私はMASSパッケージの「間欠泉」データセットを使用して、npパッケージのカーネル密度推定値を比較しています。 私の問題は、最小二乗交差検証とEpanechnikovカーネルを使用して密度推定を理解することです。 blep&lt;-npudensbw(~geyser$waiting,bwmethod="cv.ls",ckertype="epanechnikov") plot(npudens(bws=blep)) ガウスカーネルの場合は問題ないようです。 blga&lt;-npudensbw(~geyser$waiting,bwmethod="cv.ls",ckertype="gaussian") plot(npudens(bws=blga)) または、Epanechnikovカーネルと最尤CVを使用する場合: bmax&lt;-npudensbw(~geyser$waiting,bwmethod="cv.ml",ckertype="epanechnikov") plot(npudens(~geyser$waiting,bws=bmax)) それは私のせいですか、それともパッケージの問題ですか? 編集:Epanechnikovカーネルと最小二乗cvにMathematicaを使用すると、動作します: d = SmoothKernelDistribution[data, bw = "LeastSquaresCrossValidation", ker = "Epanechnikov"] Plot[{PDF[d, x], {x, 20,110}]

2
カーネル密度推定からのシミュレーション(経験的PDF)
グローバル帯域幅カーネル密度推定器(動的混合モデルを含むパラメトリックモデルは適切に適合しないことが判明しました)によって最適にモデル化された観測ベクトルがXありN=900ます。 さて、このKDEからシミュレーションしたいと思います。これはブートストラップによって実現できることを知っています。 Rでは、すべてがこの単純なコード行(ほぼ疑似コード)にx.sim = mean(X) + { sample(X, replace = TRUE) - mean(X) + bw * rnorm(N) } / sqrt{ 1 + bw^2 * varkern/var(X) }帰着します。ここで、分散補正付きの平滑化されたブートストラップが実装され、varkern選択されたカーネル関数の分散です(たとえば、ガウスカーネルの場合は1 )。 500回の繰り返しで得られるのは次のとおりです。 それは機能しますが、観測値のシャッフル(ノイズを追加したもの)が確率分布からのシミュレーションと同じであることを理解するのに苦労していますか?(分布はここではKDEです)、標準のモンテカルロと同様です。さらに、ブートストラップはKDEからシミュレーションする唯一の方法ですか? 編集:分散補正付きの平滑化されたブートストラップの詳細については、以下の私の回答を参照してください。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

2
カーネル密度チャートを説明する
線形モデルでシミュレーションを実行しています。1000の結果が得られ、結果は密度チャートに入れられます。私はx軸が従属変数であり、y軸がカーネル密度を表すことを理解しています。Y軸は0から0.15のような10進数です。これを他のユーザーに説明するにはどうすればよいですか?シミュレーションされた値がx1とx2の間に入る確率は15%ですか? これは私のシミュレーション出力です: summary(s) Model: ls Number of simulations: 1000 Values of X (Intercept) Volume 1 1 1699992 attr(,"assign") [1] 0 1 Expected Values: E(Y|X) mean sd 50% 2.5% 97.5% 1 12.305 2.638 12.231 7.03 17.512

1
カーネル密度推定器のバイアス(定期的なケース)
カーネル密度推定量は次式で与えられる F(X 、H )= 1X1、。。。Xn iid、密度は不明、f、h-帯域幅、f^(x 、h )= 1n 時間Σi = 1んK(x − X私h)f^(x,h)=1nh∑i=1nK(x−Xih)\hat{f}(x,h)=\frac{1}{nh}\sum_{i=1}^{n}K(\frac{x-X_{i}}{h})バツ1、。。。バツんX1,...XnX_1,...X_nfffhhh KKK -カーネル関数( ∫∞- ∞K(x )dx = 1∫−∞∞K(x)dx=1\int_{-\infty}^{\infty}K(x)dx=1、 ∫∞- ∞K(x )x dx = 0∫−∞∞K(x)xdx=0\int_{-\infty}^{\infty}K(x)xdx=0、 ∫∞- ∞K(x )x2dx &lt; ∞∫−∞∞K(x)x2dx&lt;∞\int_{-\infty}^{\infty}K(x)x^2dx<\infty)。バイアスは、テイラー展開を用いて計算することができる。 ∫∞- ∞1hK(x − yh)f(y)dy− f(x )= ∫∞- ∞K(y)(f(x − h y)− f(x )) dy∫−∞∞1hK(x−yh)f(y)dy−f(x)=∫−∞∞K(y)(f(x−hy)−f(x))dy\int_{-\infty}^{\infty}\frac{1}{h}K(\frac{x-y}{h})f(y)dy-f(x)=\int_{-\infty}^{\infty}K(y)\left(f(x-hy)-f(x)\right)dy = ∫∞- ∞K(y)(f』(x )h …

2
打ち切られた分布による密度推定?
左側が切り捨てられているデータがあります。私はそれを平滑化しようとするのではなく、何らかの方法で処理する密度推定に適合させたいと思います。 これに対処できる既知の方法(通常、Rで) サンプルコード: set.seed(1341) x &lt;- c(runif(30, 0, 0.01), rnorm(100,3)) hist(x, br = 10, freq = F) lines(density(x), col = 3, lwd = 3) ありがとう:)

2
なぜ治療コーディングはランダムな傾きと切片の間の相関をもたらすのですか?
実験的処理変数に2つのレベル(条件)がある被験者内および項目内の要因計画を考えます。をm1最大モデルとm2非ランダム相関モデルにします。 m1: y ~ condition + (condition|subject) + (condition|item) m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item) Dale Barr はこの状況について次のように述べています。 編集(2018年4月20日):Jake Westfallが指摘したように、次のステートメントはこの Webサイトの図1および2に示されているデータセットのみを参照しているようです。ただし、基調講演は変わりません。 偏差コーディング表現(条件:-0.5 vs. 0.5)m2では、被験者のランダムな切片が被験者のランダムな傾きと無相関である分布が可能です。最大モデルのみm1が、2つが相関している分布を許可します。 治療コーディング表現(条件:0対1)では、被験者のランダム切片が被験者のランダムな傾きと無相関であるこれらの分布は、無作為相関モデルを使用してフィッティングできません。治療コード表現における勾配と切片。 なぜ治療コーディングは 常に ランダムな傾きと切片の間に相関関係が生じますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.