タグ付けされた質問 「kernel-smoothing」

カーネル密度推定(KDE)やNadaraya-Watsonカーネル回帰などのカーネル平滑化手法は、データポイントからの局所補間によって関数を推定します。[kernel-trick]と混同しないでください。たとえば、SVMで使用されるカーネルの場合です。


4
Rの非負変数の密度プロットの良い方法は?
plot(density(rexp(100)) 明らかに、ゼロの左側のすべての密度はバイアスを表します。 私は非統計学者のためにいくつかのデータを要約したいと思っています。そして、非負データがゼロの左側の密度を持っている理由についての質問を避けたいです。プロットはランダム化チェック用です。治療グループと対照グループごとの変数の分布を示したい。分布はしばしば指数関数的です。ヒストグラムにはさまざまな理由で注意が必要です。 グーグルで簡単に検索すると、非負のカーネルに関する統計学者の研究が得られます。 例: this しかし、Rに実装されているものはありますか?実装されたメソッドのうち、記述統計に関して何らかの方法で「最良」のメソッドはありますか? 編集:fromコマンドが現在の問題を解決できる場合でも、非負の密度推定に関する文献に基づいて誰かがカーネルを実装しているかどうかを知ることは素晴らしいことです

2
カーネル密度推定量の帯域幅の選択
単変量カーネル密度推定量(KDE)の場合、Silvermanのルールを使用してを計算します。hhh 0.9 分(s d、私Q R / 1.34 )× n− 0.20.9分(sd、私QR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} 多変量KDEの標準ルールは何ですか(通常のカーネルを想定)。

1
「カーネル密度推定」は、何の畳み込みですか?
カーネル密度推定の理解を深めようとしています。 ウィキペディアの定義を使用:https : //en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) レッツテイク矩形与える関数であるた場合間にあるととさもなければ、及び 1であると(ウィンドウサイズ)。K()K()K()111xxx−0.5−0.5-0.50.50.50.5000hhh 密度は2つの関数の畳み込みであることは理解していますが、これら2つの関数を定義する方法がわかりません。それらの1つは(おそらく)データの関数であり、Rのすべてのポイントに対して、その場所にあるデータポイントの数(ほとんど)を示します。そして、他の関数は、おそらくウィンドウサイズと組み合わされたカーネル関数の何らかの修正であるはずです。しかし、それをどのように定義するのか分かりません。000 助言がありますか? Bellowは、(私が疑う)上記で定義した設定を(2つのガウスと混合で)複製するRコードの例であり、その上で、畳み込まれる関数が疑わしいという「証明」を見たい。n=100n=100n=100 # example code: set.seed(2346639) x <- c(rnorm(50), rnorm(50,2)) plot(density(x, kernel='rectangular', width=1, n = 10**4)) rug(x)

2
素人の言葉でParzenウィンドウ(カーネル)密度推定を説明できますか?
Parzenウィンドウ密度の推定は次のように記述されます。 p(x)=1n∑i=1n1h2ϕ(xi−xh)p(x)=1n∑i=1n1h2ϕ(xi−xh) p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right) ここで、ベクトルの要素数であり、ベクトルであり、確率密度であり、パルゼンウィンドウの寸法であり、窓関数です。x p (x )x h ϕnnnxxxp(x)p(x)p(x)xxxhhhϕϕ\phi 私の質問は: Parzenウィンドウ関数とガウス関数などの他の密度関数の基本的な違いは何ですか? の密度を見つける際のウィンドウ関数()の役割は何ですか?xϕϕ\phixxx ウィンドウ関数の代わりに他の密度関数をプラグインできるのはなぜですか? の密度を見つける際のの役割は何ですか?xhhhxxx

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
カーネル密度推定を行うときにエパネニコニコフカーネルが理論的に最適である場合、なぜより一般的に使用されないのですか?
カーネル密度の推定を行う場合、少なくとも理論的な意味では、Epanechnikovカーネルが最適であることを(たとえば、ここで)読みました。これが本当なら、なぜガウス分布は密度推定ライブラリでデフォルトのカーネル、または多くの場合唯一のカーネルとして頻繁に表示されるのですか?

2
可変カーネル幅がカーネル回帰に適している場合が多いのに、一般的にカーネル密度の推定に適さないのはなぜですか?
この質問は他の場所での議論によって促されます。 可変カーネルは、ローカル回帰でよく使用されます。たとえば、黄土は広く使用されており、回帰スムーザーとして機能し、データのスパース性に適応する可変幅のカーネルに基づいています。 一方、変数カーネルは通常、カーネル密度推定の推定量が不十分になると考えられています(Terrell and Scott、1992を参照)。 密度推定ではなく回帰ではうまく機能するという直感的な理由はありますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Rのカーネル密度推定の「pdf」の下の領域
Rの「密度」関数を使用してカーネル密度の推定を試みています。結果を解釈してさまざまなデータセットを比較するのは、曲線下の面積が必ずしも1であるとは限らないため、多少困難です。確率密度関数(pdf) には、面積。カーネル密度の推定値がpdfを報告すると仮定しています。私が使用していますintegrate.xyからsfsmisc曲線下面積を推定します。ϕ(x)ϕ(x)\phi(x)∫∞−∞ϕ(x)dx=1∫−∞∞ϕ(x)dx=1\int_{-\infty}^\infty \phi(x) dx = 1 > # generate some data > xx<-rnorm(10000) > # get density > xy <- density(xx) > # plot it > plot(xy) > # load the library > library(sfsmisc) > integrate.xy(xy$x,xy$y) [1] 1.000978 > # fair enough, area close to 1 > # use another …

3
経験的確率密度間の重複を計算する方法は?
2つのサンプル間の類似性の尺度として、Rの2つのカーネル密度推定値間のオーバーラップ領域を計算する方法を探しています。明確にするために、次の例では、紫がかった重複領域の面積を定量化する必要があります。 library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA) 同様の質問がここで議論されました。違いは、事前定義された正規分布ではなく、任意の経験的データに対してこれを行う必要があることです。overlapパッケージアドレスこの質問が、どうやら私だけのために動作しないタイムスタンプデータ、のために。Bray-Curtisインデックス(veganパッケージのvegdist(method="bray")関数に実装されている)も関連しているように見えますが、やはりデータが多少異なります。 理論的なアプローチと、それを実装するために使用する可能性のあるR関数の両方に興味があります。


1
導関数のカーネル密度推定量に最適な帯域幅はありますか?
カーネル密度推定器を使用して、一連の観測に基づいて密度関数を推定する必要があります。同じ観測セットに基づいて、カーネル密度推定器の導関数を使用して密度の1次および2次導関数を推定する必要もあります。帯域幅は確かに最終結果に大きな影響を与えます。 まず、KDE帯域幅を提供するR関数がいくつかあることを知っています。どちらがより好ましいかわかりません。誰もがKDE帯域幅のためにこれらのR関数の1つを推奨できますか? 第二に、KDEの導関数について、同じ帯域幅を選択する必要がありますか?

1
カーネル帯域幅:スコットのルールとシルバーマンのルール
帯域幅の選択に関するスコットの経験則とシルバーマンの経験則の違いは、誰でもわかりやすい英語で説明できますか?具体的には、一方が他方より優れているのはいつですか?基礎となるディストリビューションに関連していますか?サンプル数? PS私はSciPyのコードを参照しています。

1
長期分散とは何ですか?
時系列分析の分野での長期分散はどのように定義されますか? データに相関構造がある場合に利用されることを理解しています。したがって、確率過程はX1,X2…X1,X2…X_1, X_2 \dots iidのランダム変数のファミリーではなく、同じようにのみ分布していますか? 概念の概観とその推定に伴う困難について、標準的な参考資料を入手できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.