タグ付けされた質問 「smoothing」

スプラインやカーネルスムーザーなどのデータ分析におけるスムージング手法は、ロウレスなどの回帰スムーザーでもあります。

3
時系列でピアソン相関を正しく使用する方法
2つの時系列(両方とも滑らか)があるので、相互相関を調べて、それらの相関関係を確認します。 ピアソン相関係数を使用するつもりです。これは適切ですか? 2番目の質問は、2つの時系列を好きなようにサンプリングできることです。つまり、データポイントの数を選択できます。これは、出力される相関係数に影響しますか?これを説明する必要がありますか? 説明のため option(i) [1, 4, 7, 10] & [6, 9, 6, 9, 6] option(ii) [1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

2
カーネル密度推定量の帯域幅の選択
単変量カーネル密度推定量(KDE)の場合、Silvermanのルールを使用してを計算します。hhh 0.9 分(s d、私Q R / 1.34 )× n− 0.20.9分(sd、私QR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} 多変量KDEの標準ルールは何ですか(通常のカーネルを想定)。

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
スムージング-使用する場合と使用しない場合
William Briggsのブログにはかなり古い記事があり、データを平滑化し、その平滑化されたデータを分析に落とし込む落とし穴を調べています。キー引数は次のとおりです。 狂気の瞬間に、スムーズな時系列データを実行し、それを他の分析への入力として使用すると、自分をだます確率が劇的に増加します!これは、スムージングがスプリアス信号を誘発するためです。これは、他の分析方法では本物に見える信号です。どんなに最終結果を確信していても! しかし、私はいつスムーズにすべきか、そうでないべきかについて包括的な議論を見つけるのに苦労しています。 その平滑化されたデータを他の分析への入力として使用する場合にのみ平滑化することに眉をひそめていますか、または平滑化が推奨されない他の状況がありますか?逆に、平滑化が推奨される状況はありますか?

2
可変カーネル幅がカーネル回帰に適している場合が多いのに、一般的にカーネル密度の推定に適さないのはなぜですか?
この質問は他の場所での議論によって促されます。 可変カーネルは、ローカル回帰でよく使用されます。たとえば、黄土は広く使用されており、回帰スムーザーとして機能し、データのスパース性に適応する可変幅のカーネルに基づいています。 一方、変数カーネルは通常、カーネル密度推定の推定量が不十分になると考えられています(Terrell and Scott、1992を参照)。 密度推定ではなく回帰ではうまく機能するという直感的な理由はありますか?

3
Kneser-Neyスムージングでは、見えない単語はどのように処理されますか?
私が見たものから、(二次)Kneser-Ney平滑化式は何らかの形で次のように与えられます P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} 正規化係数次のように与えられますλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} および単語w_nの継続確率Pcont(wn)Pcont(wn)P_{cont}(w_n)wnwnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} ここで、N1+(∙w)N1+(∙w)N_{1+}\left(\bullet w\right)は、コンテキストwの数www、または単純に、特定の単語wの前にある個別の単語\ bulletの数です。私が理解したことから、式は再帰的に適用できます。∙∙\bulletwww 現在、これはさまざまなnグラム長の未知のコンテキストで既知の単語を適切に処理しますが、説明されていないのは、辞書にない単語がある場合の対処方法です。ユニグラムの再帰ステップでP_ {cont}(/)= P ^ 0_ {KN}(/)= \ …

2
データを平滑化し、単調性を強制する方法
平滑化されたポイントが単調に減少するように、平滑化するデータがいくつかあります。私のデータは急激に減少し、その後横ばいになり始めます。Rを使用した例を次に示します df <- data.frame(x=1:10, y=c(100,41,22,10,6,7,2,1,3,1)) ggplot(df, aes(x=x, y=y))+geom_line() 使用できる優れた平滑化手法は何ですか?また、最初の平滑化されたポイントを強制的に観測ポイントに近づけることができればいいと思います。

1
mgcv GAMモデルで平滑化を調整する方法
mgcv:gamモデルで平滑化パラメーターを制御する方法を見つけようとしています。 主に固定グリッド上のxおよびy座標の関数としてモデル化しようとしている二項変数に加えて、より小さな影響を持つ他のいくつかの変数があります。過去に、パッケージlocfitと(x、y)値のみを使用して、かなり良いローカル回帰モデルを構築しました。 ただし、他の変数をモデルに組み込んでみて、一般化された加算モデル(GAM)が良い可能性であるように見えました。両方ともGAM機能を持つパッケージgamとmgcvを調べた後、後者を選択しました。メーリングリストスレッドの多くのコメントが推奨しているようです。欠点の1つは、lessやlocfitのようなローカル回帰スムーザーをサポートしていないように見えることです。 はじめに、ちょうど(x、y)座標を使用して、おおよそlocfitモデルを複製しようとしただけです。通常の平滑化とテンソル積平滑化の両方を試しました。 my.gam.te <- gam(z ~ te(x, y), family=binomial(logit), data=my.data, scale = -1) my.gam.s <- gam(z ~ s(x, y), family=binomial(logit), data=my.data, scale = -1) ただし、モデルからの予測をプロットすると、locfitモデルに比べてはるかに滑らかになります。だから、私はモデルをあまり滑らかにしないように調整しようとしています。パラメーターspおよびkを調整しようとしましたが、それらがスムージングにどのように影響するかは明確ではありません。locfitでは、nnパラメーターは使用される近傍のスパンを制御します。値を小さくすると、平滑化が少なくなり、「ウィグリング」が増えます。これにより、二項の結果の確率が急速に変化するグリッド上の一部の領域をキャプチャできます。同様に動作するように、gamモデルを設定するにはどうすればよいですか?
14 r  smoothing  mgcv 

4
時系列データの平滑化
私は睡眠中に加速度計データを記録するアンドロイドアプリケーションを構築します。これにより、睡眠の傾向を分析し、必要に応じて、浅い睡眠中に希望する時間近くにユーザーを起床します。 アラームと同様に、データを収集して保存するコンポーネントをすでに構築しています。睡眠データを本当に意味のある明確な方法で表示して保存するという獣に取り組む必要があります。これは、分析にも役立つことが望ましい方法です。 数枚の写真が2000語を言います:(担当者が少ないため、リンクは1つしか投稿できません) これは、30秒間隔で収集された、フィルタリングされていないデータ、つまり移動の合計です。 そして、移動平均平滑化の私自身の明示によって平滑化された同じデータ 編集)両方のチャートにキャリブレーションが反映されます-最小の「ノイズ」フィルターと最大カットオフフィルター、およびアラームトリガーレベル(白い線)があります 残念ながら、これらはどちらも最適なソリューションではありません。1つ目は平均的なユーザーにとって少しわかりにくいもので、2つ目は理解しやすいもので、実際に起こっていることの多くを隠しています。特に、平均化により動きのスパイクの詳細が削除されます。これらは意味があると思います。 では、なぜこれらのチャートはそれほど重要なのでしょうか?これらの時系列は、ユーザーへのフィードバックとして一晩中表示され、後で確認/分析するために保存されます。スムージングは​​、理想的にはメモリコスト(RAMとストレージの両方)を削減し、これらのリソース不足の携帯電話/デバイスでのレンダリングを高速化します。 明らかにデータを平滑化するより良い方法があります。線形回帰を使用して動きの「シャープ」な変化を見つけ出し、移動平均平滑化を修正するなど、漠然としたアイデアがあります。より最適に解決できるものに真っ先に飛び込む前に、私は本当にいくつかのガイダンスと入力が本当に必要です。 ありがとう!

2
カルマンフィルターは、いつ単純な移動平均よりも良い結果を出しますか?
最近、ランダムな速度と加速度で粒子の位置を測定する簡単な例にカルマンフィルターを実装しました。カルマンフィルターはうまく機能することがわかりましたが、次に、これと移動平均を行うことの違いは何ですか?移動平均がカルマンフィルターよりも優れている約10サンプルのウィンドウを使用した場合、カルマンフィルターを使用すると移動平均を使用するだけの利点がある例を見つけようとしていることがわかりました。 移動平均はカルマンフィルターよりもはるかに直感的で、状態空間のメカニズムを気にせずに盲目的に信号に適用できます。私はここで基本的な何かを見逃しているように感じます、そして誰かが提供することができるどんな援助も感謝します。

5
平滑化されたデータからRの変曲点を見つける
私が使用して滑らかにしたいくつかのデータがありますloess。平滑化された線の変曲点を見つけたいです。これは可能ですか?私は誰かがこれを解決するための派手な方法を作っていると確信しています...つまり...結局のところ、それはRです! 使用する平滑化機能を変更しても問題ありません。それloessは私が過去に使用したものだからです。ただし、平滑化機能は問題ありません。変曲点は、使用する平滑化関数に依存することを理解しています。大丈夫です。変曲点を吐き出すのに役立つ平滑化関数を用意することから始めたいと思います。 私が使用するコードは次のとおりです。 x = seq(1,15) y = c(4,5,6,5,5,6,7,8,7,7,6,6,7,8,9) plot(x,y,type="l",ylim=c(3,10)) lo <- loess(y~x) xl <- seq(min(x),max(x), (max(x) - min(x))/1000) out = predict(lo,xl) lines(xl, out, col='red', lwd=2)
13 r  smoothing  loess 

2
カルマンフィルターの使用方法
2D空間(サーフェス)にオブジェクトの軌跡があります。軌跡は一連の(x,y)座標として与えられます。私の測定値はノイズが多く、時には明らかな外れ値があることを知っています。だから、私は私の観測をフィルタリングしたい。 カルマンフィルターを理解している限り、それはまさに必要なことを行います。だから、私はそれを使用しようとします。ここで python実装を見つけました。そして、これはドキュメントが提供する例です: from pykalman import KalmanFilter import numpy as np kf = KalmanFilter(transition_matrices = [[1, 1], [0, 1]], observation_matrices = [[0.1, 0.5], [-0.3, 0.0]]) measurements = np.asarray([[1,0], [0,0], [0,1]]) # 3 observations kf = kf.em(measurements, n_iter=5) (filtered_state_means, filtered_state_covariances) = kf.filter(measurements) (smoothed_state_means, smoothed_state_covariances) = kf.smooth(measurements) 入力と出力の解釈に問題があります。それmeasurementsが私の測定値(座標)であると思います。例の測定値は整数であるため、少し混乱していますが。 私もいくつか提供する必要がtransition_matricesありobservation_matricesます。そこにどんな価値を置くべきですか?これらの行列はどういう意味ですか? 最後に、出力はどこにありますか?それがあるべきfiltered_state_meansかsmoothed_state_means。これらの配列には正しい形状があります(2, n_observations)。ただし、これらの配列の値は元の座標から離れすぎています。 それでは、このカルマンフィルターの使用方法は?

2
ラプラス平滑化とディリクレ事前
ラプラス平滑化(または加法平滑化)のウィキペディアの記事では、ベイズの観点から、 これは、事前分布としてパラメーターを持つ対称ディリクレ分布を使用して、事後分布の期待値に対応します。αα\alpha それが実際にどのように真実であるかについて私は困惑しています。誰かが私にそれらの2つのものが同等である方法を理解するのを手伝ってくれる? ありがとう!

1
スムージングスプラインの長所と短所
一般的な質問があります。最近、ベーシス展開と正則化を学びました。三次スプライン、自然スプライン、b-スプライン、平滑化スプラインなど、いくつかの興味深いテクニックがあります。 問題は、ユーザーがノットを選択する必要がある「典型的な」3次の自然スプラインと比較した場合の、平滑化スプラインの長所と短所(ある場合)は何ですか? まあ、一般的に、実際の問題のコンテキストなしで、どちらの方法が優れているかを人々に尋ねるのは愚かです。したがって、私はあなたの経験に基づいて、どちらが良いのかを尋ねています。 私が見ることができる長所の1つは、ノットの選択を避けるスムージングスプラインテクニックです。

2
カーネル密度推定におけるカーネル帯域幅
私は、N次元で、重み付けされたポイントセット(つまり、各サンプルに必要ではない重みがある)を使用して、カーネル密度推定を行っています。また、これらのサンプルはメトリック空間にあります(つまり、サンプル間の距離を定義できます)が、他には何もありません。たとえば、サンプルポイントの平均や標準偏差を決定したり、ある変数を別の変数と比較してスケーリングしたりすることはできません。カーネルは、この距離と各サンプルの重みの影響を受けるだけです。 f(x)=1.∑weightsi∗∑weightih∗Kernel(distance(x,xi)h)f(x)=1.∑weightsi∗∑weightih∗Kernel(distance(x,xi)h)f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h}) この文脈では、カーネル帯域幅ロバストな推定を見つけようとしています。空間的に変化する可能性があり、トレーニングデータセット正確に再構成することができます。必要に応じて、関数は比較的滑らかであると想定できます。hhhxixix_i 最初または2番目に近い隣人までの距離を使用してみましたが、かなり悪い結果になります。私はリーブワンアウトの最適化を試しましたが、Ndのこのコンテキストで最適化するための適切な手段を見つけるのが難しいため、特にトレーニングサンプル自体について、非常に悪い推定値を見つけます。標準偏差を計算できないため、通常の仮定に基づく貪欲な推定は使用できません。異方性カーネルを取得するために共分散行列を使用している参照を見つけましたが、繰り返しになりますが、この空間には当てはまりません... 誰かがアイデアやリファレンスを持っていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.