タグ付けされた質問 「interpolation」

一連の2変量データ(x、y)が与えられ、xの値がの測定値の範囲内にある場合、yの測定値がないxの値に対応するyの値を代入することを補間と呼びますバツ。

4
外挿v。内挿
外挿と内挿の違いは何ですか?また、これらの用語を使用する最も正確な方法は何ですか? たとえば、次のような補間を使用した論文の文を見ました。 「手順は、ビン点間の推定関数の形状を補間します」 外挿と内挿の両方を使用する文は、たとえば次のとおりです。 前のステップでは、カーネル法を使用して補間関数を左と右の温度テールに外挿しました。 誰かがそれらを区別し、例を使用してこれらの用語を正しく使用する方法を導くための明確で簡単な方法を提供できますか?

2
スプライン、平滑化スプライン、およびガウスプロセスエミュレーターを使用する利点/欠点は何ですか?
多項式補間の代替方法を学習(および実装)することに興味があります。 しかし、これらの方法のしくみ、関連性、比較方法についての適切な説明を見つけるのに苦労しています。 これらの方法や代替案が役立つ長所/短所/条件についてのご意見をいただければ幸いですが、テキスト、スライド、ポッドキャストへの適切な参照があれば十分です。

1
統計表に記載されていない(内挿する)値を見つけるにはどうすればよいですか?
多くの場合、人々はプログラムを使用してp値を取得しますが、場合によっては-何らかの理由で、テーブルのセットから重要な値を取得する必要がある場合があります。 限られた数の有意水準と限られた数の自由度を持つ統計表が与えられた場合、他の有意水準または自由度(、カイ2乗、表など)で近似臨界値を取得する方法?tttFFF つまり、テーブル内の値の「間にある」値を見つけるにはどうすればよいですか?

8
補間は回帰の概念にどのように関連していますか?
補間の意味を簡単に説明してください。回帰の概念とどのように関連していますか? 補間は、テーブルの行間を読み取る技術であり、初等数学では、この用語は通常、関数の与えられた値または表値のセットから関数の中間値を計算するプロセスを示します。 2番目の質問には答えられません。助けてください

3
多変量の自然な3次スプラインの近似
注: 1か月後に正しい答えが得られないため、SOに再投稿しました バックグラウンド モデルがあり、Y = f (X)fffY=f(X)Y=f(X)Y=f(\textbf{X}) n × m m Y n × 1XX\textbf{X}はパラメーターからのサンプルの行列で、はモデル出力のベクトルです。n×mn×mn \times mmmmYYYn×1n×1n \times 1 f (X 、Y )Yfffは計算量が多いためポイントを通る多変量3次スプラインを使用してを近似し、より多くのポイントでを評価できるようにします。fff(X、Y)(バツ、Y)(X,Y)YYY 質問 XとYの間の任意の関係を計算するR関数はありますか? 具体的にはsplinefun、単変量の場合にスプライン関数を生成する関数の多変量バージョンを探しています。 たとえば、これはsplinefun単変量の場合にどのように機能するかです x <- 1:10 y <- runif(10) foo <- splinefun(x,y) foo(1:10) #returns y, as example all(y == foo(1:10)) ## TRUE 私が試したこと mdaパッケージを確認しましたが、次のように動作するはずです。 library(mda) x …

2
補間の統計的正当化とは何ですか?
2つのポイント(次の図:黒丸)があり、それらの間の3番目のポイント(クロス)の値を検索するとします。実際、実験結果である黒点に基づいて推定します。最も単純な場合は、線を引き、値を見つけることです(つまり、線形補間)。たとえば、両側に茶色のポイントなどのサポートポイントがある場合、それらの恩恵を受けて、非線形曲線(緑色の曲線)に適合することを好みます。 問題は、赤十字を解決策としてマークする統計的推論は何ですか?なぜ他の十字架(例:黄色の十字架)が、彼らがいるはずの答えではないのですか?どのような推論または(?)によって赤いものを受け入れるように促されますか? この非常に単純な質問に対する回答に基づいて、元の質問を作成します。

4
週平均を保存するインフルエンザデータの補間
編集 必要な手順を正確に説明した論文を見つけました。唯一の違いは、月ごとの平均を維持しながら、月ごとの平均データを日ごとに補間することです。でアプローチを実装するのに苦労していRます。ヒントは大歓迎です。 元の 各週には、次のカウントデータがあります(1週間に1つの値)。 医師の診察件数 インフルエンザの症例数 私の目標は、補間によって毎日のデータを取得することです(線形または切り捨てられたスプラインを考えました)。重要なことは、毎週の平均を保存したいということです。つまり、毎日補間されたデータの平均は、今週の記録値と等しくなるはずです。さらに、補間はスムーズでなければなりません。発生する可能性のある問題の1つは、特定の週の7日未満(たとえば、年の初めまたは終わり)であるということです。 この問題に関するアドバイスに感謝します。 どうもありがとう。 1995年(更新)のサンプルデータセットを次に示します。 structure(list(daily.ts = structure(c(9131, 9132, 9133, 9134, 9135, 9136, 9137, 9138, 9139, 9140, 9141, 9142, 9143, 9144, 9145, 9146, 9147, 9148, 9149, 9150, 9151, 9152, 9153, 9154, 9155, 9156, 9157, 9158, 9159, 9160, 9161, 9162, 9163, 9164, 9165, 9166, 9167, 9168, …

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
クリギング補間はどのように機能しますか?
私は、周囲のいくつかの変数に基づいていくつかの変数の値を予測するためにクリギングを使用する必要がある問題に取り組んでいます。自分でコードを実装したい。それで、私はそれがどのように機能するかを理解するためにあまりにも多くの文書を調べましたが、私はとても混乱していました。一般に、加重平均だと理解していますが、重みを計算して変数の値を予測するプロセスを完全には理解できませんでした。 誰かがこの補間方法の数学的な側面とそれがどのように機能するかを簡単な言葉で私に説明していただけますか?

1
フーリエ/三角補間
バックグラウンド Epstein(1991)の論文では、毎月の平均値から毎日の気候値を取得する際に、定周期および等間隔の値のフーリエ補間を計算するための公式とアルゴリズムが示されています。 この論文では、補間によって月次平均から日次値を取得することが目標です。 要するに、未知の毎日の値は調和成分の合計で表すことができると仮定されます: 紙で Tヶ月で表される(時間)。y(t )= a0+ ∑j[ ajcos(2 πj t / 12 )+ bj罪(2 πj t / 12 )]y(t)=a0+Σj[ajcos⁡(2πjt/12)+bj罪⁡(2πjt/12)] y(t) = a_{0} + \sum_{j}\left[a_{j}\,\cos(2\pi jt/12)+b_{j}\,\sin(2\pi jt/12)\right] ttt 多少の偏差の後、項は次のように計算できることが示されます: ここで、YTは月の平均、Tは月の平均を示します。a0ajbja6b6= ∑TYT/ 12= [ (πj / 12 )/罪(πj / 12 )] × ∑T[ YTcos(2 πj T/ 12) / 6]j=1、…、5 = …

2
クリギングに関する混乱
私はクリギングに関するウィキペディアの記事を読んでいました。と言われても分からなかった クリギングは、不偏推定量線形最良を計算の、のクリギング分散が不偏状態で最小化されるように。導出も得られませんでした。また、分散を最小化する方法もわかりませんでした。助言がありますか?Z(X0)Z^(x0)Z^(バツ0)\hat Z (x_0)Z(x0)Z(バツ0)Z(x_0) 特に、偏りのない状態で最小化された条件が適用される部分が見つかりませんでした。 だったと思う E [Z '(x)-Z(x)]の代わりにE [Z'(x0)-Z(x0)]はそうではありません。'はWiki記事のhatに相当します。また、クリギングエラーがどのように導出されるのかわかりませんでした

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
定常性-仮定と検討
150 x 150メートルで、15メートル間隔で等間隔​​に配置された121のトラップステーションで構成される6つの恒久的なげっ歯類捕獲グリッドでのげっ歯類の捕獲を調べています。調査サイトには、サイズが1000ヘクタール未満のこのようなトラップグリッドが6つあります。キャプチャデータを補間して、げっ歯類の活動のクリグドサーフェスを作成します。補間の前提は、データが静止していることです。 フォルタン&デール(2005)の状態 定常性は、サンプリングされていない場所でのデータの空間構造のプロセスを特徴付けるモデルから推論を行うために必要です。 私が理解していることから、その統計的特性(平均と分散)が空間全体で変化しない場合、プロセスは定常的であると説明できます。 しかし、最初に空間分析を行う理由は、空間全体の変動ではないでしょうか。 定常性は、空間/地理統計分析の文献で頻繁に紹介されていますが、私はまだ確かな方向性と情報を見つける必要があります どのスケール、またはどのタイプの研究についても、データが静止していると仮定するのが妥当です。 データを検査および検証する方法が定常的であり、最後に ある方法でいったん定量化されると、ある領域から次の領域へのどれだけの違いがデータを非定常として認定しますか? これまでのところ、文献をレビューした後、概念と定常性の検査は非常に主観的、恣意的、および/または難読化されているようです。 誰かがこの問題について実用的なアドバイスを提供できるなら、私はそれを大いに感謝します!


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.