タグ付けされた質問 「fitting」

統計モデルを特定のデータセットに適合させるプロセス。主にコンピューターで行われ、最適化や数値積分、シミュレーションなどのさまざまな数値手法を使用します。

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

6
正弦波項をデータに適合させる
私はこの投稿を読みましたが、これを自分のデータに適用する方法がまだわからず、誰かが私を助けてくれることを願っています。 次のデータがあります。 y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, 11.687638, 11.947783, 12.228909, 11.918379, 12.343574, 12.046851, 12.316508, 12.147746, 12.136446, 11.744371, 8.317413, 8.790837, 10.139807, 7.019035, 7.541484, 7.199672, 9.090377, 7.532161, 8.156842, 9.329572, 9.991522, …
26 r  regression  fitting 

1
カウントデータでの外れ値の検出
私は、多くの異なるカウントデータセットの外れ値の検出を伴う、かなり単純な問題であると単純に考えたものがあります。具体的には、一連のカウントデータ内の1つ以上の値が、分布内の残りのカウントと比較して予想よりも高いか低いかを判断します。 交絡要因は、3,500の分布に対してこれを行う必要があることであり、それらの一部はゼロ膨張した過分散ポアソンに適合する可能性がありますが、他のものは負の二項分布またはZINBに最も適合する可能性がありますが、他の分布は正規分布する可能性があります。このため、単純なZスコアまたは分布のプロットは、多くのデータセットには適していません。外れ値を検出するカウントデータの例を次に示します。 counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 1 2 1 1 1 1 1 1 …

1
分析的なヤコビアンが利用可能な場合、ヘッセ行列をで近似するか、ヤコビアンの有限差分で近似する方が良いでしょうか?
いくつかのモデルパラメーターを計算して、残差の2乗和を最小化し、誤差がガウス分布であると仮定するとします。私のモデルは分析的な微分を生成するため、オプティマイザーは有限差分を使用する必要がありません。適合が完了したら、適合パラメーターの標準誤差を計算します。 一般に、この状況では、エラー関数のヘッシアンは次のように共分散行列に関連付けられます: ここで、は残差の分散です。σ 2σ2H−1=Cσ2H−1=C \sigma^2 H^{-1} = C σ2σ2\sigma^2 誤差の分析的微分が利用できない場合、ヘッシアンを計算することは通常非実用的であるため、が適切な近似として採用されます。JTJJTJJ^TJ ただし、私の場合、分析Jを持っているので、有限差分JでHを計算するのは比較的安価です。 したがって、私の質問は次のとおりです:正確なJを使用してHを近似し、上記の近似を適用するか、Jを有限差分Jで近似する方が正確ですか?

1
適合確率分布におけるMLEと最小二乗
私が読んだいくつかの論文、本、記事に基づいて得た印象は、データのセットに確率分布を当てはめる推奨方法は最尤推定(MLE)を使用することです。ただし、物理学者としてのより直感的な方法は、最小二乗法を使用して、モデルのpdfをデータの経験的pdfに適合させることです。なぜ確率分布の近似においてMLEが最小二乗よりも優れているのですか?誰かがこの質問に答える科学論文/本を教えてもらえますか? 私の考えは、MLEがノイズモデルを想定しておらず、経験的pdfの「ノイズ」が異分散であり、正常ではないためです。

3
Rのt分布のフィッティング:スケーリングパラメーター
t分布のパラメーター、つまり正規分布の「平均」と「標準偏差」に対応するパラメーターをどのように適合させますか。私はそれらがt分布の「平均」と「スケーリング/自由度」と呼ばれていると思いますか? 次のコードは、多くの場合「最適化に失敗しました」エラーになります。 library(MASS) fitdistr(x, "t") 最初にxをスケーリングするか、確率に変換する必要がありますか?それを行うのに最適な方法は?

2
回帰分析と曲線近似の違い
可能であれば例を使って、回帰分析と曲線近似(線形および非線形)の実際の違いを説明してもらえますか? どちらも2つの変数間の関係(従属と独立)を見つけようとし、提案されているモデルに関連するパラメーター(または係数)を決定しようとするようです。たとえば、次のようなデータセットがある場合: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] 誰もがこれら2つの変数間の相関式を提案できますか?これら2つのアプローチの違いを理解するのが困難です。他のデータセットで答えをサポートしたい場合、それは適合しにくいと思われるので大丈夫です(おそらく私だけのために)。 上記のデータセットは、受信者動作特性(ROC)曲線のおよび軸を表します。ここで、は真陽性率(TPR)、は偽陽性率(FPR)です。xxxy xyyyyyyxxx 特定のFPR(またはその逆)のTPRを推定するために、これらのポイントの中で、曲線を近似するか、元の質問に従って回帰分析を行っていますが、まだ定かではありません。 まず、2つの独立変数(TPRとFPR)の間にこのような曲線近似関数を見つけることは科学的に受け入れられますか? 第二に、実際のネガティブなケースと実際のポジティブなケースの分布が正規でないことを知っている場合、そのような関数を見つけることは科学的に受け入れられますか?

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

5
線形回帰が、仮説と入力データポイント間の垂直距離に基づくコスト関数を使用するのはなぜですか?
入力(予測)および出力(応答)データポイントA、B、C、D、Eがあり、それらのポイントを通る直線を当てはめたいとします。これは質問を説明するための簡単な問題ですが、より高い次元にも拡張できます。 問題文 現在の最適または仮説は、上の黒い線で表されています。青い矢印()は、ポイントから直線と交差するまで垂直線を引くことにより、データポイントと現在の最適な点との間の垂直距離を表します。→→\color{blue}\rightarrow 緑の矢印()は、交差点で現在の仮説に垂直になるように描画され、データ点と現在の仮説の間の最小距離を表します。ポイントAおよびBの場合、現在の最良の推測に垂直で、x軸に垂直な線に類似するように描かれた線。これらの2つのポイントでは、青と緑の線が重なりますが、C、D、Eの点では重なりません。→→\color{green}\rightarrow 最小二乗の原理は、データポイント(A、B、C、D、またはE)を介して推定仮説(→→\color{blue}\rightarrow任意のトレーニングサイクルで)までます。 、およびによって表されます CostFunction=∑Ni=1(yi−hθ(xi))2CostFunction=∑i=1N(yi−hθ(xi))2Cost Function = \sum_{i=1}^N(y_i-h_\theta(x_i))^2 ここではデータポイントを表し、(xi,yi)(xi,yi)(x_i, y_i)hθ(xi)hθ(xi)h_\theta(x_i)は最適な近似を表します。 ポイント(A、B、C、D、またはE)間の最小距離は、そのポイントから現在の最良の推測(緑の矢印)まで引いた垂直線で表されます。 最小二乗関数の目的は、最小化されたときに仮説とすべてのポイントを組み合わせた距離が最小になる目的関数を定義することですが、必ずしも仮説と単一の入力ポイント間の距離は最小化されません。 **質問** ()?→→\color{green}\rightarrow

3
データ系列のセグメントをプログラムで検出して、異なる曲線に合わせるにはどうすればよいですか?
特定のデータセットのセクションを最適な曲線に分割するための文書化されたアルゴリズムはありますか? たとえば、このデータチャートを見るほとんどの人間は、それを3つの部分に容易に分割します:正弦波セグメント、線形セグメント、および逆指数セグメント。実際、私はこの特定のものを正弦波、直線、および単純な指数公式で作成しました。 そのような部品を見つけるための既存のアルゴリズムはありますか?その後、さまざまな曲線/線に個別に適合させて、データのサブセットの最適な種類の複合シリーズを作成できますか? この例では、セグメントの両端がほぼ並んでいますが、必ずしもそうではないことに注意してください。セグメントのカットオフで値が突然揺れることもあります。おそらく、それらのケースは検出しやすいでしょう。 更新:これは、実世界のデータの小さな画像です: 更新2:これは異常に小さい実世界のデータセットです(509データポイントのみ): 4,53,53,53,53,58,56,52,49,52,56,51,44,39,39,39,37,33,27,21,18,12,19,30,45,66,92,118,135,148,153,160,168,174,181,187,191,190,191,192,194,194,194,193,193,201,200,199,199,199,197,193,190,187,176,162,157,154,144,126,110,87,74,57,46,44,51,60,65,66,90,106,99,87,84,85,83,91,95,99,101,102,102,103,105,110,107,108,135,171,171,141,120,78,42,44,52,54,103,128,82,103,46,27,73,123,125,77,24,30,27,36,42,49,32,55,20,16,21,31,78,140,116,99,58,139,70,22,44,7,48,32,18,16,25,16,17,35,29,11,13,8,8,18,14,0,10,18,2,1,4,0,61,87,91,2,0,2,9,40,21,2,14,5,9,49,116,100,114,115,62,41,119,191,190,164,156,109,37,15,0,5,1,0,0,2,4,2,0,48,129,168,112,98,95,119,125,191,241,209,229,230,231,246,249,240,99,32,0,0,2,13,28,39,15,15,19,31,47,61,92,91,99,108,114,118,121,125,129,129,125,125,131,135,138,142,147,141,149,153,152,153,159,161,158,158,162,167,171,173,174,176,178,184,190,190,185,190,200,199,189,196,197,197,196,199,200,195,187,191,192,190,186,184,184,179,173,171,170,164,156,155,156,151,141,141,139,143,143,140,146,145,130,126,127,127,125,122,122,127,131,134,140,150,160,166,175,192,208,243,251,255,255,255,249,221,190,181,181,181,181,179,173,165,159,153,162,169,165,154,144,142,145,136,134,131,130,128,124,119,115,103,78,54,40,25,8,2,7,12,25,13,22,15,33,34,57,71,48,16,1,2,0,2,21,112,174,191,190,152,153,161,159,153,71,16,28,3,4,0,14,26,30,26,15,12,19,21,18,53,89,125,139,140,142,141,135,136,140,159,170,173,176,184,180,170,167,168,170,167,161,163,170,164,161,160,163,163,160,160,163,169,166,161,156,155,156,158,160,150,149,149,151,154,156,156,156,151,149,150,153,154,151,146,144,149,150,151,152,151,150,148,147,144,141,137,133,130,128,128,128,136,143,159,180,196,205,212,218,222,225,227,227,225,223,222,222,221,220,220,220,220,221,222,223,221,223,225,226,227,228,232,235,234,236,238,240,241,240,239,237,238,240,240,237,236,239,238,235 ここでは、いくつかの既知の実世界の要素のエッジの近似位置を点線で示してグラフ化していますが、これは通常はあり得ない贅沢です。 しかし、私たちが持っている贅沢の1つは後知恵です。私の場合のデータは時系列ではなく、空間的に関連しています。データセット全体(通常は5000〜15000データポイント)を一度に分析するのが理にかなっており、継続的な方法ではありません。

3
コルモゴロフ-スミルノフ検定を使用して分布パラメーターを推定できますか?
コルモゴロフ-スミルノフ検定を使用して、サンプルからパラメーターが推定された分布の適合度を検定するべきではないことを読みました。 サンプルを2つに分割し、前半をパラメーター推定に使用し、後半をKSテストに使用するのは理にかなっていますか? 前もって感謝します

1
指数近似の残差平方和を最小化する方法は?
次のデータがあり、負の指数関数的成長モデルを当てはめたいと思います。 Days <- c( 1,5,12,16,22,27,36,43) Emissions <- c( 936.76, 1458.68, 1787.23, 1840.04, 1928.97, 1963.63, 1965.37, 1985.71) plot(Days, Emissions) fit <- nls(Emissions ~ a* (1-exp(-b*Days)), start = list(a = 2000, b = 0.55)) curve((y = 1882 * (1 - exp(-0.5108*x))), from = 0, to =45, add = T, col = "green", …

1
対数正規分布の算術平均が分布平均よりも小さいのはなぜですか?
そのため、対数正規分布のランダム変数生成するランダムプロセスがありますXXX。対応する確率密度関数は次のとおりです。 元の分布のいくつかのモーメントの分布を推定したいと考えました。1番目のモーメント、つまり算術平均です。そのために、算術平均の10000の推定値を計算できるように、100個のランダム変数を10000回描画しました。 その平均を見積もるには、2つの異なる方法があります(少なくとも、それは私が理解したことです:私は間違っているかもしれません)。 はっきり平均算術通常の方法を計算することによって: X¯=∑i=1NXiN.X¯=∑i=1NXiN.\bar{X} = \sum_{i=1}^N \frac{X_i}{N}. または、基礎となる正規分布から最初におよびμを推定することによって:μ = N ∑ i = 1 log (X i)σσ\sigmaμμ\mu、次に平均として ˉ X =EXP(μ+1μ=∑i=1Nlog(Xi)Nσ2=∑i=1N(log(Xi)−μ)2Nμ=∑i=1Nlog⁡(Xi)Nσ2=∑i=1N(log⁡(Xi)−μ)2N\mu = \sum_{i=1}^N \frac{\log (X_i)}{N} \quad \sigma^2 = \sum_{i=1}^N \frac{\left(\log (X_i) - \mu\right)^2}{N}X¯=exp(μ+12σ2).X¯=exp⁡(μ+12σ2).\bar{X} = \exp(\mu + \frac{1}{2}\sigma^2). 問題は、これらの各推定値に対応する分布が体系的に異なることです。 「プレーン」平均(赤い破線で表される)は、指数形式(緑のプレーン線)から得られる値よりも一般に低い値を提供します。両方の平均はまったく同じデータセットで計算されますが。この違いは体系的であることに注意してください。 なぜこれらの分布は等しくないのですか?

2
異なるシリーズのARIMA対ARMA
R(2.15.2)では、時系列にARIMA(3,1,3)を1回、かつ時差のある時系列にARMA(3,3)を1回当てはめました。当てはめられたパラメータは異なります。これは、ARIMAの当てはめ方法に起因します。 また、ARMA(3,3)と同じデータにARIMA(3,0,3)をフィッティングしても、使用するフィッティング方法に関係なく、同じパラメーターにはなりません。 私は、ARMAと同じ適合係数を得るために、違いがどこから来て、どのパラメーターでARIMAに適合するか(もしあれば)を特定することに興味があります。 実証するサンプルコード: library(tseries) set.seed(2) #getting a time series manually x<-c(1,2,1) e<-c(0,0.3,-0.2) n<-45 AR<-c(0.5,-0.4,-0.1) MA<-c(0.4,0.3,-0.2) for(i in 4:n){ tt<-rnorm(1) t<-x[length(x)]+tt+x[i-1]*AR[1]+x[i-2]*AR[2]+x[i-3]*AR[3]+e[i-1]*MA[1]+e[i-2]*MA[2]+e[i-3]*MA[3] x<-c(x,t) e<-c(e,tt) } par(mfrow=c(2,1)) plot(x) plot(diff(x,1)) #fitting different versions. What I would like to get is fit1 with ARIMA() fit1<-arma(diff(x,1,lag=1),c(3,3),include.intercept=F) fit2<-arima(x,c(3,1,3),include.mean=F) fit3<-arima(diff(x,1),c(3,0,3),include.mean=F) fit4<-arima(x,c(3,1,3),method="CSS",include.mean=F) fit5<-arima(diff(x,1),c(3,0,3),method="CSS",include.mean=F) cbind(fit1$coe,fit2$coe,fit3$coe,fit4$coe,fit5$coe) 編集:条件付き二乗和の使用はかなり近づきますが、完全ではありません。fit1のヒントをありがとう! 編集2:これは重複しているとは思わない。ポイント2と3は、私のものとは異なる問題に対処し、ポイント1で述べた初期化をオーバーライドしても fit4<-arima(x,c(3,1,3),method="CSS",include.mean=F,init=fit1$coe) 私はまだ異なる係数を取得します
13 r  time-series  arima  fitting  arma 

1
AIC / BIC:順列は何個のパラメーターをカウントしますか?
モデル選択の問題があり、AICまたはBICを使用してモデルを評価しようとしているとします。これは、の実数値パラメーターを持つモデルの場合、簡単です。kkk しかし、モデルの1つ(たとえばMallowsモデル)に順列があり、実際の値のパラメーターではなく、実際の値のパラメーターがいくつかある場合はどうでしょうか。モデルパラメーターの尤度を最大化することもできます。たとえば、置換とパラメーター取得します。ただし、はAIC / BICの計算にカウントされますか?ππ\pipppππ\pi

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.